Thông thường các hệ thống
nhận diện người đi bộ thế hệ cũ sẽ cắt hình ảnh ra thành nhiều mảnh nhỏ hơn, sau đó xử lý, phân loại để nhận diện ra có người hay không. Cách tiếp cận này vẫn chưa đáp ứng được nhu cầu thực tế do người đi bộ có thể có nhiều kích cỡ khác nhau, chiều cao khác nhau và tùy thuộc vào khoảng cách từ họ tới máy ảnh, vị trí của họ trong khung hình mà các biến số sẽ thay đổi không lường trước được. Thường thì hàng triệu mảnh cần phải được nhận diện trong đoạn video có tốc độ từ 5 -30 hình/giây.
Chưa dừng lại ở đó, người ta sẽ sử dụng một thuật toán theo kiểu thác đổ với các giai đoạn khác nhau để nhận biết người đi bộ. Đầu tiên, thuật toán sẽ nhanh chóng nhận diện và loại bỏ những mảnh hình ảnh có thể dễ nhận ra là không có người, thí dụ như bầu trời,... Sau đó, giai đoạn tiếp theo sẽ xử lý những mảnh có độ khó cao hơn, thí dụ như cây cối vốn có hình dạng, màu sắc, đường nét giống con người. Trong giai đoạn cuối cùng, thuật toán phải phân biệt giữa người đi bộ và các đối tượng rất giống. Tuy nhiên, do các khung ảnh đã được loại bỏ gần hết nên giai đoạn này sẽ tương đối nhẹ nhàng hơn, thuật toán chỉ xử lý một vài đối tượng, từ đó tốc độ và độ chính xác sẽ cao hơn.
Tuy nhiên, điểm đáng nói ở đây là các hệ thống cũ đều sử dụng các "weak learners" (trình độ nhận diện đơn giản) để đảm nhận công tác phân loại ở từng giai đoạn. Và cứ qua mỗi giai đoạn, độ khó sẽ tăng lên, số lượng "weak learners" cũng được tăng lên để đản bảo hiệu suất. Mặc dù cách làm này là khá nhanh, nhưng nó lại không đủ mạnh mẽ để phân loại ở cấp độ cuối cùng với các đối tượng gần như giống nhau trong các "weak learners" đều có trình độ như nhau nên dù có nhiều cũng không giải quyết được vấn đề.
Bấm để mở rộng...