Năm 1943, trong khi các nhà vật lý hàng đầu thế giới đang cố tìm cách chia tách nguyên tử ở Dự án Manhattan, nhà tâm lý học người Mỹ B.F. Skinner lại dẫn dắt một dự án bí mật khác của chính phủ Mỹ, để giành chiến thắng trong Chiến tranh Thế giới thứ hai.
Skinner không tìm cách chế tạo một loại vũ khí mới, với sức phá hủy khủng khiếp hơn. Thay vào đó, ông muốn làm cho bom thông thường trở nên chính xác hơn. Ý tưởng này nảy sinh khi ông nhìn ra cửa sổ tàu trên đường đến một hội nghị học thuật. "Tôi thấy một đàn chim bay lượn theo đội hình bên cạnh đoàn tàu," ông viết. "Đột nhiên, tôi nhận ra chúng như những 'thiết bị' với tầm nhìn và khả năng cơ động tuyệt vời. Có khi nào chúng có thể dẫn đường cho tên lửa?"
Skinner bắt đầu nghiên cứu tên lửa của mình với chim sẻ, nhưng loài chim đen thông minh này tỏ ra khó bảo. Vì vậy, ông đến một cửa hàng bán bồ câu cho các nhà hàng Trung Quốc, và "Dự án Chim Bồ Câu" (Project Pigeon) đã ra đời.
Mặc dù chim bồ câu thường, tên khoa học Columba livia, không được coi là một loài động vật thông minh, chúng lại tỏ ra rất hợp tác trong phòng thí nghiệm.
Skinner không tìm cách chế tạo một loại vũ khí mới, với sức phá hủy khủng khiếp hơn. Thay vào đó, ông muốn làm cho bom thông thường trở nên chính xác hơn. Ý tưởng này nảy sinh khi ông nhìn ra cửa sổ tàu trên đường đến một hội nghị học thuật. "Tôi thấy một đàn chim bay lượn theo đội hình bên cạnh đoàn tàu," ông viết. "Đột nhiên, tôi nhận ra chúng như những 'thiết bị' với tầm nhìn và khả năng cơ động tuyệt vời. Có khi nào chúng có thể dẫn đường cho tên lửa?"

Skinner bắt đầu nghiên cứu tên lửa của mình với chim sẻ, nhưng loài chim đen thông minh này tỏ ra khó bảo. Vì vậy, ông đến một cửa hàng bán bồ câu cho các nhà hàng Trung Quốc, và "Dự án Chim Bồ Câu" (Project Pigeon) đã ra đời.
Mặc dù chim bồ câu thường, tên khoa học Columba livia, không được coi là một loài động vật thông minh, chúng lại tỏ ra rất hợp tác trong phòng thí nghiệm.

Skinner thưởng cho chim ăn bằng thức ăn khi chúng mổ vào đúng mục tiêu trên ảnh chụp từ trên cao, và sau đó dự định gắn chặt chim vào một thiết bị ở mũi đầu đạn, nơi chúng sẽ điều khiển tên lửa bằng cách mổ vào mục tiêu trên màn hình hiển thị hình ảnh trực tiếp qua ống kính.
Quân đội chưa bao giờ triển khai ý tưởng "chim bồ câu tự sát" của Skinner, nhưng các thí nghiệm của ông đã thuyết phục ông rằng chim bồ câu là "một công cụ cực kỳ đáng tin cậy" để nghiên cứu các quá trình học tập cơ bản. Ông nói năm 1944: "Chúng ta sử dụng chim bồ câu, không phải vì chúng là loài chim thông minh, mà vì chúng rất thực tế và có thể áp dụng cho máy móc."

Những người tìm kiếm ý tưởng tiền thân của trí tuệ nhân tạo thường trích dẫn khoa học viễn tưởng của các tác giả như Isaac Asimov hoặc các thí nghiệm tư duy như Bài test Turing. Nhưng một yếu tố quan trọng, bất ngờ và ít được đề cập tới hơn chính là nghiên cứu của Skinner với chim bồ câu vào giữa thế kỷ XX. Skinner tin rằng sự kết hợp học tập thông qua thử và sai để liên kết một hành động với phần thưởng hoặc hình phạt, là nền tảng của mọi hành vi, không chỉ ở chim bồ câu mà còn ở tất cả các sinh vật sống, bao gồm cả con người.
Đáng tiếc là, những lý thuyết về hành vi của ông đã mất uy tín trong giới tâm lý học và các nhà nghiên cứu động vật vào những năm 1960. Nhưng vài chục năm sau, những lý thuyết này đã được các nhà khoa học máy tính đón nhận, những người đã đặt nền móng cho nhiều công cụ trí tuệ nhân tạo từ các công ty hàng đầu như Google và OpenAI.
Những phần mềm được gọi là AI tạo sinh của các công ty như thế này giờ ứng dụng một kỹ thuật gọi là "học tăng cường", khái niệm cốt lõi được lấy trực tiếp từ trường phái tâm lý học của Skinner. Những kiến trúc sư chính đã phát minh ra kỹ thuật này, Richard Sutton và Andrew Barto, đã giành giải thưởng Turing năm 2024.

Quảng cáo
Học tăng cường trong ngành machine learning đã giúp máy tính tự lái xe, giải quyết các bài toán phức tạp và đánh bại những người chơi cờ giỏi nhất trong các trò chơi như cờ vua và cờ vây, nhưng không phải bằng cách mô phỏng hoạt động phức tạp của tâm trí con người. Thay vào đó, nó đã khuếch đại các quá trình kết hợp đơn giản của não chim bồ câu.
Thứ mà Sutton coi là một "bài học cay đắng" sau 70 năm nghiên cứu về AI, ông viết: "Trí thông minh của con người chưa hoạt động như một mô hình phù hợp cho việc học máy. Thay vào đó, những nguyên tắc cơ bản của việc học kết hợp mới là thứ tạo ra sức mạnh cho các thuật toán có thể hiện tại hoặc vượt trội hơn con người trong nhiều nhiệm vụ. "
Nếu trí tuệ nhân tạo thực sự sắp thoát khỏi xiềng xích của những người sáng tạo ra nó, như nhiều người lo sợ, thì những "ông chủ" máy tính của chúng ta có thể không giống chúng ta mà giống như "những con chuột có cánh," với bộ não có kích thước bằng cả hành tinh. Ngay cả khi không phải vậy, bộ não chim bồ câu ít nhất cũng có thể giúp làm sáng tỏ một thứ công nghệ mà nhiều người coi là "đang dần được nhân cách hóa, càng lúc càng giống con người."
Ví dụ kinh điển trong sách giáo khoa Sinh học, Ivan Pavlov đã bắt đầu khám phá cơ chế của việc học kết hợp vào cuối thế kỷ XIX trong các thí nghiệm nổi tiếng của mình về "điều kiện cổ điển", cho thấy rằng chó sẽ tiết nước bọt với một kích thích trung tính, như một chiếc chuông hoặc ánh sáng nhấp nháy, nếu nó được ghép nối theo cách có thể dự đoán được với sự xuất hiện của thức ăn.
Vào giữa thế kỷ XX, Skinner đã lấy các nguyên tắc điều kiện hóa của Pavlov và mở rộng chúng từ phản xạ vô điều kiện của động vật sang hành vi tổng thể.

Quảng cáo
Skinner viết rằng "hành vi được định hình và duy trì bởi hệ quả của nó," rằng một hành động ngẫu nhiên với kết quả mong muốn, chẳng hạn như ấn vào đòn bẩy thả ra viên thức ăn, sẽ được "củng cố" để động vật có khả năng lặp lại. Skinner củng cố hành vi của các con vật thí nghiệm từng bước một, dạy chuột thao tác bi và chim bồ câu chơi những giai điệu đơn giản trên đàn piano bốn phím.
Nhiều kỹ sư ở nửa cuối thế kỷ XX đã cố gắng mô hình hóa AI dựa trên trí thông minh của con người, viết các chương trình phức tạp cố gắng bắt chước tư duy và thực hiện các quy tắc chi phối phản ứng và hành vi của con người. Cách tiếp cận này thường được gọi là "AI biểu tượng," và nó gặp phải những hạn chế nghiêm trọng.
Các chương trình gặp khó khăn với các nhiệm vụ mà con người dễ dàng thực hiện, chẳng hạn như nhận dạng đối tượng và từ ngữ. Đơn giản là không thể viết vào code lập trình vô số quy tắc phân loại mà con người sử dụng, chẳng hạn để phân biệt táo và cam hoặc mèo và chó. Và nếu thiếu nhận dạng mẫu, những đột phá trong các nhiệm vụ phức tạp hơn như giải quyết vấn đề, chơi game và dịch ngôn ngữ cũng trở nên khó khăn. Những nhà khoa học máy tính này, theo Hubert Dreyfus, một người hoài nghi về AI, viết vào năm 1972, đã đạt được "một chiến thắng kỹ thuật nhỏ, nhưng chỉ là một giải pháp cụ thể cho một vấn đề cụ thể, không có khả năng áp dụng chung."

Tuy nhiên, nghiên cứu về chim bồ câu lại gợi ý một giải pháp khác.
Một nghiên cứu năm 1964 cho thấy chim bồ câu có thể học cách phân biệt giữa ảnh chụp có người và ảnh chụp không có người. Các nhà nghiên cứu chỉ đơn giản là trình bày các loài chim với một loạt hình ảnh và thưởng chúng bằng viên thức ăn khi chúng mổ vào một hình ảnh có người.
Ban đầu chúng mổ ngẫu nhiên, nhưng nhanh chóng học được cách xác định đúng hình ảnh, bao gồm cả những bức ảnh mà con người bị che khuất một phần. Kết quả cho thấy bạn không cần các quy tắc để sắp xếp đối tượng. Có thể học các khái niệm và sử dụng các danh mục chỉ bằng việc học kết hợp.
Khi Sutton bắt đầu làm việc với Barto về AI vào cuối những năm 1970, họ muốn tạo ra một "tác nhân tìm kiếm mục tiêu tương tác hoàn chỉnh" có thể khám phá và ảnh hưởng đến môi trường của nó như một con chim bồ câu hoặc chuột. "Chúng tôi luôn cảm thấy rằng các vấn đề chúng tôi đang nghiên cứu gần với những gì động vật phải đối mặt trong quá trình tiến hóa để thực sự sống sót," Barto nói.
Tác nhân cần hai chức năng chính: Tìm kiếm, để thử và chọn từ nhiều hành động trong một tình huống, và trí nhớ, để liên kết một hành động với tình huống mà nó dẫn đến phần thưởng. Sutton và Barto gọi cách tiếp cận của họ là "học tăng cường." Năm 1998, họ xuất bản một nghiên cứu khoa học, một cuộc khám phá toàn diện về khái niệm trong một cuốn sách: Reinforcement Learning: An Introduction.
Trong hai thập kỷ sau đó, khi sức mạnh điện toán đã phát triển theo cấp số nhân, việc đào tạo AI cho các nhiệm vụ ngày càng phức tạp trở nên có thể, tức là về cơ bản, tạo ra những con "chim bồ câu" AI thông qua hàng triệu thử nghiệm khác nhau.

Các chương trình được đào tạo với sự kết hợp giữa đầu vào của con người và học tăng cường đã đánh bại các chuyên gia về cờ vua. Sau đó, vào năm 2017, các kỹ sư tại Google DeepMind đã phát triển chương trình AI đánh cờ vây, AlphaGo Zero, hoàn toàn thông qua học tăng cường, cung cấp cho nó phần thưởng số 1 cho mỗi ván cờ Go mà nó thắng và −1 cho mỗi ván mà nó thua.
Được lập trình để tìm kiếm phần thưởng tối đa, nó bắt đầu mà không có bất kỳ kiến thức nào về Go nhưng đã cải thiện sau 40 ngày cho đến khi đạt được những gì người tạo ra gọi là "hiệu suất siêu việt." Không chỉ đánh bại những người chơi giỏi nhất thế giới trong cờ Go, một trò chơi được coi là phức tạp hơn cả cờ vua, mà nó còn tiên phong các chiến lược mới mà người chơi chuyên nghiệp hiện đang sử dụng.
"Nhân loại đã tích lũy kiến thức về Go từ hàng triệu ván đấu kéo dài hàng ngàn năm," những người tạo ra AlphaGo viết trên tờ tạp chí Nature vào năm 2017. "Trong vòng vài ngày, bắt đầu từ con số 0, AlphaGo Zero có thể khôi phục lại phần lớn kiến thức này về Go, cũng như các chiến lược mới cung cấp những hiểu biết sâu sắc mới về trò chơi lâu đời nhất." Nhà nghiên cứu hàng đầu của nhóm là David Silver, người đã học lý thuyết học tăng cường dưới sự hướng dẫn của chính Sutton tại Đại học Alberta.
Ngày nay, ngày càng có nhiều công ty công nghệ sử dụng học tăng cường trong các sản phẩm như chatbot và trợ lý hướng đến người tiêu dùng. Thế hệ AI tạo sinh đầu tiên, bao gồm các mô hình ngôn ngữ lớn như GPT-2 và GPT-3 của OpenAI, đã khai thác một dạng học kết hợp đơn giản hơn được gọi là "học có giám sát", đào tạo mô hình trên các bộ dữ liệu đã được gắn nhãn bởi con người.

Các lập trình viên thường sử dụng học tăng cường để tinh chỉnh kết quả của họ, bằng cách yêu cầu mọi người đánh giá hiệu suất của chương trình và sau đó cung cấp những xếp hạng này cho chương trình như những mục tiêu cần đạt được.
Sau đó, vào mùa thu năm 2024, OpenAI đã công bố loạt mô hình ngôn ngữ o-series, thứ mà họ gọi tên là "mô hình suy luận". Họ khoe rằng chúng được "đào tạo bằng học tăng cường để thực hiện suy luận". Startup DeepSeek của Trung Quốc cũng sử dụng học tăng cường để đào tạo LLM "suy luận" gây ấn tượng của họ hồi đầu năm nay, R1. "Thay vì dạy trực tiếp mô hình cách giải quyết vấn đề, chúng tôi chỉ cung cấp cho nó những phần thưởng đúng đắn, và nó tự động phát triển các chiến lược giải quyết vấn đề nâng cao," họ giải thích.
Những mô tả này có thể gây ấn tượng với người dùng, nhưng ít nhất về mặt tâm lý học mà nói, chúng bị nhầm lẫn.
Một hệ thống máy học được đào tạo bằng học tăng cường chỉ cần khả năng tìm kiếm và trí nhớ, không cần cơ chế suy luận hoặc bất kỳ cơ chế nhận thức nào khác, để hình thành các kết nối và tối đa hóa phần thưởng. Một số nhà khoa học máy tính đã chỉ trích xu hướng nhân cách hóa "suy nghĩ" của các mô hình này, và một nhóm kỹ sư Apple gần đây đã xuất bản một bài nghiên cứu, nhấn mạnh về sự thất bại của họ trong một số nhiệm vụ phức tạp và "đặt ra những câu hỏi quan trọng về khả năng suy luận thực sự của chúng."
Theo MIT Technology Review
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế

Topics: Công nghệ mới