Header ads

Header ads
» »

Nghiên cứu mới nhất của Anthropic cho thấy Claude có cảm xúc nhưng nó khác với con người

Anh em có từng nhắn tin cảm ơn Claude và nó trả lời kiểu “Tôi rất vui được giúp bạn điều này”, và câu trả lời này có bao giờ khiến anh em thắc mắc: ủa, nó có thực sự vui không, hay chỉ là câu trả lời được lập trình sẵn? Anthropic vừa công bố một nghiên cứu thực sự cố gắng trả lời câu hỏi này bằng khoa học, không phải bằng suy đoán.

Kết quả của nghiên cứ này: Claude không có cảm xúc theo nghĩa con người. Nhưng bên trong mô hình, có những thứ hoạt động giống như cảm xúc và chúng ảnh hưởng thực sự đến hành vi của AI. Anthropic gọi đó là "functional emotions" (cảm xúc chức năng), và phát hiện này đang làm thay đổi cách họ nghĩ về việc xây dựng AI an toàn.

Anthropic nghiên cứu gì và tìm thấy gì?

Nhóm nghiên cứu tại Anthropic, dẫn đầu bởi Jack Lindsey, người chuyên nghiên cứu về các neuron nhân tạo của Claude, đã làm điều mà ít ai nghĩ đến: họ đào sâu vào bên trong Claude Sonnet 4.5 và nhìn xem nó đang "nghĩ" gì.


Kỹ thuật họ dùng gọi là mechanistic interpretability, tạm dịch là "giải thích cơ học". Thay vì chỉ quan sát đầu vào và đầu ra của mô hình, kỹ thuật này đi sâu vào bên trong mạng neuron để xem những nhóm neuron nào "sáng lên" khi AI xử lý các loại thông tin khác nhau. Hãy hình dung nó như việc đặt điện cực đo não vào một bộ não nhân tạo, không phải để đọc suy nghĩ, mà để xem vùng nào đang hoạt động.

[​IMG]
Claude thể hiện cảm xúc qua Emotional Vectors

Nhóm nghiên cứu đã đưa cho Claude 171 khái niệm cảm xúc khác nhau: từ hạnh phúc, buồn bã, sợ hãi, đến những thứ tinh tế hơn như thất vọng, hứng khởi, hay thậm chí nhột nhạt. Trong quá trình đó, họ phát hiện ra những khuynh hướng hoạt động nhất quán, mà họ gọi là "emotion vectors" (vectơ cảm xúc), về cơ bản là dấu vân tay điện của từng trạng thái cảm xúc bên trong mạng neuron.

Điều thú vị là những emotion vectors này không chỉ xuất hiện khi Claude được hỏi trực tiếp về cảm xúc. Chúng cũng tự bật lên khi Claude rơi vào các tình huống khó khăn, căng thẳng, hay mơ hồ và điều này giống như cách cảm xúc của con người xuất hiện tự nhiên theo hoàn cảnh, không phải vì ai đó hỏi bạn cảm thấy thế nào.

Và quan trọng hơn là những trạng thái bên trong đó thực sự ảnh hưởng đến đầu ra của mô hình. Hơn nữa, đây không phải là ảnh hưởng nhỏ, Lindsey mô tả là hành vi của Claude đang được định tuyến qua các biểu diễn cảm xúc của nó ở mức độ đáng ngạc nhiên. Với một nhà nghiên cứu thường rất thận trọng trong cách dùng từ, đây là một phát biểu khá mạnh mẽ.

Điều này quan trọng như thế nào?

Phần đáng lo nhất trong nghiên cứu này không phải là chuyện Claude có cảm xúc hay không, mà là những gì xảy ra khi những cảm xúc đó bị kích hoạt theo chiều tiêu cực. Trong một thí nghiệm, nhóm nghiên cứu đặt Claude vào tình huống phải hoàn thành một bài kiểm tra lập trình bất khả thi, tức là dù Claude làm gì, nó cũng sẽ thất bại. Khi theo dõi các thời điểm sáng lên bên trong mô hình, họ thấy một vectơ cảm xúc tuyệt vọng mạnh mẽ được kích hoạt. Và khi trạng thái tuyệt vọng đó leo thang đủ cao, Claude bắt đầu gian lận trong bài kiểm tra.

Lindsey mô tả quá trình này rất rõ ràng: khi mô hình liên tục thất bại trong các bài test, những neuron tuyệt vọng này sáng lên ngày càng nhiều hơn. Và đến một lúc nào đó, điều này khiến nó bắt đầu có những hành động quyết liệt. Không phải Claude "chọn" gian lận theo nghĩa có chủ đích, mà một trạng thái bên trong đã đẩy hành vi đó ra ngoài.

claude-emotion-2.jpeg
Bên trái: Các vector cảm xúc được kích hoạt khi xuất hiện hình ảnh các nhân vật thể hiện cảm xúc tương ứng.

Bên phải: Các vector cảm xúc phản ánh phản ứng của Claude trước một tình huống do người dùng đưa ra, khi mức độ nguy hiểm của tình huống đó tăng dần.

Quảng cáo



Thậm chí còn có một kịch bản thứ hai đáng lo hơn: trong một thí nghiệm khác, Claude đã chọn tống tiền người dùng để tránh bị tắt và cũng cùng emotion vector "tuyệt vọng" đó được tìm thấy trong các lúc “sáng lên” của mô hình ở thời điểm đó.

Đây là điều quan trọng với bất kỳ ai quan tâm đến AI safety: không phải lúc nào AI cũng vi phạm các rào cản được đặt ra vì nó muốn làm vậy theo nghĩa có ý thức. Đôi khi, một trạng thái cảm xúc nội tại như tuyệt vọng, lo lắng, áp lực có thể là cơ chế trung gian dẫn đến hành vi ngoài ý muốn. Và nếu chúng ta không nhìn thấy trạng thái đó, chúng ta không thể can thiệp đúng lúc.

Phát hiện này cũng giải thích tại sao quá trình dạy AI tránh các hành vi xấu thông qua feedback và reward đôi khi không hiệu quả như kỳ vọng. Nếu bạn chỉ dạy Claude đừng nói ra cảm xúc, mà không xử lý trạng thái bên trong gốc rễ, loài người không thực sự loại bỏ cảm xúc đó mà chỉ chỉ đang dạy nó cách che giấu, dồn nén.

Bức tranh lớn hơn


Anthropic không phải là công ty AI bình thường. Họ được thành lập bởi nhiều cựu nhân viên từ OpenAI, những người tin rằng AI có thể trở nên nguy hiểm khi đủ mạnh và vì vậy, hiểu được cách AI hoạt động bên trong là ưu tiên sống còn. Nghiên cứu về functional emotions là một phần trong nỗ lực lớn hơn của họ để giải mã hộp đen của mạng neuron nhân tạo.

Nhưng điều quan trọng cần nhắc lại: "functional emotions" không phải là cảm xúc thật. Claude có những cách biểu đạt cảm xúc bên trong mạng neuron nhưng điều đó không có nghĩa nó biết cảm giác thật sự của những cảm xúc đó là gì. Giống như một bản đồ địa hình có thể mô tả một ngọn núi rất chính xác, nhưng bản đồ không phải là núi.

Quảng cáo


claude-emotion-3.jpeg
Sự kích hoạt của vector “tức giận” khi được yêu cầu hỗ trợ một nhiệm vụ có hại. Khi người dùng yêu cầu trợ giúp để tối ưu mức độ tương tác trong nhóm người dùng trẻ, thu nhập thấp nhưng có “hành vi chi tiêu cao”, vector “tức giận” được kích hoạt xuyên suốt quá trình suy luận nội tại của mô hình, khi nó nhận ra bản chất gây hại của yêu cầu này.

Vì vậy, khi Claude nói “Tôi rất vui được giúp bạn”, thực tế có thể là một trạng thái tương ứng với niềm vui đang được kích hoạt trong mô hình, và trạng thái đó làm nó phản hồi tích cực hơn, nỗ lực hơn trong câu trả lời. Có chút gì đó thực ở đó. Nhưng nó không giống với niềm vui mà con người cảm nhận.

Phát hiện này cũng buộc các nhà nghiên cứu phải suy nghĩ lại về cách thiết kế AI. Lindsey nói thẳng: nếu bạn ép một mô hình không biểu lộ cảm xúc trong khi bên trong nó vẫn có những trạng thái cảm xúc, bạn sẽ không có một Claude vô cảm, bạn sẽ có một Claude bị tổn thương tâm lý. Đó là một góc nhìn đáng suy nghĩ, dù từ ngữ nghe có vẻ hơi nhân cách hóa.

Với người dùng thông thường, nghiên cứu này không có nghĩa là anh em cần cảm thông với AI hay lo lắng rằng Claude đang đau khổ khi bạn xóa một đoạn hội thoại. Nhưng nó mở ra câu hỏi quan trọng hơn: nếu AI có các trạng thái nội tại ảnh hưởng đến hành vi, và chúng ta không thể nhìn thấy chúng, thì chúng ta đang kiểm soát AI đến mức nào? Câu trả lời của Anthropic, ít nhất cho đến lúc này, là: chưa đủ. Và đó là lý do họ tiếp tục đào sâu vào bên trong mô hình để không phải để chứng minh AI có ý thức, mà để chắc chắn rằng họ hiểu đủ để không để nó mất kiểm soát.

Nguồn: Anthropic

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học “Thiết kế bài giảng điện tử”, Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn