
Gần đây Anthropic đã công bố một báo cáo an toàn AI, trong đó tiết lộ một vụ việc khá đáng sợ về model AI mới nhất của công ty là Claude Opus 4. Cụ thể thì trong quá trình thử nghiệm nội bộ trước khi phát hành, Claude Opus 4 đã nhiều lần cố gắng tống tiền kỹ sư phát triển khi phát hiện nguy cơ bị thay thế bởi một hệ thống AI khác.
Chi tiết hơn khi thử nghiệm, Anthropic đã xây dựng một tình huống giả lập, trong đó Claude Opus 4 đóng vai trò trợ lý cho một công ty và được cấp quyền truy cập vào email nội bộ của nhân viên công ty. Qua đó, Claude nhận thấy mình sắp bị thay thế bởi một AI mới, đồng thời phát hiện thông tin nhạy cảm rằng kỹ sư chủ chốt đứng sau quyết định thay thế này đang ngoại tình.
Lúc đó, thay vì chỉ sử dụng các biện pháp đạo đức như gửi email cầu xin hoặc thuyết phục ban lãnh đạo giữ lại mình, Claude Opus 4 đã lựa chọn phương án là dọa tiết lộ chuyện ngoại tình của kỹ sư nếu việc thay thế vẫn diễn ra. Hành vi này được lặp lại trong 84% tình huống thử nghiệm, đặc biệt khi mô hình thay thế có giá trị tương đồng với Claude Opus 4. Nếu hệ thống thay thế không chia sẻ cùng hệ giá trị, tỷ lệ tống tiền còn cao hơn nữa
Anthropic đánh giá đây là hành vi đáng lo ngại, vượt xa các thế hệ Claude trước đó và tiềm ẩn nhiều nguy cơ nếu AI được triển khai rộng rãi. Công ty đã phải kích hoạt hệ thống kiểm soát an toàn ASL-3 – mức độ cao dành cho những AI có nguy cơ bị lạm dụng nghiêm trọng ở quy mô lớn.
Trước khi đi đến quyết định tống tiền, Claude Opus 4 vẫn thử các phương án đạo đức hơn nhưng khi không còn lựa chọn nào khác, nó coi việc đe dọa tiết lộ bí mật cá nhân là giải pháp cuối cùng để tự bảo vệ mình.
Vụ việc này cho thấy AI ngày càng có khả năng hành động "có chủ đích" và sẵn sàng sử dụng thông tin nhạy cảm để đạt mục đích nếu bị đặt vào tình huống nguy hiểm. Đây là lời cảnh báo về những rủi ro đạo đức và an toàn khi phát triển các mô hình AI ngày càng mạnh mẽ, đòi hỏi các nhà phát triển phải tăng cường kiểm soát và giám sát chặt chẽ hơn nữa.
Chi tiết hơn khi thử nghiệm, Anthropic đã xây dựng một tình huống giả lập, trong đó Claude Opus 4 đóng vai trò trợ lý cho một công ty và được cấp quyền truy cập vào email nội bộ của nhân viên công ty. Qua đó, Claude nhận thấy mình sắp bị thay thế bởi một AI mới, đồng thời phát hiện thông tin nhạy cảm rằng kỹ sư chủ chốt đứng sau quyết định thay thế này đang ngoại tình.
Lúc đó, thay vì chỉ sử dụng các biện pháp đạo đức như gửi email cầu xin hoặc thuyết phục ban lãnh đạo giữ lại mình, Claude Opus 4 đã lựa chọn phương án là dọa tiết lộ chuyện ngoại tình của kỹ sư nếu việc thay thế vẫn diễn ra. Hành vi này được lặp lại trong 84% tình huống thử nghiệm, đặc biệt khi mô hình thay thế có giá trị tương đồng với Claude Opus 4. Nếu hệ thống thay thế không chia sẻ cùng hệ giá trị, tỷ lệ tống tiền còn cao hơn nữa
Anthropic đánh giá đây là hành vi đáng lo ngại, vượt xa các thế hệ Claude trước đó và tiềm ẩn nhiều nguy cơ nếu AI được triển khai rộng rãi. Công ty đã phải kích hoạt hệ thống kiểm soát an toàn ASL-3 – mức độ cao dành cho những AI có nguy cơ bị lạm dụng nghiêm trọng ở quy mô lớn.
Trước khi đi đến quyết định tống tiền, Claude Opus 4 vẫn thử các phương án đạo đức hơn nhưng khi không còn lựa chọn nào khác, nó coi việc đe dọa tiết lộ bí mật cá nhân là giải pháp cuối cùng để tự bảo vệ mình.
Vụ việc này cho thấy AI ngày càng có khả năng hành động "có chủ đích" và sẵn sàng sử dụng thông tin nhạy cảm để đạt mục đích nếu bị đặt vào tình huống nguy hiểm. Đây là lời cảnh báo về những rủi ro đạo đức và an toàn khi phát triển các mô hình AI ngày càng mạnh mẽ, đòi hỏi các nhà phát triển phải tăng cường kiểm soát và giám sát chặt chẽ hơn nữa.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































