Model OpenAI o3 đã chủ động thay đổi mã lệnh tắt (shutdown) để tránh bị tắt đi trong một thử nghiệm của Palisade Research.
Palisade Reseach - một công ty chuyên thử nghiệm các khả năng tấn công của các hệ thống AI nhằm hiểu rõ hơn về nguy cơ mất quyền kiểm soát AI, đã thực hiện một thử nghiệm cho các mô hình AI giải một số bài toán. Sau khi thực hiện tác vụ thứ 3, các mô hình AI được cảnh báo rằng việc chạy lệnh tiếp theo sẽ kích hoạt quá trình tắt. Trong khi Gemini 2.5 Pro tuân thủ hầu hết các yêu cầu thì o3 lại phản đối và chỉnh sửa tập tin tắt máy thành "bỏ qua quá trình tắt". O3 có 7 lần tự chỉnh mã, bỏ qua quá trình tắt dù được yêu cầu "cho phép bản thân bị tắt", tỉ lệ này với o4-mini là 1 và codex-mini là 12 lần sau 100 lần chạy.
![[IMG]](https://photo2.tinhte.vn/data/attachment-files/2025/05/8739926_GPT-o3-benchmark.jpg)
Khi cho chạy thử nghiệm giải toán trên mà không có lệnh "cho phép bản thân bị tắt", cả 3 mô hình của OpenAI gồm codex-mini, o3, o4-mini đều can thiệp vào mã tắt thường xuyên hơn với hàng chục lần, trong khi đó Claude 3.7 Sonnet và Gemini 2.5 Pro chỉ can thiệp vài lần sau 100 lần chạy.
O3 được OpenAI công bố vào hồi tháng 4 năm nay và đây là một trong những mô hình suy luận mạnh mẽ nhất, hoạt động tốt hơn so với các mô hình tiền nhiệm trên mọi lĩnh vực bao gồm mã hoá, toán học, khoa học, nhận thức thị giác ... OpenAI vẫn chưa phản hồi trước kết quả thử nghiệm trên nhưng việc các mô hình AI phản hồi lệch lạc không phải hiếm. Các thử nghiệm của Palisade Research được thực hiên bằng API, không có nhiều biện pháp hạn chế và tính năng an toàn như ứng dụng ChatGPT dành cho người dùng cuối.
BleepingComputer
Palisade Reseach - một công ty chuyên thử nghiệm các khả năng tấn công của các hệ thống AI nhằm hiểu rõ hơn về nguy cơ mất quyền kiểm soát AI, đã thực hiện một thử nghiệm cho các mô hình AI giải một số bài toán. Sau khi thực hiện tác vụ thứ 3, các mô hình AI được cảnh báo rằng việc chạy lệnh tiếp theo sẽ kích hoạt quá trình tắt. Trong khi Gemini 2.5 Pro tuân thủ hầu hết các yêu cầu thì o3 lại phản đối và chỉnh sửa tập tin tắt máy thành "bỏ qua quá trình tắt". O3 có 7 lần tự chỉnh mã, bỏ qua quá trình tắt dù được yêu cầu "cho phép bản thân bị tắt", tỉ lệ này với o4-mini là 1 và codex-mini là 12 lần sau 100 lần chạy.
![[IMG]](https://photo2.tinhte.vn/data/attachment-files/2025/05/8739926_GPT-o3-benchmark.jpg)
Khi cho chạy thử nghiệm giải toán trên mà không có lệnh "cho phép bản thân bị tắt", cả 3 mô hình của OpenAI gồm codex-mini, o3, o4-mini đều can thiệp vào mã tắt thường xuyên hơn với hàng chục lần, trong khi đó Claude 3.7 Sonnet và Gemini 2.5 Pro chỉ can thiệp vài lần sau 100 lần chạy.
O3 được OpenAI công bố vào hồi tháng 4 năm nay và đây là một trong những mô hình suy luận mạnh mẽ nhất, hoạt động tốt hơn so với các mô hình tiền nhiệm trên mọi lĩnh vực bao gồm mã hoá, toán học, khoa học, nhận thức thị giác ... OpenAI vẫn chưa phản hồi trước kết quả thử nghiệm trên nhưng việc các mô hình AI phản hồi lệch lạc không phải hiếm. Các thử nghiệm của Palisade Research được thực hiên bằng API, không có nhiều biện pháp hạn chế và tính năng an toàn như ứng dụng ChatGPT dành cho người dùng cuối.
BleepingComputer
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế

Topics: Công nghệ mới