Trong bản cập nhật chính sách hôm 3/5, Google nói rằng họ sẽ có quyền sử dụng nội dung công khai trên website để huấn luyện các mô hình trí tuệ nhân tạo AI dùng cho tìm kiểm, kể cả khi trang web đó có dùng đến các công cụ như "robots.txt" để ngăn chặn và từ chối việc thu thập dữ liệu của AI.
Trước đây, chủ của các trang web có thể dùng file "robots.txt" để chặn trình thu thập dữ liệu của Google - Googlebot không thu thập thông tin, đặc biệt là cho mục đích huấn luyện AI. Nhưng trong chính sách quyền riêng tư mới cập nhật, Google lại nói rằng chỉ những công cụ AI cho mục đích tổng quát mới phải tuân theo (ví dụ như Gemini). Còn như hệ thống AI dành riêng cho tìm kiếm như Search Generative Experience sẽ không bị ràng buộc bởi điều đó. Tức là nếu nội dung trên web của bạn mà hiển thị công khai trong kết quả tìm kiếm thì Google có thể thoải mái dùng nó để huấn luyện AI cho tìm kiếm, kể cả khi chủ website có không đồng ý đi chăng nữa.
Nhắc lại chút, robots.txt là một tệp văn bản nhỏ được đặt tại thư mục gốc của một trang web (ví dụ: example.com/robots.txt) để hướng dẫn các trình thu thập dữ liệu (crawler/bot) – như Googlebot – rằng phần nào của trang web nên hoặc không nên được truy cập hoặc lập chỉ mục. Trình thu thập dữ liệu đọc file này trước khi vào trang web, nhưng nó không bắt buộc các bot phải tuân thủ và chỉ là lời đề nghị lịch sự.
Các chuyên gia lo ngại động thái này làm suy yếu nỗ lực bảo vệ quyền kiểm soát dữ liệu của các nhà xuất bản và chủ website trong việc ngăn chặn dữ liệu của họ bị AI sử dụng, nội dung bị trích xuất mà không xin phép hoặc trả phí. Họ cho rằng Google đang lách luật (nói cho đúng thì lách một vùng giữa luật và đạo đức dữ liệu) bằng cách chia nhỏ mục đích huấn luyện AI, chỉ tôn trọng robots.txt đối với các mô hình AI tổng quát, coi tìm kiếm là ngoại lệ. Nhất là khi động thái này lại diễn ra trong bối cảnh ngành công nghệ đang đối mặt với chỉ trích ngày càng tăng về việc sử dụng dữ liệu công khai trên Internet để huấn luyện các mô hình AI mà không xin phép. Chuyên gia SEO Danny Richman mô tả hành động của Google như kiểu người ta dán bảng cấm quay phim nhưng bạn livestream nó rồi kêu không tính.
Tính đến hiện tại thì OpenAI có vẻ là công ty minh bạch nhất về quyền dữ liệu khi chỉ dùng dữ liệu từ web cho phép và có cả động thái đàm phán bản quyền. Google thì lên tiếng lách luật, Meta thì âm thầm thu thập và không nói rõ về điều gì, Microsoft thì gián tiếp thông qua sử dụng dữ liệu qua hợp tác với OpenAI và các sản phẩm như Bing.
Nguồn: Bloomberg
Trước đây, chủ của các trang web có thể dùng file "robots.txt" để chặn trình thu thập dữ liệu của Google - Googlebot không thu thập thông tin, đặc biệt là cho mục đích huấn luyện AI. Nhưng trong chính sách quyền riêng tư mới cập nhật, Google lại nói rằng chỉ những công cụ AI cho mục đích tổng quát mới phải tuân theo (ví dụ như Gemini). Còn như hệ thống AI dành riêng cho tìm kiếm như Search Generative Experience sẽ không bị ràng buộc bởi điều đó. Tức là nếu nội dung trên web của bạn mà hiển thị công khai trong kết quả tìm kiếm thì Google có thể thoải mái dùng nó để huấn luyện AI cho tìm kiếm, kể cả khi chủ website có không đồng ý đi chăng nữa.

Nhắc lại chút, robots.txt là một tệp văn bản nhỏ được đặt tại thư mục gốc của một trang web (ví dụ: example.com/robots.txt) để hướng dẫn các trình thu thập dữ liệu (crawler/bot) – như Googlebot – rằng phần nào của trang web nên hoặc không nên được truy cập hoặc lập chỉ mục. Trình thu thập dữ liệu đọc file này trước khi vào trang web, nhưng nó không bắt buộc các bot phải tuân thủ và chỉ là lời đề nghị lịch sự.
Các chuyên gia lo ngại động thái này làm suy yếu nỗ lực bảo vệ quyền kiểm soát dữ liệu của các nhà xuất bản và chủ website trong việc ngăn chặn dữ liệu của họ bị AI sử dụng, nội dung bị trích xuất mà không xin phép hoặc trả phí. Họ cho rằng Google đang lách luật (nói cho đúng thì lách một vùng giữa luật và đạo đức dữ liệu) bằng cách chia nhỏ mục đích huấn luyện AI, chỉ tôn trọng robots.txt đối với các mô hình AI tổng quát, coi tìm kiếm là ngoại lệ. Nhất là khi động thái này lại diễn ra trong bối cảnh ngành công nghệ đang đối mặt với chỉ trích ngày càng tăng về việc sử dụng dữ liệu công khai trên Internet để huấn luyện các mô hình AI mà không xin phép. Chuyên gia SEO Danny Richman mô tả hành động của Google như kiểu người ta dán bảng cấm quay phim nhưng bạn livestream nó rồi kêu không tính.
Tính đến hiện tại thì OpenAI có vẻ là công ty minh bạch nhất về quyền dữ liệu khi chỉ dùng dữ liệu từ web cho phép và có cả động thái đàm phán bản quyền. Google thì lên tiếng lách luật, Meta thì âm thầm thu thập và không nói rõ về điều gì, Microsoft thì gián tiếp thông qua sử dụng dữ liệu qua hợp tác với OpenAI và các sản phẩm như Bing.
Nguồn: Bloomberg
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế

Topics: Công nghệ mới