Công ty mẹ của Facebook - Meta, hiện đang đối mặt với một vụ kiện tập thể với cáo buộc vi phạm bản quyền và cạnh tranh không lành mạnh liên quan đến vấn đề huấn luyện mô hình AI LLaMA.
Theo một bài đăng trên X của vx-underground, các hồ sơ của tòa án tiết lộ rằng Meta đã sử dụng torrent "lậu" để tải xuống 81,7TB dữ liệu từ các nguồn không bản quyền như Anna's Archive, Z-Library và LibGen. Sau đó, công ty đã dùng những tài liệu này để huấn luyện các mô hình AI.
Một số bằng chứng dưới dạng tin nhắn trao đổi cho thấy nhiều nhà nghiên cứu đã bày tỏ lo ngại về việc công ty sử dụng tài liệu vi phạm bản quyền. Vào tháng 10/2022, một nhà nghiên cứu AI cấp cao tại Meta đã cảnh báo:"Tôi không nghĩ rằng chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần đặt ra ranh giới ở đây." Một người khác cũng bày tỏ quan điểm tương tự: "Sử dụng tài liệu vi phạm bản quyền rõ ràng là vượt quá giới hạn đạo đức của chúng ta.", sau đó người này tiếp tục bày tỏ: "SciHub, ResearchGate, LibGen về cơ bản giống như PirateBay – họ đang phân phối nội dung được bảo vệ bản quyền và điều đó là vi phạm pháp luật."
Vào tháng 1/2023, chính CEO Mark Zuckerberg đã tham dự một cuộc họp nội bộ và phát biểu: "Chúng ta cần phải thúc đẩy công việc tiến về phía trước... Chúng ta cần tìm cách gỡ bỏ rào cản này." Khoảng ba tháng sau, một nhân viên Meta gửi tin nhắn cho một nhân viên khác để bày tỏ lo ngại về việc địa chỉ IP của Meta được sử dụng "để tải nội dung lậu." Họ cũng nói thêm, "việc tải torrent từ laptop của công ty có vẻ không ổn," kèm theo 1 icon cười lớn.
Ngoài những tin nhắn trên, các tài liệu còn cho thấy Meta đã thực hiện các biện pháp để đảm bảo rằng hệ thống hạ tầng của họ không bị dùng vào các hoạt động tải xuống và chia sẻ các nội dung này. Mục đích là để các hoạt động đó không bị lần theo dấu vết và quy trách nhiệm ngược lại cho Meta. Các tài liệu của tòa án cho rằng điều này cấu thành bằng chứng về hành vi bất hợp pháp của Meta, và có vẻ như họ đang cố tình thực hiện điều này để lách luật bản quyền.
Meta không phải công ty AI đầu tiên bị cáo buộc sử dụng dữ liệu trái phép để huấn luyện AI, trước đó:
Nguồn: Tom's Hardware
Theo một bài đăng trên X của vx-underground, các hồ sơ của tòa án tiết lộ rằng Meta đã sử dụng torrent "lậu" để tải xuống 81,7TB dữ liệu từ các nguồn không bản quyền như Anna's Archive, Z-Library và LibGen. Sau đó, công ty đã dùng những tài liệu này để huấn luyện các mô hình AI.
Nội bộ Meta từng cảnh báo về hành vi vi phạm

Một số bằng chứng dưới dạng tin nhắn trao đổi cho thấy nhiều nhà nghiên cứu đã bày tỏ lo ngại về việc công ty sử dụng tài liệu vi phạm bản quyền. Vào tháng 10/2022, một nhà nghiên cứu AI cấp cao tại Meta đã cảnh báo:"Tôi không nghĩ rằng chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần đặt ra ranh giới ở đây." Một người khác cũng bày tỏ quan điểm tương tự: "Sử dụng tài liệu vi phạm bản quyền rõ ràng là vượt quá giới hạn đạo đức của chúng ta.", sau đó người này tiếp tục bày tỏ: "SciHub, ResearchGate, LibGen về cơ bản giống như PirateBay – họ đang phân phối nội dung được bảo vệ bản quyền và điều đó là vi phạm pháp luật."
Tải Torrent từ laptop của công ty

Vào tháng 1/2023, chính CEO Mark Zuckerberg đã tham dự một cuộc họp nội bộ và phát biểu: "Chúng ta cần phải thúc đẩy công việc tiến về phía trước... Chúng ta cần tìm cách gỡ bỏ rào cản này." Khoảng ba tháng sau, một nhân viên Meta gửi tin nhắn cho một nhân viên khác để bày tỏ lo ngại về việc địa chỉ IP của Meta được sử dụng "để tải nội dung lậu." Họ cũng nói thêm, "việc tải torrent từ laptop của công ty có vẻ không ổn," kèm theo 1 icon cười lớn.

Ngoài những tin nhắn trên, các tài liệu còn cho thấy Meta đã thực hiện các biện pháp để đảm bảo rằng hệ thống hạ tầng của họ không bị dùng vào các hoạt động tải xuống và chia sẻ các nội dung này. Mục đích là để các hoạt động đó không bị lần theo dấu vết và quy trách nhiệm ngược lại cho Meta. Các tài liệu của tòa án cho rằng điều này cấu thành bằng chứng về hành vi bất hợp pháp của Meta, và có vẻ như họ đang cố tình thực hiện điều này để lách luật bản quyền.
Meta không phải công ty duy nhất gặp cáo buộc này
Meta không phải công ty AI đầu tiên bị cáo buộc sử dụng dữ liệu trái phép để huấn luyện AI, trước đó:
- Tháng 6/2023, OpenAI bị các tiểu thuyết gia kiện vì sử dụng sách của họ để huấn luyện mô hình ngôn ngữ.
- Tháng 12/2023, The New York Times cũng kiện OpenAI với lý do tương tự.
- Nvidia bị kiện vì dùng 196.640 cuốn sách để huấn luyện mô hình NeMo, sau đó phải gỡ bỏ mô hình này.
- Một cựu nhân viên Nvidia từng tiết lộ rằng công ty đã thu thập hơn 426.000 giờ video mỗi ngày để phục vụ cho huấn luyện AI.
- OpenAI gần đây cũng đang điều tra xem liệu DeepSeek có lấy cắp dữ liệu từ ChatGPT hay không.
Nguồn: Tom's Hardware
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế

Topics: Công nghệ mới