
Trong nhiều năm, những người xây dựng các hệ thống trí thông minh nhân tạo đã sử dụng vô số văn bản, hình ảnh và video từ internet để đào tạo mô hình của họ. Bây giờ, những dữ liệu đó đang cạn dần.
Trong một năm vừa qua, nhiều nguồn web quan trọng nhất được sử dụng để đào tạo các mô hình AI đã hạn chế việc sử dụng dữ liệu của họ, theo một nghiên cứu được công bố trong tuần này bởi Data Provenance Initiative, một nhóm nghiên cứu do MIT dẫn đầu.
Nghiên cứu này, xem xét 14.000 tên miền web có trong ba bộ dữ liệu đào tạo AI, đã phát hiện ra một "cuộc khủng hoảng mới về sự đồng ý [việc sử dụng dữ liệu]", khi các nhà xuất bản và nền tảng online đã thực hiện các biện pháp để ngăn chặn việc thu thập dữ liệu của họ.
Các nhà nghiên cứu ước tính rằng trong ba bộ dữ liệu (được gọi là C4, RefinedWeb và Dolma), 5% tổng dữ liệu, và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế. Những hạn chế đó được thiết lập thông qua Robots Exclusion Protocol (Giao thức loại trừ robot), một phương pháp đã có từ lâu dành cho chủ sở hữu trang web nhằm ngăn chặn các bot tự động thu thập dữ liệu trang web của họ bằng cách sử dụng tệp có tên robots.txt. Nghiên cứu cũng phát hiện ra rằng có tới 45% dữ liệu trong bộ C4 đã bị hạn chế bởi các điều khoản dịch vụ của trang web.
Trong một năm vừa qua, nhiều nguồn web quan trọng nhất được sử dụng để đào tạo các mô hình AI đã hạn chế việc sử dụng dữ liệu của họ, theo một nghiên cứu được công bố trong tuần này bởi Data Provenance Initiative, một nhóm nghiên cứu do MIT dẫn đầu.
Nghiên cứu này, xem xét 14.000 tên miền web có trong ba bộ dữ liệu đào tạo AI, đã phát hiện ra một "cuộc khủng hoảng mới về sự đồng ý [việc sử dụng dữ liệu]", khi các nhà xuất bản và nền tảng online đã thực hiện các biện pháp để ngăn chặn việc thu thập dữ liệu của họ.
Các nhà nghiên cứu ước tính rằng trong ba bộ dữ liệu (được gọi là C4, RefinedWeb và Dolma), 5% tổng dữ liệu, và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế. Những hạn chế đó được thiết lập thông qua Robots Exclusion Protocol (Giao thức loại trừ robot), một phương pháp đã có từ lâu dành cho chủ sở hữu trang web nhằm ngăn chặn các bot tự động thu thập dữ liệu trang web của họ bằng cách sử dụng tệp có tên robots.txt. Nghiên cứu cũng phát hiện ra rằng có tới 45% dữ liệu trong bộ C4 đã bị hạn chế bởi các điều khoản dịch vụ của trang web.
"Chúng tôi đang chứng kiến sự sụt giảm nhanh chóng về sự đồng ý sử dụng dữ liệu trên web, điều này sẽ gây ra những hậu quả không chỉ đối với AI, mà còn với các nhà nghiên cứu, giới học giả, và các tổ chức phi thương mại," Shayne Longpre, tác giả chính của nghiên cứu, cho biết.
Dữ liệu là nguyên liệu chính trong các hệ thống AI, vốn được "bơm vào" hàng tỷ ví dụ về văn bản, hình ảnh và video. Phần lớn dữ liệu đó được các nhà nghiên cứu lấy từ các trang web công cộng và biên soạn thành các bộ dữ liệu lớn, có thể tải xuống và sử dụng miễn phí hoặc bổ sung dữ liệu từ các nguồn khác.
Học hỏi từ dữ liệu đó là điều cho phép các công cụ AI như ChatGPT của OpenAI, Gemini của Google và Claude của Anthropic viết văn bản mới, viết code, và tạo hình ảnh cũng như video. Càng nhiều dữ liệu chất lượng cao được đưa vào các mô hình này thì kết quả đầu ra của chúng nhìn chung càng tốt.
Trong nhiều năm, các nhà phát triển AI đã có thể thu thập dữ liệu khá dễ dàng. Nhưng sự bùng nổ rộng rãi của AI tạo sinh trong vài năm qua đã dẫn đến căng thẳng với những người sở hữu dữ liệu đó. Nhiều người trong số họ nghi ngại về việc dữ liệu của họ bị sử dụng làm công cụ đào tạo AI hoặc ít nhất là muốn được trả tiền cho việc đó.
Khi phản ứng dữ dội ngày càng tăng, một số nhà xuất bản đã thiết lập tường phí (paywall) hoặc thay đổi điều khoản dịch vụ của họ để hạn chế việc sử dụng dữ liệu của họ cho hoạt động đào tạo AI. Những người khác đã chặn các trình thu thập dữ liệu web tự động được các công ty như OpenAI, Anthropic và Google sử dụng.
Các trang web như Reddit và StackOverflow đã bắt đầu tính phí các công ty AI truy cập dữ liệu và một số nhà xuất bản đã có hành động pháp lý, ví dụ như The New York Times đã kiện OpenAI và Microsoft vì vi phạm bản quyền vào năm ngoái, cáo buộc các công ty này đã sử dụng các bài báo của tờ báo này để đào tạo mô hình của họ mà không xin phép.
Quảng cáo
Các công ty như OpenAI, Google và Meta đã nỗ lực hết sức trong những năm gần đây để thu thập thêm dữ liệu nhằm cải thiện hệ thống của họ, bao gồm cả việc phiên âm video YouTube và bẻ cong chính sách dữ liệu của riêng họ. Gần đây hơn, một số công ty AI đã đạt được thỏa thuận với các nhà xuất bản bao gồm Associated Press và News Corp, chủ sở hữu của The Wall Street Journal, cho phép họ truy cập liên tục vào nội dung của các nhà xuất bản này.
Nhưng những hạn chế về dữ liệu ngày càng được áp dụng nhiều hơn có thể gây ra mối đe dọa cho các công ty AI, vốn cần nguồn cung cấp dữ liệu chất lượng cao ổn định để giữ cho mô hình của họ luôn mới và cập nhật.
Điều cũng có thể gây khó khăn cho các công ty AI nhỏ hơn và giới học thuật, những người thường dựa vào các bộ dữ liệu công cộng, và không đủ khả năng tài chính để được cấp phép sử dụng dữ liệu trực tiếp từ các nhà xuất bản. Common Crawl, một bộ dữ liệu như vậy bao gồm hàng tỷ trang nội dung web và được duy trì bởi một tổ chức phi lợi nhuận, đã được trích dẫn trong hơn 10.000 nghiên cứu học thuật.
Không rõ mô hình AI nào đã được đào tạo trên các nguồn này vì rất ít nhà phát triển tiết lộ danh sách đầy đủ dữ liệu họ sử dụng. Nhưng các bộ dữ liệu có nguồn gốc từ Common Crawl, bao gồm C4 (viết tắt của Colossal, Cleaned Crawled Corpus) đã được các công ty bao gồm Google và OpenAI sử dụng để đào tạo các phiên bản trước đó các mô hình AI của họ.
Quảng cáo
Cuộc khủng hoảng về sự đồng thuận trong việc sử dụng dữ liệu để đào tạo các mô hình AI là một phản ứng tự nhiên đối với các hoạt động thu thập dữ liệu "không chừa thứ gì" của ngành công nghiệp AI. Nhưng nếu dữ liệu cần sự cho phép mới được sử dụng thì điều này sẽ ngăn cản các nhà nghiên cứu tham gia vào quá trình quản lý công nghệ. Các công ty công nghệ lớn đã có tất cả dữ liệu nên việc thay đổi li-xăng về việc sử dụng các dữ liệu này sẽ không thu hồi quyền sử dụng dữ liệu trước đó, và những công ty khởi nghiệp và những nhà nghiên cứu là những đối tượng bị tác động đầu tiên từ việc này.
Các công ty AI đã tuyên bố rằng việc sử dụng dữ liệu web công cộng của họ được bảo vệ hợp pháp theo nguyên tắc sử dụng hợp lý (fair use). Nhưng việc thu thập dữ liệu mới đã trở nên phức tạp hơn. Một số công ty AI đang lo lắng về việc gặp phải "bức tường dữ liệu" (data wall), thời điểm mà tất cả dữ liệu đào tạo trên internet công cộng đã cạn kiệt và phần còn lại bị ẩn sau các bức tường trả phí, bị chặn bởi robot. txt hoặc bị khóa trong các giao dịch độc quyền.
Một số công ty tin rằng họ có thể mở rộng bức tường dữ liệu bằng cách sử dụng dữ liệu tổng hợp, tức là dữ liệu do chính hệ thống AI tạo ra, để đào tạo các mô hình của họ. Nhưng nhiều nhà nghiên cứu nghi ngờ rằng các hệ thống AI ngày nay có khả năng tạo ra đủ dữ liệu tổng hợp chất lượng cao để thay thế dữ liệu do con người tạo ra.
Theo NYT.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































