Học viện đào tạo trực tuyến Thứ Hai, 22 tháng 7, 2024 0 No comments

Trong nhiều năm, những người xây dựng các hệ thống trí thông minh nhân tạo đã sử dụng vô số văn bản, hình ảnh và video từ internet để đào tạo mô hình của họ. Bây giờ, những dữ liệu đó đang cạn dần.

Trong một năm vừa qua, nhiều nguồn web quan trọng nhất được sử dụng để đào tạo các mô hình AI đã hạn chế việc sử dụng dữ liệu của họ, theo một nghiên cứu được công bố trong tuần này bởi Data Provenance Initiative, một nhóm nghiên cứu do MIT dẫn đầu.

Nghiên cứu này, xem xét 14.000 tên miền web có trong ba bộ dữ liệu đào tạo AI, đã phát hiện ra một "cuộc khủng hoảng mới về sự đồng ý [việc sử dụng dữ liệu]", khi các nhà xuất bản và nền tảng online đã thực hiện các biện pháp để ngăn chặn việc thu thập dữ liệu của họ.

Các nhà nghiên cứu ước tính rằng trong ba bộ dữ liệu (được gọi là C4, RefinedWeb và Dolma), 5% tổng dữ liệu, và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế. Những hạn chế đó được thiết lập thông qua Robots Exclusion Protocol (Giao thức loại trừ robot), một phương pháp đã có từ lâu dành cho chủ sở hữu trang web nhằm ngăn chặn các bot tự động thu thập dữ liệu trang web của họ bằng cách sử dụng tệp có tên robots.txt. Nghiên cứu cũng phát hiện ra rằng có tới 45% dữ liệu trong bộ C4 đã bị hạn chế bởi các điều khoản dịch vụ của trang web.

"Chúng tôi đang chứng kiến sự sụt giảm nhanh chóng về sự đồng ý sử dụng dữ liệu trên web, điều này sẽ gây ra những hậu quả không chỉ đối với AI, mà còn với các nhà nghiên cứu, giới học giả, và các tổ chức phi thương mại," Shayne Longpre, tác giả chính của nghiên cứu, cho biết.

Dữ liệu là nguyên liệu chính trong các hệ thống AI, vốn được "bơm vào" hàng tỷ ví dụ về văn bản, hình ảnh và video. Phần lớn dữ liệu đó được các nhà nghiên cứu lấy từ các trang web công cộng và biên soạn thành các bộ dữ liệu lớn, có thể tải xuống và sử dụng miễn phí hoặc bổ sung dữ liệu từ các nguồn khác.
Học hỏi từ dữ liệu đó là điều cho phép các công cụ AI như ChatGPT của OpenAI, Gemini của Google và Claude của Anthropic viết văn bản mới, viết code, và tạo hình ảnh cũng như video. Càng nhiều dữ liệu chất lượng cao được đưa vào các mô hình này thì kết quả đầu ra của chúng nhìn chung càng tốt.

Trong nhiều năm, các nhà phát triển AI đã có thể thu thập dữ liệu khá dễ dàng. Nhưng sự bùng nổ rộng rãi của AI tạo sinh trong vài năm qua đã dẫn đến căng thẳng với những người sở hữu dữ liệu đó. Nhiều người trong số họ nghi ngại về việc dữ liệu của họ bị sử dụng làm công cụ đào tạo AI hoặc ít nhất là muốn được trả tiền cho việc đó.

Khi phản ứng dữ dội ngày càng tăng, một số nhà xuất bản đã thiết lập tường phí (paywall) hoặc thay đổi điều khoản dịch vụ của họ để hạn chế việc sử dụng dữ liệu của họ cho hoạt động đào tạo AI. Những người khác đã chặn các trình thu thập dữ liệu web tự động được các công ty như OpenAI, Anthropic và Google sử dụng.

Các trang web như Reddit và StackOverflow đã bắt đầu tính phí các công ty AI truy cập dữ liệu và một số nhà xuất bản đã có hành động pháp lý, ví dụ như The New York Times đã kiện OpenAI và Microsoft vì vi phạm bản quyền vào năm ngoái, cáo buộc các công ty này đã sử dụng các bài báo của tờ báo này để đào tạo mô hình của họ mà không xin phép.

Các công ty như OpenAI, Google và Meta đã nỗ lực hết sức trong những năm gần đây để thu thập thêm dữ liệu nhằm cải thiện hệ thống của họ, bao gồm cả việc phiên âm video YouTube và bẻ cong chính sách dữ liệu của riêng họ. Gần đây hơn, một số công ty AI đã đạt được thỏa thuận với các nhà xuất bản bao gồm Associated Press và News Corp, chủ sở hữu của The Wall Street Journal, cho phép họ truy cập liên tục vào nội dung của các nhà xuất bản này.

Nhưng những hạn chế về dữ liệu ngày càng được áp dụng nhiều hơn có thể gây ra mối đe dọa cho các công ty AI, vốn cần nguồn cung cấp dữ liệu chất lượng cao ổn định để giữ cho mô hình của họ luôn mới và cập nhật.

Điều cũng có thể gây khó khăn cho các công ty AI nhỏ hơn và giới học thuật, những người thường dựa vào các bộ dữ liệu công cộng, và không đủ khả năng tài chính để được cấp phép sử dụng dữ liệu trực tiếp từ các nhà xuất bản. Common Crawl, một bộ dữ liệu như vậy bao gồm hàng tỷ trang nội dung web và được duy trì bởi một tổ chức phi lợi nhuận, đã được trích dẫn trong hơn 10.000 nghiên cứu học thuật.

Không rõ mô hình AI nào đã được đào tạo trên các nguồn này vì rất ít nhà phát triển tiết lộ danh sách đầy đủ dữ liệu họ sử dụng. Nhưng các bộ dữ liệu có nguồn gốc từ Common Crawl, bao gồm C4 (viết tắt của Colossal, Cleaned Crawled Corpus) đã được các công ty bao gồm Google và OpenAI sử dụng để đào tạo các phiên bản trước đó các mô hình AI của họ.

Cuộc khủng hoảng về sự đồng thuận trong việc sử dụng dữ liệu để đào tạo các mô hình AI là một phản ứng tự nhiên đối với các hoạt động thu thập dữ liệu "không chừa thứ gì" của ngành công nghiệp AI. Nhưng nếu dữ liệu cần sự cho phép mới được sử dụng thì điều này sẽ ngăn cản các nhà nghiên cứu tham gia vào quá trình quản lý công nghệ. Các công ty công nghệ lớn đã có tất cả dữ liệu nên việc thay đổi li-xăng về việc sử dụng các dữ liệu này sẽ không thu hồi quyền sử dụng dữ liệu trước đó, và những công ty khởi nghiệp và những nhà nghiên cứu là những đối tượng bị tác động đầu tiên từ việc này.

Các công ty AI đã tuyên bố rằng việc sử dụng dữ liệu web công cộng của họ được bảo vệ hợp pháp theo nguyên tắc sử dụng hợp lý (fair use). Nhưng việc thu thập dữ liệu mới đã trở nên phức tạp hơn. Một số công ty AI đang lo lắng về việc gặp phải "bức tường dữ liệu" (data wall), thời điểm mà tất cả dữ liệu đào tạo trên internet công cộng đã cạn kiệt và phần còn lại bị ẩn sau các bức tường trả phí, bị chặn bởi robot. txt hoặc bị khóa trong các giao dịch độc quyền.

Một số công ty tin rằng họ có thể mở rộng bức tường dữ liệu bằng cách sử dụng dữ liệu tổng hợp, tức là dữ liệu do chính hệ thống AI tạo ra, để đào tạo các mô hình của họ. Nhưng nhiều nhà nghiên cứu nghi ngờ rằng các hệ thống AI ngày nay có khả năng tạo ra đủ dữ liệu tổng hợp chất lượng cao để thay thế dữ liệu do con người tạo ra.

Theo NYT.

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI

Nhấn vào đây để bắt đầu khóa học

==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==

Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo

Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com

Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

---

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Nhấn vào đây để bắt đầu khóa học

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Nhấn vào đây để bắt đầu khóa học
Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Nhấn vào đây để bắt đầu khóa học

Bảo mật và tấn công Website - Hacker mũ trắng

Nhấn vào đây để bắt đầu khóa học

KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Nhấn vào đây để bắt đầu khóa học

Nhấn vào đây để bắt đầu khóa học

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Nhấn vào đây để bắt đầu khóa học

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay

Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.

Nhấn vào đây để bắt đầu khóa học

KHÓA EXCEL CHUYÊN NGHIỆP

Nhấn vào đây để bắt đầu khóa học

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Nhấn vào đây để bắt đầu khóa học

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu

Nhấn vào đây để bắt đầu khóa học

Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ

Nhấn vào đây để bắt đầu khóa học

Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi

Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Nhấn vào đây để bắt đầu khóa học

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Nhấn vào đây để bắt đầu khóa học

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!

Nhấn vào đây để bắt đầu khóa học

Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!

Nhấn vào đây để bắt đầu khóa học

Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình

kiếm tiền Youtube bằng phần mềm Camtasia Studio

Nhấn vào đây để bắt đầu khóa học

Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP



HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA

Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍

KHÓA HỌC VIDEO- XÂY DỰNG PHẦN MỀM QUẢN LÝ BẰNG MICROSOFT ACCESS

GOOGLE SPREADSHEETS phê không tưởng

Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây

Khóa học lập trình cho bé MSWLogo

Nhấn vào đây để bắt đầu học

Khóa học Ba, Mẹ và Bé - Cùng bé lập trình TUYỆT VỜI

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử

Khóa học vẽ tạo giao diện demo cho website

Để thành thạo Wordpress bạn hãy tham gia khóa học

Tham gia khóa học tại đây

Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công

Nhấn vào đây để bắt đầu khóa học

==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột

Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

Share !

Header ads

Dữ liệu dùng để huấn luyện mô hình AI đang cạn dần

Dữ liệu dùng để huấn luyện mô hình AI đang cạn dần

Dữ liệu dùng để huấn luyện mô hình AI đang cạn dần

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Nhấn vào đây để bắt đầu khóa học

Khóa học Hacker và Marketing từ A-Z trên Facebook!

About Học viện đào tạo trực tuyến

Bài đăng nổi bật

Khóa Đào Tạo Hacker Mũ Trắng

Khóa học trực tuyến

Truy cập nhiều nhất

Tin công nghệ

Download

Danh mục bài viết

Nhóm Zalo CÔNG NGHỆ

Bảo hiểm nhân thọ - bảo vệ người trụ cột

Pages

Dữ liệu dùng để huấn luyện mô hình AI đang cạn dần

Dữ liệu dùng để huấn luyện mô hình AI đang cạn dần

Dữ liệu dùng để huấn luyện mô hình AI đang cạn dần

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Nhấn vào đây để bắt đầu khóa học

Khóa học Hacker và Marketing từ A-Z trên Facebook!

About Học viện đào tạo trực tuyến

Next

Bài đăng Mới hơn

Previous

Bài đăng Cũ hơn

Bài đăng nổi bật

Khóa Đào Tạo Hacker Mũ Trắng

Khóa học trực tuyến

Truy cập nhiều nhất

Nikon Z8 chính thức ra mắt: Kẻ kế nhiệm D850, giá $4000

Tin công nghệ

Download

Danh mục bài viết

Nhóm Zalo CÔNG NGHỆ

Bảo hiểm nhân thọ - bảo vệ người trụ cột

Pages