
Tuần qua, Đại học Harvard đã thông báo về việc phát triển một tập dữ liệu huấn luyện AI và cho phép người dùng sử dụng tập dữ liệu này để huấn luyện các mô hình ngôn ngữ lớn của mình.
Hiện tại, có rất nhiều cuộc chiến pháp lý giữa các công ty AI và các nhà sản xuất nội dung về vấn đề bản quyền trong dữ liệu dùng để huấn luyện AI. Một trường hợp nổi bật là việc The New York Times kiện OpenAI và Microsoft về vấn đề tương tự. Trong những vụ kiện này, dù hiện tại phần thắng chưa rõ sẽ nghiêng về ai, nhưng nếu các công ty AI thắng, họ sẽ tiếp tục được sử dụng những dữ liệu đó mà không cần quan tâm đến vấn đề bản quyền. Tuy nhiên, nếu thua, việc sử dụng sẽ bị cấm và các mô hình ngôn ngữ mà các công ty này phát triển chắc chắn sẽ bị ảnh hưởng.
Những tập dữ liệu huấn luyện công khai đang được phát triển mạnh mẽ
Đối mặt với những vấn đề đó, một làn sóng các dự án phát triển các tập dữ liệu công cộng – nơi mọi người có thể sử dụng cho các mô hình ngôn ngữ của họ – đang trở nên mạnh mẽ. Vào mùa xuân năm ngoái, Pleias, một startup AI của Pháp, đã ra mắt một tập dữ liệu công cộng có tên là Common Corpus, được hỗ trợ bởi Bộ Văn hóa Pháp. Tập dữ liệu này bao gồm 3 đến 4 triệu cuốn sách cùng các bộ sưu tập định kỳ. Common Corpus đã được tải xuống hơn 60.000 lần trong tháng này trên nền tảng AI mã nguồn mở Hugging Face. Gần đây, Pleias đã thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này. Đây là một trong những mô hình đầu tiên được huấn luyện hoàn toàn trên dữ liệu mở, đồng thời tuân thủ Đạo luật AI của EU.
Hiện tại, có rất nhiều cuộc chiến pháp lý giữa các công ty AI và các nhà sản xuất nội dung về vấn đề bản quyền trong dữ liệu dùng để huấn luyện AI. Một trường hợp nổi bật là việc The New York Times kiện OpenAI và Microsoft về vấn đề tương tự. Trong những vụ kiện này, dù hiện tại phần thắng chưa rõ sẽ nghiêng về ai, nhưng nếu các công ty AI thắng, họ sẽ tiếp tục được sử dụng những dữ liệu đó mà không cần quan tâm đến vấn đề bản quyền. Tuy nhiên, nếu thua, việc sử dụng sẽ bị cấm và các mô hình ngôn ngữ mà các công ty này phát triển chắc chắn sẽ bị ảnh hưởng.
Những tập dữ liệu huấn luyện công khai đang được phát triển mạnh mẽ
Đối mặt với những vấn đề đó, một làn sóng các dự án phát triển các tập dữ liệu công cộng – nơi mọi người có thể sử dụng cho các mô hình ngôn ngữ của họ – đang trở nên mạnh mẽ. Vào mùa xuân năm ngoái, Pleias, một startup AI của Pháp, đã ra mắt một tập dữ liệu công cộng có tên là Common Corpus, được hỗ trợ bởi Bộ Văn hóa Pháp. Tập dữ liệu này bao gồm 3 đến 4 triệu cuốn sách cùng các bộ sưu tập định kỳ. Common Corpus đã được tải xuống hơn 60.000 lần trong tháng này trên nền tảng AI mã nguồn mở Hugging Face. Gần đây, Pleias đã thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này. Đây là một trong những mô hình đầu tiên được huấn luyện hoàn toàn trên dữ liệu mở, đồng thời tuân thủ Đạo luật AI của EU.
Ngoài ra, có rất nhiều dự án khác đang được thực hiện với mục đích tương tự. Startup AI Spawning đã ra mắt tập dữ liệu của riêng mình có tên là Source.Plus vào mùa hè này. Tập dữ liệu này bao gồm các hình ảnh thuộc phạm vi công cộng, được lấy từ Wikimedia Commons cùng nhiều bảo tàng và kho lưu trữ khác nhau. Một số tổ chức văn hóa lớn như Bảo tàng Nghệ thuật Metropolitan ở New York từ lâu đã cho phép truy cập công khai vào các kho lưu trữ của họ.
Institutional Data Initiatives (IDI), tổ chức thành lập bởi Đại học Harvard sẽ thực hiện dự án này
Harvard không đứng ngoài xu thế này khi tuần vừa rồi đại học này đã thông báo về việc ra mắt một tập dữ liệu huấn luyện AI được hỗ trợ bởi OpenAI và Microsoft. Tập dữ liệu này vừa được tạo ra bởi tổ chức mới thành lập của Harvard: Institutional Data Initiatives (IDI), với lượng nội dung từ hơn 1 triệu quyển sách – gấp 5 lần Books3 – vốn được dùng để huấn luyện các mô hình như Meta Llama. Nội dung của nó trải rộng qua nhiều chủ đề khác nhau, qua nhiều thập kỷ, với các ngôn ngữ đa dạng và nội dung đến từ các nhà văn như Shakespeare, Charles Dickens, Dante hay nội dung toán học từ những quyển sách cổ xưa. Theo IDI, tập dữ liệu này được kỳ vọng sẽ tạo ra một môi trường bình đẳng hơn cho các công ty AI, đặc biệt là các công ty nhỏ.
Greg Leppert, đại diện của IDI, tin rằng dự án này mang lại giá trị lớn, giúp các công ty AI – đặc biệt là các công ty nhỏ – có thể tiếp cận tới nguồn nội dung chất lượng cao cho mô hình của họ. Tuy nhiên, ông vẫn cho rằng các công ty này cũng nên sử dụng thêm các dữ liệu huấn luyện khác để tạo ra sự khác biệt giữa mô hình của họ với đối thủ cạnh tranh. Microsoft và OpenAI đã đưa ra những bình luận mang tính ủng hộ dự án và cho rằng nó phù hợp với định hướng phát triển AI của họ.
Bên cạnh đó, IDI cũng đang làm việc với các đơn vị khác như Boston Public Library để cập nhật thêm nội dung từ các tạp chí vào cơ sở dữ liệu của mình. Họ cũng mong muốn mở rộng sự hợp tác với bất kỳ ai hứng thú, miễn là điều đó mang lại sự phong phú cho tập dữ liệu huấn luyện của họ.
Nguồn: Wired
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































