Học viện đào tạo trực tuyến Thứ Tư, 3 tháng 7, 2024 0 No comments

Tính đến thời điểm hiện tại, ngay cả chính các công ty phát triển mô hình cũng như ứng dụng AI cũng gặp khó khăn trong việc phát triển những công cụ có thể xác định và phân biệt nội dung do con người hay GenAI tạo sinh một cách đáng tin cậy. Giờ, một nhóm các nhà nghiên cứu đã tạo ra được một giải pháp mới hoàn toàn để đánh giá việc ứng dụng mô hình ngôn ngữ lớn trong những nghiên cứu và báo cáo khoa học, thông qua việc đánh giá "những từ dùng đi dùng lại" và tần suất chúng xuất hiện.

Kết quả nghiên cứu, các nhà khoa học cho rằng, "ít nhất 10% các tóm tắt báo cáo khoa học xuất bản trong năm 2024 đều đã được xử lý qua LLM."

[IMG]

Đó là thành quả nghiên cứu của 4 nhà khoa học tại đại học Tubingen và đại học Tây Bắc nước Đức. Họ cho biết, ý tưởng thực hiện công trình nghiên cứu này đến từ những báo cáo nghiên cứu khoa học đánh giá tác động của đại dịch COVID-19, thông qua việc xác định số ca tử vong cao hơn so với thời kỳ trước đại dịch. Tương tự như vậy, nhìn vào việc sử dụng những từ ngữ dư thừa lặp đi lặp lại, sau khi LLM và chatbot AI trở nên phổ biến kể từ cuối năm 2022, các nhà nghiên cứu phát hiện ra rằng "sự xuất hiện của LLM đã nảy sinh tình trạng tăng vọt tần suất hiện diện một số cụm từ."

Để đánh giá những thay đổi trong từ vựng sử dụng để viết các báo cáo nghiên cứu khoa học, các nhà nghiên cứu đã phân tích 14 triệu tóm tắt nghiên cứu đăng tải trên PubMed trong giai đoạn từ 2010 đến 2024, rồi tìm kiếm tần suất xuất hiện những cụm từ cụ thể qua từng năm. Tần suất này sau đó được chia thành hai thời kỳ để so sánh, từ 2010 đến 2022, và 2023 2024, khi chatbot AI với những mô hình ngôn ngữ lớn trở nên vô cùng phổ biến.

Những cụm từ AI thích dùng

Kết quả là, một số cụm từ thực sự rất ít được sử dụng trong những báo cáo khoa học trước năm 2023 bỗng nhiên xuất hiện dày đặc sau này. Lấy ví dụ cụm từ 'delves', tần suất cụm từ này xuất hiện trong những báo cáo khoa học công bố năm 2024 tăng 25 lần so với thời chưa có chatbot AI. Những cụm từ khác như 'showcasing' hay 'underscores' cũng tăng tần suất được sử dụng tăng tới 9 lần kể từ khi LLM lên ngôi. Những cụm từ phổ biến khác cũng được LLM dùng đi dùng lại, như 'potential' tăng 4.1%, 'findings' tăng 2.7%, hay 'crucial' tăng 2.6%,

Những thay đổi trong cách sử dụng ngôn ngữ này đương nhiên có thể là tác động không liên quan gì tới việc ứng dụng LLM để tóm tắt nội dung và viết lại đoạn mở đầu cho các báo cáo khoa học. Bản chất cách ngôn ngữ phát triển cùng xã hội là luôn sẽ có những từ mới được sử dụng phổ biến, những từ cũ thì dần mai một.

Tuy nhiên các nhà khoa học Đức phát hiện ra rằng, ở thời kỳ trước khi có chatbot AI, những xu hướng sử dụng lặp đi lặp lại một cụm từ với tần suất đột biến như thế này chỉ xảy ra với những từ khoá liên quan tới những sự kiện lớn liên quan tới y tế: Năm 2015 là ebola, năm 2017 là zika, và từ năm 2020 đến 2022 là những cụm từ như coronavirus, lockdown và pandemic.

Nhưng kể từ khi có chatbot AI vận hành bằng LLM, các nhà nghiên cứu phát hiện ra hàng trăm cụm từ thông dụng được dùng đi dùng lại mà không có liên quan gì đến những sự kiện trên thế giới. Giữa thời kỳ COVID-19 hoành hành, những cụm từ được sử dụng với tần suất nhiều nhất trong các báo cáo khoa học hầu hết đều là những danh từ. Còn ở thời kỳ AI, những động từ, tính từ và trạng từ lại được sử dụng nhiều hơn.

Thực tế thì đây hoàn toàn không phải một khám phá mới. Việc tăng tần suất sử dụng những cụm từ như 'delve' đã được ghi nhận trong quá khứ. Nhưng những nghiên cứu trước đây thường chỉ dựa vào việc so sánh với những nội dung chắc chắn được con người viét ra, hoặc danh sách những chỉ thị nội dung được viết bằng LLM. Còn ở nghiên cứu mới của người Đức, lượng nội dung khổng lồ được xuất bản trên các tạp chí khoa học từ năm 2010 đến 2022 chính là nguồn dữ liệu tham chiếu hoàn hảo để xác định những khác biệt về từ vựng do con người và máy móc viết ra.

Xác định văn do người viết và AI viết

Bằng cách nhấn mạnh hàng trăm cụm từ "chỉ thị" cho thấy nội dung có thể đã được viết hoặc tổng hợp lại bằng LLM, những cụm từ càng lúc càng phổ biến, có lẽ giờ sẽ tìm ra được những cách xác định nội dung được viết bằng AI dễ dàng hơn. Có một ví dụ mà chỉ trong 1 câu, hàng loạt những cụm từ chỉ thị mà AI thích sử dụng đều hiện ra: "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies."

Sau khi đánh giá tần suất xuất hiện những cụm từ "chỉ thị" trong từng báo cáo khoa học, các nhà nghiên cứu đi đến kết luận rằng, ít nhất 10% tổng số tóm tắt báo cáo khoa học xuất bản sau năm 2022 trên PubMed được LLM xử lý, hoặc viết hoàn toàn bằng LLM. Con số này thậm chí còn có thể cao hơn, vì hoàn toàn có thể tồn tại những tóm tắt nghiên cứu cũng được viết bằng LLM nhưng không có bất kỳ cụm từ chỉ thị nào họ tổng hợp và dựa vào đó để nghiên cứu, thay vào đó là những cụm từ chỉ thị khác xuất hiện liên tục.

Tỷ lệ này cũng khác biệt theo từng vùng và từng ngôn ngữ. Các nhà nghiên cứu phát hiện ra rằng, những tài liệu khoa học được thực hiện ở Trung Quốc, Hàn Quốc và Đài Loan xuất hiện những cụm từ chỉ thị LLM viết giúp con người khoảng 15%. Điều này có nghĩa là, "LLM là một công cụ tốt, có thể giúp người không nói tiếng Anh là tiếng mẹ đẻ chỉnh sửa văn bản tiếng Anh, tức là sử dụng LLM là hợp lý."

Ở khía cạnh ngược lại, các nhà nghiên cứu cho rằng những người dùng tiếng Anh làm tiếng mẹ đẻ "có lẽ nhận diện tốt hơn để gỡ bỏ những cụm từ không tự nhiên khỏi văn bản mà LLM viết ra," tức là cố gắng che giấu việc sử dụng LLM để thực hiện các nghiên cứu khoa học.

Nhận diện được văn bản có được viết bằng LLM hay không là điều quan trọng, vì "LLM đã trở nên khét tiếng với những lần tự tạo ra nguồn dẫn nghiên cứu khoa học không có thật, viết ra những đoạn tóm tắt hoàn toàn sai ý nghĩa nội dung, và đưa ra những tuyên bố sai lệch, nhưng trông có vẻ đáng tin cậy." Nhưng khi những kiến thức nhận diện từ chỉ thị cho thấy đoạn văn có thể đã được xử lý bằng LLM đến được với mọi người, những biên tập viên có thể tìm cách lọc và chỉnh sửa những cụm từ ấy đi.

Theo ArsTechnica

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI

Nhấn vào đây để bắt đầu khóa học

==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==

Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo

Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com

Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

---

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Nhấn vào đây để bắt đầu khóa học

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Nhấn vào đây để bắt đầu khóa học
Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Nhấn vào đây để bắt đầu khóa học

Bảo mật và tấn công Website - Hacker mũ trắng

Nhấn vào đây để bắt đầu khóa học

KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Nhấn vào đây để bắt đầu khóa học

Nhấn vào đây để bắt đầu khóa học

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Nhấn vào đây để bắt đầu khóa học

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay

Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.

Nhấn vào đây để bắt đầu khóa học

KHÓA EXCEL CHUYÊN NGHIỆP

Nhấn vào đây để bắt đầu khóa học

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Nhấn vào đây để bắt đầu khóa học

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu

Nhấn vào đây để bắt đầu khóa học

Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ

Nhấn vào đây để bắt đầu khóa học

Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi

Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Nhấn vào đây để bắt đầu khóa học

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Nhấn vào đây để bắt đầu khóa học

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!

Nhấn vào đây để bắt đầu khóa học

Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!

Nhấn vào đây để bắt đầu khóa học

Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình

kiếm tiền Youtube bằng phần mềm Camtasia Studio

Nhấn vào đây để bắt đầu khóa học

Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP



HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA

Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍

KHÓA HỌC VIDEO- XÂY DỰNG PHẦN MỀM QUẢN LÝ BẰNG MICROSOFT ACCESS

GOOGLE SPREADSHEETS phê không tưởng

Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây

Khóa học lập trình cho bé MSWLogo

Nhấn vào đây để bắt đầu học

Khóa học Ba, Mẹ và Bé - Cùng bé lập trình TUYỆT VỜI

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử

Khóa học vẽ tạo giao diện demo cho website

Để thành thạo Wordpress bạn hãy tham gia khóa học

Tham gia khóa học tại đây

Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công

Nhấn vào đây để bắt đầu khóa học

==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột

Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

Share !

Header ads

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Những cụm từ AI thích dùng

Xác định văn do người viết và AI viết

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Nhấn vào đây để bắt đầu khóa học

Khóa học Hacker và Marketing từ A-Z trên Facebook!

About Học viện đào tạo trực tuyến

Bài đăng nổi bật

Khóa Đào Tạo Hacker Mũ Trắng

Khóa học trực tuyến

Truy cập nhiều nhất

Tin công nghệ

Download

Danh mục bài viết

Nhóm Zalo CÔNG NGHỆ

Bảo hiểm nhân thọ - bảo vệ người trụ cột

Pages

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Những cụm từ AI thích dùng

Xác định văn do người viết và AI viết

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Nhấn vào đây để bắt đầu khóa học

Khóa học Hacker và Marketing từ A-Z trên Facebook!

About Học viện đào tạo trực tuyến

Next

Bài đăng Mới hơn

Previous

Bài đăng Cũ hơn

Bài đăng nổi bật

Khóa Đào Tạo Hacker Mũ Trắng

Khóa học trực tuyến

Truy cập nhiều nhất

Tin công nghệ

Download

Danh mục bài viết

Nhóm Zalo CÔNG NGHỆ

Bảo hiểm nhân thọ - bảo vệ người trụ cột

Pages