Header ads

Header ads
» »

Nghiên cứu: Có thể nhận diện nội dung AI viết nhờ những từ lặp đi lặp lại

Tính đến thời điểm hiện tại, ngay cả chính các công ty phát triển mô hình cũng như ứng dụng AI cũng gặp khó khăn trong việc phát triển những công cụ có thể xác định và phân biệt nội dung do con người hay GenAI tạo sinh một cách đáng tin cậy. Giờ, một nhóm các nhà nghiên cứu đã tạo ra được một giải pháp mới hoàn toàn để đánh giá việc ứng dụng mô hình ngôn ngữ lớn trong những nghiên cứu và báo cáo khoa học, thông qua việc đánh giá "những từ dùng đi dùng lại" và tần suất chúng xuất hiện.

Kết quả nghiên cứu, các nhà khoa học cho rằng, "ít nhất 10% các tóm tắt báo cáo khoa học xuất bản trong năm 2024 đều đã được xử lý qua LLM."

[​IMG]

Đó là thành quả nghiên cứu của 4 nhà khoa học tại đại học Tubingen và đại học Tây Bắc nước Đức. Họ cho biết, ý tưởng thực hiện công trình nghiên cứu này đến từ những báo cáo nghiên cứu khoa học đánh giá tác động của đại dịch COVID-19, thông qua việc xác định số ca tử vong cao hơn so với thời kỳ trước đại dịch. Tương tự như vậy, nhìn vào việc sử dụng những từ ngữ dư thừa lặp đi lặp lại, sau khi LLM và chatbot AI trở nên phổ biến kể từ cuối năm 2022, các nhà nghiên cứu phát hiện ra rằng "sự xuất hiện của LLM đã nảy sinh tình trạng tăng vọt tần suất hiện diện một số cụm từ."

Để đánh giá những thay đổi trong từ vựng sử dụng để viết các báo cáo nghiên cứu khoa học, các nhà nghiên cứu đã phân tích 14 triệu tóm tắt nghiên cứu đăng tải trên PubMed trong giai đoạn từ 2010 đến 2024, rồi tìm kiếm tần suất xuất hiện những cụm từ cụ thể qua từng năm. Tần suất này sau đó được chia thành hai thời kỳ để so sánh, từ 2010 đến 2022, và 2023 2024, khi chatbot AI với những mô hình ngôn ngữ lớn trở nên vô cùng phổ biến.


Những cụm từ AI thích dùng


Kết quả là, một số cụm từ thực sự rất ít được sử dụng trong những báo cáo khoa học trước năm 2023 bỗng nhiên xuất hiện dày đặc sau này. Lấy ví dụ cụm từ 'delves', tần suất cụm từ này xuất hiện trong những báo cáo khoa học công bố năm 2024 tăng 25 lần so với thời chưa có chatbot AI. Những cụm từ khác như 'showcasing' hay 'underscores' cũng tăng tần suất được sử dụng tăng tới 9 lần kể từ khi LLM lên ngôi. Những cụm từ phổ biến khác cũng được LLM dùng đi dùng lại, như 'potential' tăng 4.1%, 'findings' tăng 2.7%, hay 'crucial' tăng 2.6%,

Những thay đổi trong cách sử dụng ngôn ngữ này đương nhiên có thể là tác động không liên quan gì tới việc ứng dụng LLM để tóm tắt nội dung và viết lại đoạn mở đầu cho các báo cáo khoa học. Bản chất cách ngôn ngữ phát triển cùng xã hội là luôn sẽ có những từ mới được sử dụng phổ biến, những từ cũ thì dần mai một.

llm.webp

Tuy nhiên các nhà khoa học Đức phát hiện ra rằng, ở thời kỳ trước khi có chatbot AI, những xu hướng sử dụng lặp đi lặp lại một cụm từ với tần suất đột biến như thế này chỉ xảy ra với những từ khoá liên quan tới những sự kiện lớn liên quan tới y tế: Năm 2015 là ebola, năm 2017 là zika, và từ năm 2020 đến 2022 là những cụm từ như coronavirus, lockdown và pandemic.

Nhưng kể từ khi có chatbot AI vận hành bằng LLM, các nhà nghiên cứu phát hiện ra hàng trăm cụm từ thông dụng được dùng đi dùng lại mà không có liên quan gì đến những sự kiện trên thế giới. Giữa thời kỳ COVID-19 hoành hành, những cụm từ được sử dụng với tần suất nhiều nhất trong các báo cáo khoa học hầu hết đều là những danh từ. Còn ở thời kỳ AI, những động từ, tính từ và trạng từ lại được sử dụng nhiều hơn.

Thực tế thì đây hoàn toàn không phải một khám phá mới. Việc tăng tần suất sử dụng những cụm từ như 'delve' đã được ghi nhận trong quá khứ. Nhưng những nghiên cứu trước đây thường chỉ dựa vào việc so sánh với những nội dung chắc chắn được con người viét ra, hoặc danh sách những chỉ thị nội dung được viết bằng LLM. Còn ở nghiên cứu mới của người Đức, lượng nội dung khổng lồ được xuất bản trên các tạp chí khoa học từ năm 2010 đến 2022 chính là nguồn dữ liệu tham chiếu hoàn hảo để xác định những khác biệt về từ vựng do con người và máy móc viết ra.

Xác định văn do người viết và AI viết


Bằng cách nhấn mạnh hàng trăm cụm từ "chỉ thị" cho thấy nội dung có thể đã được viết hoặc tổng hợp lại bằng LLM, những cụm từ càng lúc càng phổ biến, có lẽ giờ sẽ tìm ra được những cách xác định nội dung được viết bằng AI dễ dàng hơn. Có một ví dụ mà chỉ trong 1 câu, hàng loạt những cụm từ chỉ thị mà AI thích sử dụng đều hiện ra: "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies."

Quảng cáo



Sau khi đánh giá tần suất xuất hiện những cụm từ "chỉ thị" trong từng báo cáo khoa học, các nhà nghiên cứu đi đến kết luận rằng, ít nhất 10% tổng số tóm tắt báo cáo khoa học xuất bản sau năm 2022 trên PubMed được LLM xử lý, hoặc viết hoàn toàn bằng LLM. Con số này thậm chí còn có thể cao hơn, vì hoàn toàn có thể tồn tại những tóm tắt nghiên cứu cũng được viết bằng LLM nhưng không có bất kỳ cụm từ chỉ thị nào họ tổng hợp và dựa vào đó để nghiên cứu, thay vào đó là những cụm từ chỉ thị khác xuất hiện liên tục.

MicrosoftTeams-image--55-.jpeg

Tỷ lệ này cũng khác biệt theo từng vùng và từng ngôn ngữ. Các nhà nghiên cứu phát hiện ra rằng, những tài liệu khoa học được thực hiện ở Trung Quốc, Hàn Quốc và Đài Loan xuất hiện những cụm từ chỉ thị LLM viết giúp con người khoảng 15%. Điều này có nghĩa là, "LLM là một công cụ tốt, có thể giúp người không nói tiếng Anh là tiếng mẹ đẻ chỉnh sửa văn bản tiếng Anh, tức là sử dụng LLM là hợp lý."

Ở khía cạnh ngược lại, các nhà nghiên cứu cho rằng những người dùng tiếng Anh làm tiếng mẹ đẻ "có lẽ nhận diện tốt hơn để gỡ bỏ những cụm từ không tự nhiên khỏi văn bản mà LLM viết ra," tức là cố gắng che giấu việc sử dụng LLM để thực hiện các nghiên cứu khoa học.

Nhận diện được văn bản có được viết bằng LLM hay không là điều quan trọng, vì "LLM đã trở nên khét tiếng với những lần tự tạo ra nguồn dẫn nghiên cứu khoa học không có thật, viết ra những đoạn tóm tắt hoàn toàn sai ý nghĩa nội dung, và đưa ra những tuyên bố sai lệch, nhưng trông có vẻ đáng tin cậy." Nhưng khi những kiến thức nhận diện từ chỉ thị cho thấy đoạn văn có thể đã được xử lý bằng LLM đến được với mọi người, những biên tập viên có thể tìm cách lọc và chỉnh sửa những cụm từ ấy đi.

Theo ArsTechnica

Quảng cáo


Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn