Header ads

Header ads
» »

GPT-4o: Vũ khí mới nhất để OpenAI cạnh tranh với Gemini, hữu ích, thông minh và đa dụng hơn

Đồng ý rằng hiện giờ Gemini vẫn chưa thể cạnh tranh được với GPT-4 về khả năng tạo sinh nội dung. Nhưng nếu cứ ngủ quên trên chiến thắng, OpenAI sẽ để Google vượt qua. Vượt qua ở đây không đơn giản là sức mạnh của bản thân mô hình ngôn ngữ Gemini vượt qua GPT-4, mà Google có thứ mà OpenAI hay chính bản thân Microsoft cũng chẳng thể chạm tay tới được, đó là hệ sinh thái Android với hơn 3 tỷ thiết bị trên toàn thế giới, tính đến tháng 5/2023. Gemini dần hoàn thiện và tích hợp sâu vào những chiếc máy Android mới, nguy cơ là mọi người sẽ dần quên ChatGPT vì độ tiện dụng của Gemini.

ChatGPT nói riêng hay bản thân mô hình GPT-4 hoặc GPT-3.5 nói chung đều sẽ cần những nâng cấp không chỉ ở khía cạnh nền tảng, mà còn ứng dụng thương mại để giữ vị trí trên thị trường AI, tiếp tục trở thành công cụ được tin dùng.

Đó là lý do GPT-4o được ra mắt đêm qua 13/5 theo giờ Việt Nam. Chữ "o" ở đây là viết tắt của "omni", tức là "toàn năng", với rất nhiều những nâng cấp để tăng tốc độ nhận diện ngôn ngữ đầu vào, dù là văn bản, giọng nói hay hình ảnh. Một điểm nhấn trong sự kiện Spring Update của OpenAI, đó là bây giờ GPT-4o thậm chí còn có khả năng nhận diện cả cảm xúc trong giọng nói của người dùng để tạo ra cuộc trò chuyện thân thiện và tự nhiên nhất.

Model GPT-4o: nói chuyện tự nhiên, nhìn màn hình lẫn thế giới xung quanh, hiểu "biểu cảm" người dùng

ChatGPT đã hỗ trợ máy tính desktop nhiều hơn để tăng cường trải nghiệm người dùng, đồng thời mô hình mới nhất là GPT-4o cũng đã được giới thiệu với khả năng nghe, nói và nhìn thấy môi trường xung quanh chứ không chỉ đơn thuần là viết text như xưa…
tinhte.vn


Cứ phải đi một bước trước Google đã


Rõ ràng là OpenAI chọn thời điểm công bố Spring Update chỉ cách đây ít ngày, đúng 24 giờ đồng hồ trước khi Google I/O 2024 được tổ chức là quyết định cực kỳ thông minh. Bỗng nhiên bây giờ mọi sự chú ý của cộng đồng, của người dùng chatbot AI, của người dùng thiết bị công nghệ hay thậm chí là cả những nhà đầu tư, những nhà phân tích phố Wall chỉ đổ dồn vào Google, xem họ sẽ làm gì ở sự kiện thường niên nơi họ công bố những tiến bộ công nghệ mới nhất. Keynote vào lúc 0h đêm 15/5 sẽ là thứ quyết định giá cổ phiếu của Google sáng mai.

Vì sao lại coi GPT-4o là câu trả lời trực tiếp của OpenAI trước những khả năng nâng cấp và phục vụ người dùng trong tương lai của Google Gemini? Anh em hãy để ý một chi tiết mà giám đốc công nghệ Mira Murati công bố vào đêm qua: GPT-4o sở hữu sức mạnh của trí thông minh nhân tạo tương đương như GPT-4, nhưng cải thiện rất nhiều về khả năng nhận diện cũng như tạo sinh nội dung đa phương tiện, đa chế độ nội dung.

Tại sao OpenAI lại ra mắt app ChatGPT cho macOS trước thay vì Windows 11?

OpenAI tối hôm qua đã giới thiệu mô hình GPT-4o mới, tích hợp khả năng xử lý nhiều loại data khác nhau trong cùng một model duy nhất. Ví dụ nếu sử dụng GPT-4o, bạn có thể tương tác với mô hình AI bằng văn bản, giọng nói, video hay hình ảnh.
tinhte.vn


Điều này có nghĩa, GPT-4o sẽ phù hợp hơn và tốt hơn nếu anh em sử dụng nó vào những mục đích đa dạng hơn, thông qua ChatGPT hay sau này là Copilot, thậm chí có khi là cả Siri, khi Bloomberg mới đây đưa ra thông tin không chính thức dẫn nguồn giấu tên, rằng Apple và OpenAI đã rất gần với thỏa thuận ứng dụng mô hình ngôn ngữ để phục vụ người dùng iPhone hay MacBook.

Việc cải thiện khả năng nhận diện âm thanh giọng nói, hình ảnh bên cạnh cách truyền thống nhất là văn bản trùng hợp ở chỗ, đó chính là những tham vọng mà Google muốn người dùng điện thoại Android hay công cụ tìm kiếm trực tuyến có thể làm được với Gemini. Dù đành rằng Gemini không có được sức mạnh tạo sinh với độ đa dạng và chính xác tương đương như GPT-4, nhưng cứ cho Google thời gian, kiểu gì họ cũng sẽ bắt kịp được với đối thủ cạnh tranh.

Với GPT-4o, ChatGPT sẽ làm được gì?


Đầu tiên và đáng kể nhất, là cái khả năng "ngắt lời" của người dùng ChatGPT với mô hình ngôn ngữ mới, trong trường hợp người dùng muốn tạm dừng câu trả lời của ChatGPT. Chatbot AI này đã có mô hình chuyển đổi nhận diện từ giọng nói và biến nó thành văn bản để mô hình AI xử lý từ lâu rồi. Nhưng cái khả năng "ngắt lời" này sẽ biến cuộc trò chuyện trao đổi lấy thông tin giữa con người và chatbot trở nên tự nhiên và cuốn hút hơn, không còn phải chờ ChatGPT đưa ra đủ câu trả lời rồi mới nhập query kế tiếp nữa.

Để làm được điều này, mô hình chuyển đổi âm thanh, nhận diện giọng nói và biến nó thành văn bản được cải tiến khá nhiều.

Quảng cáo



Tương tự như vậy, là mô hình nhận diện hình ảnh. Hữu ích không kém khả năng "ngắt lời" ChatGPT, là khả năng nhận diện hình ảnh hay thậm chí là cả màn hình máy tính, rồi trả lời những câu hỏi của người dùng, từ việc hỏi nhãn hàng có mặt trong tấm hình, cho tới việc bắt AI đọc code lập trình trên màn hình máy tính và phân tích xem có lỗi hay không. Anh em có thấy tính năng này giống như Circle to Search kết hợp với Multisearch trên Samsung Galaxy S24 Ultra không?

Theo CTO Murati, những tính năng này sẽ còn được nâng cấp mạnh hơn trong tương lai. Ban đầu, những tính năng của GPT-4o cũng giống với rất nhiều tính năng AI hay tìm kiếm khác, đặc biệt là trên điện thoại iOS và Android, ví dụ như nhìn hình rồi dịch thuật những thông tin văn bản xuất hiện trong tấm hình. Hiện giờ nếu so sánh thì cái tính năng này không khác nhiều so với Google Lens.

Nhưng trong tương lai, cô Murati khẳng định rằng GPT-4o thậm chí sẽ còn có khả năng "xem" cả một trận đấu thể thao trực tiếp rồi mô tả lại luật chơi cho mọi người. Tương tự như vậy là "xem giúp" người dùng cả một livestream hay video bài giảng, rồi tóm tắt lại những kiến thức cô đọng trong bài giảng ấy.

Nói một cách ngắn gọn, nếu như GPT-4o không nâng cấp quá nhiều về sức mạnh tạo sinh và tham số nội suy, gần như mọi khía cạnh khác để tích hợp vào sản phẩm thương mại, là ChatGPT đều được nâng cấp rất nhiều. Có thể nói, đây chính là tác động của Gemini, bất chấp công cụ này hiện giờ có phục vụ mọi người như ý muốn hay không.

GPT-4o đã được thử nghiệm từ 2 đến 3 tuần qua, nhưng không ai biết


Câu chuyện bây giờ mới kể. Cách đây ít lâu, một AI chatbot bí ẩn có cái tên đơn giản và hài hước, là "im-also-a-good-gpt2-chatbot" đã đạt điểm số ELO cao chót vót, vượt rất xa so với những chatbot khác như Bard, Claude hay chính bản thân ChatGPT vận hành dựa trên mô hình GPT-4 Turbo trong bảng xếp hạng benchmark hiệu năng tạo sinh Chatbot Arena của LMSYS. Các chuyên gia đau đầu và cuống cuồng đi tìm thông tin về chatbot bí ẩn này:

Quảng cáo


GNeNBUgbIAAsV8F.jpeg

Để anh em hiểu rõ hơn, Chatbot Arena là một trang web nơi người dùng có thể trò chuyện với hai mô hình ngôn ngữ AI ngẫu nhiên, không biết mô hình nào tên là gì, một dạng blind test xác định hiệu năng tạo sinh của AI, rồi sau đó sẽ chọn ra mô hình đưa ra những câu trả lời hay và tốt hơn.

Mãi đến sau sự kiện Spring Update của OpenAI, một nhân viên của startup, William Fedus mới xác nhận, "im-also-a-good-gpt2-chatbot" chính là phiên bản ChatGPT vận hành dựa trên GPT-4o. Nó đạt điểm ELO cao nhất từ trước tới nay, 1310, như trong hình trên, vượt qua cả Claude 3 Opus, và GOT-4 Turbo. Còn với mọi người, "im-also-a-good-gpt2-chatbot" đã xuất hiện trên Chatbot Arena từ khoảng 2 đến 3 tuần trước.

GPT-4o cỡ này, thì GPT-5 cỡ nào?


Xin được nhắc lại, đây chỉ là một bản nâng cấp của nền tảng mô hình ngôn ngữ lớn GPT-4. Những gì OpenAI giới thiệu đêm 13/5 theo giờ Việt Nam, cộng thêm kết quả benchmark của Chatbot Arena đưa chúng ta tới những dự đoán về sức mạnh của GPT-5, thứ mà nhiều nguồn tin nói rằng sẽ ra mắt vào nửa cuối năm 2024 này.

Tuy nhiên, chính bản thân CEO Sam Altman đã lên tiếng xác nhận ngay trước khi GPT-4o được giới thiệu, GPT-5 sẽ được hoãn ra mắt, vì OpenAI đang tập trung phát triển nhiều dự án khác. Một trong số đó, chính là GPT-4o.

GPT-5-0a613c0fc7ef4aa09a21e4de1c2b6363.jpg

Dự đoán đầu tiên, GPT-5 chắc chắn sẽ vận hành dựa trên tổng tham số cao hơn hẳn so với GPT-4, 4 Turbo hay 4o. Những tin đồn nói rằng, GPT-4 vận hành dựa trên khoảng 1 nghìn tỷ tham số.

Thứ hai, thứ quan trọng là khả năng "cào thông tin" cập nhật và chính xác nhất để giải quyết những vấn đề về tính thời sự và cập nhật của dữ liệu ChatGPT cung cấp cho người dùng. Nhờ đó, tổng hợp tin tức hay học tập, thu thập dữ liệu kiến thức với GPT-5 cũng sẽ đáng tin cậy hơn nhiều. Bản thân tính năng này cũng đã phần nào được tích hợp vào GPT-4o, ngay cả người dùng ChatGPT miễn phí cũng có thể sử dụng tính năng tìm kiếm trực tuyến nhờ thuật toán để tìm những câu trả lời cập nhật nhất.

Thứ ba, GPT-5 có thể sẽ xử lý được cùng lúc 50 nghìn token, 50 nghìn ký tự hoặc chuỗi ký tự, gấp đôi con số mà GPT-4 có thể xử lý được. Khả năng này sẽ giúp việc xử lý những văn bản và nội dung dài hiệu quả hơn.

Thứ tư, những nỗ lực xóa bỏ thiên kiến của AI sau quá trình học hàng nghìn tỷ token văn bản trên mạng internet hay trong mọi tác phẩm con người tạo ra sẽ là thứ OpenAI cần ứng dụng, để tạo ra một công cụ phù hợp cho tất cả mọi người.

7TXAQ7CIQZFQNKKXTS56IGUDWM.jpg

Thứ năm, một phần trong nỗ lực đưa con người và ngành nghiên cứu AI tiệm cận với việc tạo ra được một "trí thông minh nhân tạo phổ quát", AGI, GPT-5 sẽ có khả năng tư duy lý luận mạnh hơn so với GPT-4. Dĩ nhiên khả năng tư duy lý luận này cũng sẽ chỉ giúp con người có thể xử lý vài nhiệm vụ và yêu cầu phức tạp hơn so với những gì GPT-4 có thể làm được hiện giờ. Kết hợp với khả năng ghi nhớ lịch sử trò chuyện và bối cảnh cuộc trò chuyện với người dùng, GPT-5 có thể tạo ra những kết luận có giá trị hơn.

Thứ sáu, chính là khả năng vận hành tiết kiệm tài nguyên của trung tâm dữ liệu. Những nỗ lực này cũng đã được OpenAI công bố khi giới thiệu GPT-4o. Cô Murati nói, Chi phí vận hành tạo ra từng token dữ liệu tạo sinh của GPT-4o đủ thấp, để OpenAI cung cấp mô hình mới toanh này một cách miễn phí cho những người sử dụng ChatGPT. Còn đối với API dành cho doanh nghiệp, GPT-4o có chi phí 5 USD cho 1 triệu token dữ liệu đầu vào, và 15 USD cho 1 triệu token dữ liệu trả về. Con số này của GPT-4 Turbo lần lượt là 10 và 30 USD, gấp đôi.

Và cuối cùng, GPT-5 cũng sẽ cần cải thiện sức mạnh nhận diện và trao đổi với người dùng ở càng nhiều ngôn ngữ, ở chất lượng càng cao càng tốt. GPT-4o hiện giờ có thể vận hành ở 50 ngôn ngữ khác nhau, theo OpenAI. Cả số lượng ngôn ngữ, lẫn chất lượng ngôn ngữ không phải tiếng Anh mà ChatGPT tạo ra có thể sẽ được cải thiện đáng kể.

Tổng hợp

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn