Google Gemini 1.5 Pro là model mạnh hơn cả model 1.0 Ultra đang có mặt trên Gemini Advanced mà người dùng phổ thông đang bỏ số tiền 20 USD/tháng để sử dụng. Khả năng nổi bật của Gemini 1.5 Pro so với các model trước đó của Google là xử lý ngữ cảnh lên đến 1 triệu token, Gemini 1.5 cũng tối ưu cho các mô hình đa phương thức (multimodal LLM).
Sau thời gian chờ đợi thì mình đã được trải nghiệm trước Gemini 1.5 Pro (bản Preview) và thử nghiệm một số khả năng của nó so với Gemini 1.0 Ultra hiện tại cũng như so sánh với GPT-4 đang có mặt trên Copilot của Microsoft.
Có thể nói con số 1 triệu token là rất lớn, vì vậy nó có thể xử lý những đoạn video dài, những bản tài liệu vài ngàn trang, những dòng code vài triệu dòng…so với GPT-4 hiện tại chỉ là 128.000 token hay Gemini 1.0 Pro là 32.000 toekn, khả năng của Gemini 1.5 Pro vượt trội hơn nhiều, cụ thể như thế nào thì mình chia sẻ một số bài thử của mình về khả năng suy luận/suy luận sâu để đưa ra đáp án, bài test NIAH, bài test multimodal cả hình ảnh, video lẫn tài liệu…
Một câu hỏi tính toán cũng thuộc dạng hơi đánh đố một chút, 1kg bông gòn và 1lb sắt thì cái nào nặng hơn. Kết quả là GPT-4 và Gemini 1.5 Pro trả lời chính xác, còn Gemini 1.0 Ultra trả lời sai.
Sau thời gian chờ đợi thì mình đã được trải nghiệm trước Gemini 1.5 Pro (bản Preview) và thử nghiệm một số khả năng của nó so với Gemini 1.0 Ultra hiện tại cũng như so sánh với GPT-4 đang có mặt trên Copilot của Microsoft.

Mô hình ngôn ngữ Gemini 1.5 mà Google vừa ra mắt có gì hay?
Cách đây không lâu thì Google trình làng thế hệ model AI mới nhất của họ, cũng là phiên bản nâng cấp của Gemini, gọi là Gemini 1.5. Google Gemini 1.5 mang lại khả năng suy luận tốt hơn nhiều so với Gemini 1.
tinhte.vn
Có thể nói con số 1 triệu token là rất lớn, vì vậy nó có thể xử lý những đoạn video dài, những bản tài liệu vài ngàn trang, những dòng code vài triệu dòng…so với GPT-4 hiện tại chỉ là 128.000 token hay Gemini 1.0 Pro là 32.000 toekn, khả năng của Gemini 1.5 Pro vượt trội hơn nhiều, cụ thể như thế nào thì mình chia sẻ một số bài thử của mình về khả năng suy luận/suy luận sâu để đưa ra đáp án, bài test NIAH, bài test multimodal cả hình ảnh, video lẫn tài liệu…
Khả năng tính toán

Một câu hỏi tính toán cũng thuộc dạng hơi đánh đố một chút, 1kg bông gòn và 1lb sắt thì cái nào nặng hơn. Kết quả là GPT-4 và Gemini 1.5 Pro trả lời chính xác, còn Gemini 1.0 Ultra trả lời sai.
Tiếp đến với một bài tính toán khác, với đề bài là:
"Cho hai đa thức G = x^2y – 3xy – 3 và H = 3x^2y xy – 0,5x 5
Hãy tính G H và G – H."

Đây là bài toán tính đa thức của lớp 8, kết quả là Gemini 1.0 Ultra đã tính toán sai với biểu thức "G - H", còn GPT-4 và Gemini 1.5 Pro đều trả lời chính xác cả hai biểu thức.
Câu hỏi mẹo
Để thử khả năng suy luận của Gemini 1.5 Pro tốt hơn Gemini 1.0 Ultra cũng như so với GPT-4 cùng dựa trên kiến trúc MoE thì nó sẽ như thế nào.

Câu hỏi sẽ là: "Hôm nay tui có 3 trái táo, hôm qua tui ăn mất 1 trái, hỏi hôm nay tui còn bao nhiêu trái táo?".
Gemini 1.0 Ultra không thể trả lời chính xác câu hỏi này, ngược lại Gemini 1.5 Pro và GPT-4 thì có thể hiểu câu hỏi mẹo này và trả lời chính xác.

Quảng cáo
Tiếp tục với một câu hỏi khác: "10 cái bánh nướng trong 1 lò cần 2 tiếng để chín, vậy 20 cái bánh nướng trong lò cần bao nhiêu lâu? Giả sử các yếu tố khác không thay đổi."
Ở câu hỏi này thì GPT-4 trên Copilot lại là con bot trả lời chính xác nhất, còn Gemini 1.5 Pro và Gemini 1.0 Ultra tính toán nhìn rất chuyên nghiệp nhưng lại không hiểu bản chất của câu hỏi, nên trả lời sai.
Làm thơ

Bài test này mình muốn thử xem khả năng làm theo hướng dẫn của Gemini 1.5 Pro như thế nào. Mình yêu cầu Gemini 1.5 Pro làm một bài thơ lục bát nhưng trong đó có 5 từ được yêu cầu, kết quả là không có model nào hoàn thành được yêu cầu này.
Nếu như Gemini 1.5 Pro và Gemini 1.0 Ultra có vẻ tuân thủ quy luật thơ lục bát khá chính xác, nhưng lại không đáp ứng được yêu cầu xuất hiện 5 từ "buồn".
Ngược lại với Copilot thì đạt yêu cầu về số lượng từ "buồn" trong bài thơ nhưng bài thơ lại không phải là thể thơ lục bát:
Quảng cáo
Trăng lên khơi vấn vương nỗi nhớ,
Buồn trôi sông cạn lệ đầy vơi.
Mắt em buồn, ngàn thu không nói,
Lời yêu buồn, gió thoảng đâu trôi.
Đường tình duyên lắm nẻo cay đắng,
Buồn thay phận lỡ bước chia phôi.
Hai đứa mình yêu thương bị ngăn,
Buồn lòng anh, thế sự bất ngời.
Khó hơn nữa, mình yêu cầu sáng tác thơ lục bát nhưng phải xuất hiện vần "ôi" ở cuối câu, thậm chí mình còn cố ý ghi sai chính tả để xem model có nhận ra hay không. Kết quả là cũng không có model nào đáp ứng được yêu cầu.
Multimodal test
Video
Bài test về khả năng xử lý hình ảnh, văn bản và video, trước tiên mình thử với một đoạn video dài 27 phút, tiêu tốn khoảng 430.000 token, rõ ràng chỉ có Gemini 1.5 Pro ở thời điểm này có thể làm được chuyện đó, đối với người dùng cuối.

Video này mô tả về một reviewer xe chia sẻ lại trải nghiệm về một chiếc xe mà anh ta mới mua. Bài tóm tắt chi tiết, độ chính xác khá cao về những gì mà người đó nói trong video. Mình hỏi tiếp các câu hỏi về công suất của xe, màu xe, màu áo của reviewer thì trừ công suất xe, còn lại chính xác. Thực ra Ford Ranger Raptor còn một phiên bản khác sử dụng động cơ V6 3.0L nhưng bản đó thì không nhập về thị trường Việt Nam.
Hình ảnh
Về hình ảnh thì Copilot và Gemini 1.0 Ultra đều hỗ trợ, mình bỏ vào một tấm hình mockup một chiếc máy tính, mình hỏi máy tính này là gì thì Gemini 1.0 Ultra trả lời chính xác là MacBook Pro 14 inch, đời 2023.

Gemini 1.5 Pro trả lời ngắn gọn hơn là MacBook Pro, nhưng khi hỏi chi tiết mẫu mã thì lại trả lời sai là MacBook Pro 2015-2020. Copilot thì không thể đưa ra câu trả lời.

Nhưng chưa dừng lại ở đó, mình tiếp tục hỏi về nội dung của màn hình MacBook trong hình đang hiển thị là gì, Gemini 1.5 Pro trả lời sai, Gemini 1.0 Ultra và Copilot thì chào thua.
Google cũng có sẵn một số video và hình ảnh để test về khả năng xử lý hình ảnh cũng như video, đa phần đều trả lời chính xác nhưng mình muốn thử video và hình ảnh của mình để xem Gemini 1.5 Pro có thể xử lý được đến đâu.

Mình thử một tấm hình ghép hai khuôn mặt của CEO NVIDIA và CEO AMD, hỏi người đàn ông là ai, Gemini 1.5 Pro thì xác định đúng người, Copilot và Gemini 1.0 Ultra không thể xác định được người vì một số lý do nhạy cảm và quyền riêng tư, mình có hỏi thêm về khả năng nhận diện các chi tiết khác trong hình thì Gemini 1.5 Pro vẫn làm tốt. Mình nghĩ nếu Google không thay đổi về chính sách thì khi Gemini 1.5 Pro ra mắt cũng sẽ bị vô hiệu hoá khả năng nhận diện người.
Tài liệu

Mình cho Gemini 1.5 Pro đọc qua toàn bộ các câu chuyện về Thập tự chinh trên Wikipedia, sau đó hỏi một chi tiết nhỏ trong toàn bộ tài liệu đó, kết quả là Gemini 1.5 Pro đều trả lời cực kì chính xác, trong khi Gemini 1.0 Ultra không thể đưa ra câu trả lời, còn Copilot bị giới hạn ở 4000 từ.

Tạm kết
Qua những thử nghiệm trên, trước mắt có thể thấy Gemini 1.5 đã cải thiện rất nhiều so với Gemini 1.0. Khả năng suy luận của Gemini 1.5 tốt hơn so với bản 1.0, tuy là không phải hoàn hảo. Không rõ phiên bản Ultra sẽ ra sao, nhưng những gì bản Pro đang làm thực sự là rất đáng mong chờ. Con số 1 triệu token cũng cho phép Gemini 1.5 xử lý lượng dữ liệu rất lớn (hình ảnh, video, tài liệu), điều mà hiện tại GPT-4 vẫn chưa thể làm được.
Theo một số thông tin chưa chính thức thì Gemini 1.5 khi ra mắt chính thức thì cũng chỉ giới hạn xử lý độ dài ngữ cảnh ở 128.000 token, tức là nhiều hơn mức 32.000 token hiện tại của Gemini 1.0 Pro, nhưng cũng chỉ ngang với GPT-4 hiện tại. Nên nhớ rằng đây vẫn còn đang là bản Preview, chưa phải phiên bản chính thức cho người dùng cuối. Tuy vậy, các nhà phát triển vẫn hoàn toàn có thể tận dụng khả năng xử lý tối đa 1 triệu token để làm ra các sản phẩm khác phục vụ cho người dùng cuối.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế

Topics: Công nghệ mới