Google DeepMind gần đây đã phát hành model Genie 3 mới nhất với khả năng chuyển một prompt văn bản của người dùng thành một thế giới 3D, động, cho phép người dùng tương tác với nó như ngoài đời, giống giống như đang chơi game thế giới mở vậy.
Nếu như trước giờ chúng ta dùng các model AI để text to text, text to audio hay text to video như Veo 3, thì Genie 3 đẩy giới hạn đó tới thêm một bước nữa. Genie 3 sẽ tạo ra một môi trường, một thế giới AI và cho người dùng đi tới lui, nhìn và tương tác với những thứ trong đó theo thời gian thực. Người dùng có thể mở rộng, tủy chỉnh môi trường liên tục bằng cách prompt thêm vào.
Bên dưới đây là tổng hợp những thông tin về Genie 3 và 10 môi trường đã được tạo ra bằng nó.
Từ lâu, các hãng như Google hay Nvidia đều đang phát triển các model thế giới (world model) để phục vụ chuyện mô phỏng vật lý thế giới thật, nghiên cứu một cách an toàn, tiết kiệm thay vì phải tiến hành thử nghiệm ngoài đời thật. Nvdia đang theo đuổi model Earth 2.0 và Google nghiên cứu model Genie 3. Genie đã trải qua 3 thế hệ, hãy cùng điểm qua sự phát triển của nó từ thế hệ đầu tới giờ.
Nếu như trước giờ chúng ta dùng các model AI để text to text, text to audio hay text to video như Veo 3, thì Genie 3 đẩy giới hạn đó tới thêm một bước nữa. Genie 3 sẽ tạo ra một môi trường, một thế giới AI và cho người dùng đi tới lui, nhìn và tương tác với những thứ trong đó theo thời gian thực. Người dùng có thể mở rộng, tủy chỉnh môi trường liên tục bằng cách prompt thêm vào.
Bên dưới đây là tổng hợp những thông tin về Genie 3 và 10 môi trường đã được tạo ra bằng nó.
Model thế giới là gì
Từ lâu, các hãng như Google hay Nvidia đều đang phát triển các model thế giới (world model) để phục vụ chuyện mô phỏng vật lý thế giới thật, nghiên cứu một cách an toàn, tiết kiệm thay vì phải tiến hành thử nghiệm ngoài đời thật. Nvdia đang theo đuổi model Earth 2.0 và Google nghiên cứu model Genie 3. Genie đã trải qua 3 thế hệ, hãy cùng điểm qua sự phát triển của nó từ thế hệ đầu tới giờ.

Genie 1: thường được gọi đơn giản là Google Genie, là mô hình AI thế giới đầu tiên của Google Deepmind có khả năng tạo ra môi trường ảo tương tác. Người dùng sẽ dùng văn bản, hình ảnh, hình ảnh hoặc thậm chí các bản phác thảo để mô tả thế giới mà họ đang hình dung, sau đó Genie sẽ tạo ra nó, cho phép người dùng kiểm soát các hành động trong môi trường đó. Về bản chất, lúc dó model sẽ xử lý dữ liệu video theo thời gian thực, dự đoán khung hình tiếp theo và dịch các đầu vào của người dùng thành các hành động trong thế giới.
Genie 2: Dựa trên các khả năng của Google Genie, Genie 2 có thể tạo ra một loạt các thế giới 3D tương tác với độ chi tiết cao hơn. Nó mô phỏng các môi trường ảo và phản ứng thực tế với các hành động như nhảy, bơi lội hoặc di chuyển các vật thể. Genie 2 được đào tạo bằng một lượng video khổng lồ, giúp nó tương tác đối tượng thực tế và chuyển động nhân vật giống như ngoài đời thật.
Và ở phiên bản mới đây, Genie 3 tiếp tục được DeepMind nâng cấp để đẩy nhanh tốc độ tạo ra các môi trường, đồng thời tương tác được chính xác, giống với ngoài đời hơn nữa. Hiện tại, Genie 3 được thử nghiệm để phục vụ chuyện nghiên cứu của các nhà khoa học, lập model mô phỏng thế giới vật lý, hỗ trợ phát triển các AI Agent hoặc robot AI làm được nhiều việc ngoài đời. Tuy nhiên, mục đích cuối cùng của Genie chính là phát triển thành siêu trí tuệ nhân tạo AGI.
Genie 3 hoạt động như thế nào?

Genie 3 hoạt động dựa trên sự kết hợp giữa model Genie 2 và Veo 3. Genie 2 sẽ tạo ra môi trường ảo và Veo 3 được dùng để cung cấp các thông tin về tương tác vật lý, cách vật thể tương tác trong thế giới ngoài đời. Điểm khác ở đây là Veo 3 dùng một engine vật lý được "dạy" sẵn, còn Genie 3 sẽ tự dạy chính nó cách thế giới vật lý vận hành bằng kỹ thuật học tự giám sát (có thể hiểu đơn giản là AI sẽ tự học được các pattern và mối quan hệ từ những dữ liệu chưa gắn nhãn bằng cách tự tạo ra các signal learning).
Các tính năng chính hiện tại của Genie 3 sẽ là:
- Text to 3D world: chuyển prompt dạng văn bản của người dùng (thí dụ như: một con robot đang đi trên đường) thành một môi trường 3D và cho phép người dùng di chuyển, điều hướng đơn giản bằng cách di chuyển tới lui.
- Tạo ra các sự kiện trong thế giới bằng prompt: sau khi tạo ra môi trường, người dùng có thể liên tục thay đổi nó bằng cách gõ thêm các lệnh, thí dụ như tạo trời mưa, tăng nhiệt độ,...
- Trí nhớ hình ảnh: Genie 3 hiện có thể nhớ được các vật thể đang có trong môi trường, cho phép người dùng tương tác với nó trong vòng 1 phút.
- Tạo ra các video: Genie 3 sẽ tạo ra các video 24 fps với độ phân giải 720p, các vật thể hay nhân vật trong môi trường được giữ cố định, không thay đổi trong suốt quá trình tương tác.
Các thí dụ Genie 3 tạo ra
Quảng cáo
Hiện tại, Genie 3 mới chỉ được cho thử nghiệm với các nhà nghiên cứu và chưa cho người dùng sử dụng rộng rãi. Các sản phẩm tạo ra từ nó vẫn còn rất nhỏ giọt, bên dưới đây là tổng hợp lại hầu hết những video mới nhất ghi lại cảnh sử dụng thử Genie 3 có trên mạng bữa giờ. Mời các bạn xem qua.
Quảng cáo
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế

Topics: Công nghệ mới