
Trước khi công bố MM1, Apple cũng đã giới thiệu một mô hình AI được các kỹ sư của tập đoàn hợp tác với các nhà nghiên cứu đại học California phát triển, gọi là MGIE.
Nếu như MGIE (MLLM-Guided Image Editing) là giải pháp kết hợp giữa mô hình ngôn ngữ với khả năng tạo hình của AI để chỉnh sửa hình ảnh theo những câu lệnh của người dùng, thì MM1 là giải pháp mô hình ngôn ngữ lớn đa chế độ (MLLM - Multimodal Large Language Model) với khả năng nhận diện và mô tả lại cho người dùng nhiều dạng dữ liệu đầu vào, từ văn bản cho tới hình ảnh.
Theo Apple, MM1 sở hữu tổng cộng 30 tỷ tham số, được huấn luyện từ thư viện dữ liệu bao gồm hình ảnh kèm chú thích, văn bản có cả chữ và hình minh họa, cùng dữ liệu văn bản thuần túy. Apple cho biết: "Sau sự phát triển của LLM, MLLM sẽ là đích đến tiếp theo của những mô hình AI nguồn, dùng làm tiền đề cho những giải pháp ứng dụng."
Về mặt tính năng, Apple cho biết MM1 có khả năng nhận diện nhiều chi tiết trong hình ảnh hay văn bản. Xét riêng về khả năng nhận diện hình ảnh, nó có thể đếm số vật thể trong hình, nhận diện một phần tấm hình xem là nội dung gì, ứng dụng mô hình ngôn ngữ để mô tả những sự vật hiện tượng trong tấm hình, hay thậm chí làm mấy phép toán cộng trừ nhân chia đơn giản.
Bên cạnh khả năng nhận diện và tóm tắt nội dung hình ảnh và văn bản, MM1 hỗ trợ học nội dung dựa theo ngữ cảnh, tức là sẽ không cần huấn luyện lại hoặc tinh chỉnh mô hình, mà nó sẽ đủ khả năng hiểu nội dung nhờ vào việc người dùng cung cấp ngữ cảnh.
Nếu như MGIE (MLLM-Guided Image Editing) là giải pháp kết hợp giữa mô hình ngôn ngữ với khả năng tạo hình của AI để chỉnh sửa hình ảnh theo những câu lệnh của người dùng, thì MM1 là giải pháp mô hình ngôn ngữ lớn đa chế độ (MLLM - Multimodal Large Language Model) với khả năng nhận diện và mô tả lại cho người dùng nhiều dạng dữ liệu đầu vào, từ văn bản cho tới hình ảnh.
Theo Apple, MM1 sở hữu tổng cộng 30 tỷ tham số, được huấn luyện từ thư viện dữ liệu bao gồm hình ảnh kèm chú thích, văn bản có cả chữ và hình minh họa, cùng dữ liệu văn bản thuần túy. Apple cho biết: "Sau sự phát triển của LLM, MLLM sẽ là đích đến tiếp theo của những mô hình AI nguồn, dùng làm tiền đề cho những giải pháp ứng dụng."
Về mặt tính năng, Apple cho biết MM1 có khả năng nhận diện nhiều chi tiết trong hình ảnh hay văn bản. Xét riêng về khả năng nhận diện hình ảnh, nó có thể đếm số vật thể trong hình, nhận diện một phần tấm hình xem là nội dung gì, ứng dụng mô hình ngôn ngữ để mô tả những sự vật hiện tượng trong tấm hình, hay thậm chí làm mấy phép toán cộng trừ nhân chia đơn giản.
Bên cạnh khả năng nhận diện và tóm tắt nội dung hình ảnh và văn bản, MM1 hỗ trợ học nội dung dựa theo ngữ cảnh, tức là sẽ không cần huấn luyện lại hoặc tinh chỉnh mô hình, mà nó sẽ đủ khả năng hiểu nội dung nhờ vào việc người dùng cung cấp ngữ cảnh.
Apple đưa ra một ví dụ MM1 vận hành trong phòng lab của họ, đưa ra một tấm hình những chai bia, và một tấm hình chụp thực đơn với giá tiền, rồi bắt mô hình ngôn ngữ tính toán xem dựa vào thực đơn trong hình, phải trả bao nhiêu tiền cho số bia trên bàn. Kết quả mô hình trả lời như thế này:
Kỹ sư cấp cao Brandon McKinzie của Apple viết trên MXH X, rằng MM1 mới chỉ là bước khởi đầu, và Apple hiện tại đã tiếp tục nghiên cứu thế hệ mô hình ngôn ngữ quy mô lớn đa chế độ tiếp theo. Với những gì thể hiện, một phần những gì MM1 có thể làm được khá giống với tính năng Circle to Search đã ra mắt trên vài chiếc điện thoại Android đời mới nhất hiện giờ. Nhưng Circle to Search thì không biết xác định ngữ cảnh hay làm toán dựa trên dữ liệu trong hình ảnh hoặc văn bản như MM1.
Apple công bố MM1 trùng với thời điểm có những tin đồn nói rằng họ đang đàm phán với Google để ứng dụng Gemini cho những giải pháp AI trên iOS 18 cũng như iPhone nói chung. Thông tin trước đó là, Apple đang phát triển iOS 18 như một bản nâng cấp rất lớn của hệ điều hành iPhone, dựa trên những mô hình AI họ tự phát triển. Nhưng những tính năng mới và cải tiến này sẽ chỉ tập trung ở khía cạnh giải pháp xử lý local, thay vì xử lý trên máy chủ đám mây. Vậy nên Apple cần tới một đối tác sở hữu LLM đủ sức mạnh phục vụ cho người dùng, thông qua những giải pháp tạo nội dung xử lý tại data center và gửi kết quả về thiết bị đầu cuối, chẳng hạn như tạo hình bằng AI, hay viết những văn bản dài dựa trên lệnh của người dùng.
Nhưng ở khía cạnh khác, nếu Apple cần tới Gemini hay GPT-4 (họ cũng được cho là đã liên hệ với OpenAI), đồng nghĩa với việc những nghiên cứu và giải pháp ứng dụng AI được Apple phát triển vẫn chưa hoàn thiện và vận hành như kỳ vọng của họ.
Apple đem Gemini của Google lên iPhone, đây có phải là ý tưởng hợp lý về công nghệ và kinh doanh?
Nguồn tin giấu tên của Bloomberg vừa cho biết, Apple đang có những cuộc gặp với Google để chuyển giao bản quyền mô hình ngôn ngữ Gemini, phục vụ cho những tính năng AI tạo nội dung vận hành trên những thế hệ iPhone mới…
tinhte.vn
Theo Techspot
Quảng cáo
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































