
Tại sự kiện WWDC25, Apple đã giới thiệu các phiên bản mới của các mô hình nền (foundation models) hoạt động trên thiết bị và trên đám mây. Hiện tại, họ đã phát hành một báo cáo kỹ thuật chi tiết cách các mô hình này được huấn luyện, tối ưu hóa và đánh giá. Và báo cáo này bao gồm nhiều thông tin thú vị về những gì đang diễn ra bên trong LLM của Apple.
Trong tài liệu có tên "Apple Intelligence Foundation Language Models – Tech Report 2025", Apple trình bày nhiều khía cạnh của các mô hình mới, bao gồm kiến trúc, nguồn dữ liệu, huấn luyện trước (pre-training), huấn luyện sau (post-training), phát triển khả năng sử dụng công cụ, tối ưu hóa và các tiêu chuẩn đánh giá (benchmarks).
Đây là một tài liệu thuần về kỹ thuật nhưng cũng rất đáng đọc nếu anh em quan tâm đến những chi tiết sâu bên trong của lĩnh vực này. Anh em có thể đọc tài liệu này tại đây.
Dưới đây là một số điểm nổi bật đáng chú ý:
Trong tài liệu có tên "Apple Intelligence Foundation Language Models – Tech Report 2025", Apple trình bày nhiều khía cạnh của các mô hình mới, bao gồm kiến trúc, nguồn dữ liệu, huấn luyện trước (pre-training), huấn luyện sau (post-training), phát triển khả năng sử dụng công cụ, tối ưu hóa và các tiêu chuẩn đánh giá (benchmarks).
Đây là một tài liệu thuần về kỹ thuật nhưng cũng rất đáng đọc nếu anh em quan tâm đến những chi tiết sâu bên trong của lĩnh vực này. Anh em có thể đọc tài liệu này tại đây.
Dưới đây là một số điểm nổi bật đáng chú ý:
Mô hình xử lý on device được chia thành hai khối
Chúng ta đã biết rằng mô hình trên thiết bị của Apple (mô hình mà các nhà phát triển sẽ có thể khai thác) có khoảng 3 tỷ tham số. Bây giờ, công ty đã chi tiết hơn rằng mô hình này thực tế được chia thành hai khối: "Khối 1 chứa 62,5% tổng số lớp Transformer, trong khi Khối 2 chứa 37,5% còn lại của các lớp Transformer, nhưng đã loại bỏ các phép chiếu chìa khóa và giá trị (key and value projections)."
Trên thực tế, điều này có nghĩa là mô hình cục bộ yêu cầu ít hơn 37.5% dung lượng bộ nhớ để lưu trữ dữ liệu tạm thời (caching), và thời gian cần thiết để tạo ra token đầu tiên (về cơ bản là một phần của từ) cũng giảm khoảng 37,5%. Tuy nhiên, các nhà nghiên cứu tại Apple đã cấu trúc sự phân chia này theo cách mà họ cho rằng vẫn duy trì hiệu suất tổng thể và chất lượng đầu ra của mô hình.
Một lưu ý nhỏ, vài năm trước, Apple đã công bố nghiên cứu này, trong đó xem xét việc trao đổi các phần của LLM giữa RAM và bộ nhớ trong của iPhone và MacBook khi cần thiết, nhằm mục đích tạo ra một mô hình xử lý on device với tham số lớn hơn những gì có thể vừa trên bộ nhớ của thiết bị.
Mặc dù Apple cuối cùng đã chọn một hướng đi khác, nhưng điều thú vị là thấy được những cách mà công ty đã thử nghiệm để mang lại hiệu suất cục bộ tốt ngay cả trên các thiết bị hạn chế về bộ nhớ RAM.
Mô hình dựa trên đám mây ứng dụng MoE
Đối với mô hình vận hành trên máy chủ của mình, Apple đã xây dựng một kiến trúc tùy chỉnh được thiết kế riêng cho nền tảng Private Cloud Compute. Nó được gọi bằng cái tên đầy đủ là Parallel-Track Mixture-of-Experts (PT-MoE), và cách nó hoạt động rất thú vị.
Hiểu một cách đơn giản, Mixture of Experts được ứng dụng khi, thay vì dựa vào một mô hình AI khổng lồ duy nhất, nó được chia thành các mạng lưới con nhỏ hơn (hay "chuyên gia"), sẽ chỉ được kích hoạt khi nhiệm vụ liên quan đến lĩnh vực mà chúng có chuyên môn.
Quảng cáo
Ví dụ, nếu prompt của anh em nói về nấu ăn, thì chỉ các chuyên gia liên quan đến nấu ăn mới được kích hoạt, trong khi những người khác vẫn ở trạng thái không hoạt động. Kết quả là một mô hình tổng thể rất lớn, nhưng thiết kế module cho phép nó phản hồi nhanh hơn (và thường chính xác hơn) so với việc mọi thứ chạy qua mô hình thống nhất kích thước khổng lồ cho mỗi prompt.
Apple đã xây dựng một loại Transformer mới được gọi là Parallel Track Transformer, sau đó mở rộng quy mô nó bằng các lớp Mixture of Experts (MoE) chuyên biệt. Nghe có vẻ phức tạp, nhưng tóm lại là:
Các Transformer truyền thống xử lý token thông qua một ngăn duy nhất các lớp, theo thứ tự tuần tự. Nhưng thay vì sử dụng phương pháp tiếp cận "một đường" như thế này để tính toán mọi token, thiết kế của Apple chia mô hình thành nhiều đường xử lý song song. Mỗi đường ray xử lý token độc lập và chỉ đồng bộ hóa tại một số điểm nhất định.
Sau đó, bên trong mỗi đường, Apple đã thay thế mọi lớp Transformer thông thường bằng một lớp MoE, kích hoạt chỉ một vài chuyên gia cho mỗi token, trong khi những người còn lại vẫn ở trạng thái không hoạt động. Và vì mỗi đường ray có các chuyên gia cục bộ của riêng nó, mô hình tránh được các nút thắt cổ chai xử lý xảy ra khi mọi thứ phải phối hợp trên toàn hệ thống.
Quảng cáo
Thêm vào đó một thiết lập thông minh cân bằng ngữ cảnh cục bộ với sự hiểu biết tổng quan (được gọi là Interleaving Global and Local Attention Layers), kết quả là một mô hình rất module, hiệu quả và có khả năng mở rộng, nhanh hơn và nhẹ nhàng hơn, nhưng vẫn khá thông minh.
Tăng cường hiệu năng xử lý đa ngôn ngữ lên 275%
Một trong những hạn chế lớn nhất của lần triển khai đầu tiên Apple Intelligence là (và vẫn còn) hỗ trợ ngôn ngữ bị giới hạn chủ yếu ở tiếng Anh. Với các mô hình mới này, Apple đã mở rộng hỗ trợ ngôn ngữ, và tài liệu chi tiết các bước họ đã thực hiện để làm điều đó.
Theo tài liệu, Apple đã tăng lượng dữ liệu đa ngôn ngữ được sử dụng trong quá trình huấn luyện từ 8% lên 30%. Điều này bao gồm cả nội dung tự nhiên và tổng hợp.
Apple cũng tăng kích thước của bộ mã hóa (tokenizer) của mình (về cơ bản là vốn từ vựng token của mô hình) lên 50%. Điều này có nghĩa là mô hình hiện tại sẽ hiểu được 150.000 token khác nhau, so với 100.000 trước đây.
Công ty cho biết những thay đổi này đã dẫn đến "những cải tiến đáng kể" về hiệu suất trên các tiêu chuẩn đánh giá đa ngôn ngữ, đặc biệt là sau khi tinh chỉnh bằng học tăng cường (reinforcement learning).
Trong tài liệu, Apple giải thích rằng các đánh giá được thực hiện bằng các lời nhắc do người bản xứ viết (thay vì dịch), và mô hình đã được kiểm tra về cả độ chính xác và mức độ tự nhiên của phản hồi trong ngữ cảnh địa phương. Trên thực tế, tất cả những điều này có nghĩa là các tính năng như Writing Tools có thể sẽ hoạt động đáng tin cậy hơn ở các ngôn ngữ được hỗ trợ.
Dữ liệu huấn luyện của Apple đến từ đâu?
Giống như với các mô hình đầu tiên, phần lớn dữ liệu huấn luyện đến từ việc thu thập thông tin trên web. Tuy nhiên, Apple cho biết trình thu thập dữ liệu Applebot tôn trọng các trang web không cho phép sử dụng crawler robots.txt. Điều này có nghĩa là nếu một trang web không muốn Apple thu thập nội dung của họ, họ có thể nói như vậy và Applebot sẽ bỏ qua nó.
Tuy nhiên, đây là cách Apple nói rằng họ đã lấy dữ liệu cho các mô hình mới của họ:
- Dữ liệu web công khai: Mặc dù Apple không chỉ định số lượng hoặc tỷ lệ, nhưng họ xác nhận rằng phần lớn dữ liệu huấn luyện đến từ việc Applebot thu thập thông tin trên các trang web. Apple đã áp dụng nhiều lớp lọc để loại bỏ nội dung chất lượng thấp, không an toàn hoặc không liên quan, bao gồm cả các trang spam, văn bản nông hoặc có mẫu và định dạng bị hỏng.
- Dữ liệu được cấp phép: Apple không đi sâu vào chi tiết ở đây, nhưng xác nhận rằng một số dữ liệu huấn luyện đã được cấp phép từ các nhà xuất bản. Các báo cáo trước đó cho thấy Apple đang đàm phán với Condé Nast (The New Yorker, Vogue, Wired, v.v.), NBC News và IAC (People Magazine, The Daily Beast và Better Homes and Gardens, v.v.), vì vậy có khả năng một số tài liệu đó đã được đưa vào dữ liệu huấn luyện.
- Dữ liệu tổng hợp: Apple tạo dữ liệu tổng hợp bằng các mô hình nhỏ hơn và quy trình tùy chỉnh, đặc biệt là cho các tác vụ toán học, mã hóa, tinh chỉnh hướng dẫn và ngôn ngữ thị giác. Mặc dù Apple cũng không chỉ định số lượng dữ liệu tập này đại diện bao nhiêu, nhưng nó lưu ý rằng dữ liệu tổng hợp đóng vai trò quan trọng trong các bước huấn luyện chính như tinh chỉnh, học tăng cường và cải thiện hỗ trợ đa ngôn ngữ.
- Dữ liệu hình ảnh: Để hỗ trợ hiểu hình ảnh, Apple đã thu thập hơn 10 tỷ cặp hình ảnh có kèm chú thích, bao gồm cả ảnh chụp màn hình có OCR và ghi chú thủ công. Nó cũng sử dụng các mô hình của riêng mình để tạo thêm các chú thích phong phú hơn. Trước đây, báo cáo cho thấy Apple đã tiến hành đàm phán cấp phép với Shutterstock, vì vậy có thể một số tài liệu từ đó cũng đã được đưa vào dữ liệu huấn luyện.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































