Header ads

Header ads
» »

Meta Llama 4 chính thức ra mắt: Hai phiên bản Scout và Maverick, xử lý được 10 triệu token

Hôm nay 6/4/2025, Meta đã chính thức ra mắt hai mô hình đầu tiên thuộc series Llama 4, đánh dấu việc triển khai kiến trúc đa phương thức (multimodal) được xây dựng hoàn toàn mới của công ty.

Cả hai mô hình, Llama 4 Scout và Llama 4 Maverick, đều sử dụng thiết kế Mixture-of-Experts (MoE), trong đó chỉ một phần nhỏ các tham số được kích hoạt cho mỗi đầu vào, giúp giảm tải tính toán. Các hệ thống "expert" giống như những mô hình chuyên môn riêng tích hợp vào toàn bộ hệ thống mô hình ngôn ngữ lớn.

[​IMG]

Theo Meta, đây là những mô hình Llama đầu tiên có khả năng xử lý đồng thời cả văn bản và hình ảnh trong cùng một kiến trúc. Công ty cho biết các mô hình này đã được huấn luyện trên nhiều loại hình ảnh và video khác nhau để hỗ trợ khả năng hiểu ngôn ngữ thị giác toàn diện. Trong quá trình tiền huấn luyện, hệ thống có thể xử lý tới 48 hình ảnh đồng thời. Trong các đánh giá sau huấn luyện, nó đã chứng minh hiệu suất mạnh mẽ với khả năng nhận diện tối đa tám hình ảnh làm dữ liệu đầu vào.

Mô hình nhỏ hơn, Llama 4 Scout, vận hành dựa trên 17 tỷ tham số hoạt động, thu gọn từ con số tổng cộng 109 tỷ, được phân phối với 16 hệ thống chuyên môn khác nhau. Nó được tối ưu hóa để chạy trên một GPU máy chủ Nvidia H100 duy nhất, và được thiết kế cho các tác vụ như xử lý văn bản dài, trả lời câu hỏi trực quan, phân tích mã nguồn lập trình và hiểu nhiều dạng hình ảnh.


488658055-1347378876402143-3412007366291908454-n.png

Scout có cửa sổ ngữ cảnh 10 triệu token, tương đương khoảng 5 triệu từ hoặc dài hơn. Mặc dù quy mô ấn tượng, Meta vẫn chưa đề cập đến hiệu quả xử lý các truy vấn phức tạp vượt ra ngoài tìm kiếm từ ngữ đơn giản. Việc công ty sử dụng chuẩn đo "Needle in the Haystack" đã lỗi thời để kiểm tra cửa sổ ngữ cảnh cho thấy những hạn chế nhất định, đặc biệt khi có sẵn các chuẩn đo đạc ngữ cảnh AI tinh vi hơn. Tất cả các mô hình ngôn ngữ vẫn còn tồn tại những hạn chế trong việc hiểu cả văn bản và hình ảnh.

Ngoài ra, mô hình được huấn luyện với độ dài ngữ cảnh chỉ 256K token trong cả quá trình tiền huấn luyện và sau huấn luyện. Cửa sổ ngữ cảnh 10 triệu token được quảng cáo dựa trên khả năng tổng quát hóa độ dài chứ không phải là kết quả của quá trình huấn luyện trực tiếp.

Llama 4 Maverick cũng sử dụng 17 tỷ tham số hoạt động, nhưng lấy từ tổng cộng 400 tỷ, được phân phối trên 128 mô hình chuyên môn khác nhau. Tương tự như Scout, nó sử dụng kiến trúc mixture-of-experts, giúp giảm tải tính toán bằng cách chỉ kích hoạt một tập hợp con các hệ thống xử lý chuyên môn kiến thức cho mỗi lần nhận diện dữ liệu đầu vào. Bất chấp những cải tiến về hiệu quả này, mô hình vẫn cần nguyên một máy chủ Nvidia DGX H100, đầy đủ với 8 GPU để triển khai do quy mô tham số của nó. Nó hỗ trợ cửa sổ ngữ cảnh lên đến một triệu token.

Meta cho biết rằng Llama 4 Maverick vượt trội hơn OpenAI's GPT-4o và Google's Gemini 2.0 Flash trong nhiều đánh giá chuẩn. Mô hình cũng đạt được kết quả tương đương với Deepseek V3 trong các tác vụ suy luận và tạo code lập trình, mặc dù sử dụng ít hơn một nửa tổng tham số vận hành Trong cấu hình chat thử nghiệm của mình, Maverick đạt điểm 1417 trên bảng xếp hạng LMArena ELO.

488688605-1406312723692874-1536535503366996614-n.png

Cả Scout và Maverick đều có sẵn dưới dạng mô hình nguồn mở thông qua llama.com và Hugging Face. Meta cũng đã tích hợp chúng vào các sản phẩm bao gồm WhatsApp, Messenger, Instagram Direct và Meta.ai. Các mô hình Llama 4 bổ sung dự kiến sẽ được công bố tại LlamaCon vào ngày 29 tháng Tư. Bạn có thể đăng ký tại đây.

Scout và Maverick được huấn luyện bằng Llama 4 Behemoth, một mô hình nội bộ lớn hơn với 288 tỷ tham số hoạt động từ tổng cộng 2 nghìn tỷ, được phân phối trên 16 hệ thống chuyên môn. Behemoth đóng vai trò là mô hình giáo viên và, theo Meta, vượt trội hơn GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro trong các chuẩn đo toán học và khoa học.

Quảng cáo



489511937-1627813884508038-4209289296588372348-n.png

Nói cách khác, Llama 4 Scout và Maverick được "chắt lọc" từ chính Llama 4 Behemoth, ứng dụng kỹ thuật không khác nhiều so với những gì Deepseek đã làm để tạo ra V3 và R1, nhưng họ chắt lọc bằng chính mô hình quy mô cực lớn, 2 nghìn tỷ tham số, do họ tự phát triển trước đó. Cụ thể hơn, trên blog chính thức của Meta, họ viết rằng:

"Chúng tôi rất vui mừng chia sẻ bản xem trước của Llama 4 Behemoth, một mô hình giáo viên thể hiện trí thông minh vượt trội so với các mô hình cùng loại. Llama 4 Behemoth cũng là một mô hình đa phương thức mixture-of-experts, với 288 tỷ tham số hoạt động, 16 hệ thống chuyên môn và gần hai nghìn tỷ tham số tổng. Với hiệu suất hàng đầu trong lĩnh vực dành cho các mô hình không suy luận về toán học, đa ngôn ngữ và điểm chuẩn hình ảnh, nó là lựa chọn hoàn hảo để đào tạo các mô hình Llama 4 kích thước nhỏ hơn.

Chúng tôi đã sử dụng phương pháp co-distillation (chưng cất đồng thời) để tạo ra mô hình Llama 4 Maverick, với Llama 4 Behemoth đóng vai trò như một mô hình giáo viên, dẫn đến những cải thiện đáng kể về chất lượng trên các chỉ số đánh giá tác vụ cuối cùng. Chúng tôi đã phát triển một hàm chưng cất hoàn toàn mới, trọng số động, các mục tiêu khác nhau trong suốt quá trình huấn luyện.

Chưng cất đồng thời từ mô hình Llama 4 Behemoth trong giai đoạn tiền huấn luyện giúp phân bổ chi phí tính toán của các lần truyền thẳng (forward passes) tốn nhiều tài nguyên cần thiết, để tính toán các mục tiêu chưng cất cho phần lớn dữ liệu được sử dụng trong quá trình huấn luyện mô hình học trò. Đối với dữ liệu mới bổ sung vào quá trình huấn luyện mô hình học trò, chúng tôi đã thực hiện các lần truyền thẳng trên mô hình Behemoth để tạo ra các mục tiêu chưng cất."

488955260-630849766606664-4970227915274398227-n.png

Quảng cáo



Tuy nhiên, Meta vẫn chưa công bố so sánh với Google's Gemini 2.5 Pro mới nhất, hiện đang là tiêu chuẩn hàng đầu trong các đánh giá mô hình AI suy luận. Behemoth vẫn đang được huấn luyện và dự kiến sẽ được ra mắt sau này. Một mô hình Llama chuyên dụng cho suy luận vẫn chưa được phát hành, mặc dù CEO của Meta, Mark Zuckerberg, đã nói vào tháng 1 rằng nó đang chuẩn bị được ra mắt.

Sau khi thực hiện quá trình tiền huấn luyện, Meta áp dụng nhiều giai đoạn hậu huấn luyện để cải thiện hiệu suất mô hình. Điều này bao gồm tinh chỉnh có giám sát với các ví dụ được tuyển chọn kỹ lưỡng, sau đó là học tăng cường trực tuyến, sử dụng một hệ thống bất đồng bộ mới giúp tăng hiệu quả đào tạo lên mười lần.

Tối ưu hóa Ưu tiên Trực tiếp (Direct Preference Optimization) sau đó được sử dụng để tinh chỉnh chất lượng đầu ra, với trọng tâm loại bỏ các ví dụ tầm thường. Theo Meta, hơn một nửa tập dữ liệu huấn luyện của Maverick và 95% của Behemoth đã bị lọc bỏ để tập trung các mô hình vào các tác vụ khó khăn hơn.

488655517-650996354186993-1043942188415715102-n.png

Meta đang phát hành các mô hình Llama 4 theo giấy phép Llama tiêu chuẩn của mình, nhưng với một hạn chế mới: Các công ty và cá nhân có trụ sở tại EU bị loại trừ khỏi việc sử dụng các mô hình đa phương thức. Hạn chế này không áp dụng cho người dùng cuối.

Theo Meta, động thái này là do "sự không chắc chắn về quy định" xung quanh Đạo luật AI của EU. Quyết định này phản ánh những căng thẳng liên tục giữa Meta và các nhà hoạch định chính sách của EU, với Meta đang thúc đẩy hoặc hướng dẫn rõ ràng hơn hoặc các quy định ít hạn chế hơn, tùy thuộc vào cách giải thích.

Các nhà phát triển ở nơi khác phải hiển thị nhãn "Built with Llama" (Được xây dựng bằng Llama) và chỉ có thể sử dụng tên mô hình được tiền tố bằng "Llama". Các nền tảng với hơn 700 triệu người dùng hoạt động hàng tháng phải xin phép đặc biệt từ Meta.

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn