
Ollama vừa có một bước nâng cấp khá thú vị cho những anh em nào thích chạy mô hình AI trực tiếp trên Mac, nhất là mấy máy dùng chip Apple Silicon như M1, M2, M3 trở lên. Thay vì phải phụ thuộc hoàn toàn vào dịch vụ đám mây, giờ anh em có thể "kéo" các mô hình ngôn ngữ lớn về chạy ngay trên máy, mà lại còn nhanh và tiết kiệm RAM hơn nhờ một loạt thay đổi bên dưới.
Điểm quan trọng nhất trong bài là việc Ollama tích hợp hỗ trợ MLX. Đây vốn là framework machine learning mã nguồn mở do chính Apple phát triển cho Apple Silicon. MLX được thiết kế để tận dụng tối đa kiến trúc bộ nhớ hợp nhất, nơi CPU và GPU cùng dùng chung một "hồ" RAM thay vì tách riêng như PC truyền thống. Nhờ vậy, khi mô hình chạy, dữ liệu không phải liên tục bị "bê" qua lại giữa CPU và GPU, giảm được rất nhiều chi phí sao chép, băng thông và độ trễ. Kết quả thực tế là tốc độ sinh token được cải thiện rõ rệt, thời gian chờ token đầu tiên cũng ngắn lại, trong khi mức dùng bộ nhớ hiệu quả hơn trên chính phần cứng bạn đang có.
Song song với chuyện đổi sang MLX, Ollama còn tối ưu phần caching, cụ thể là cách nó xử lý và tái sử dụng "bộ nhớ ngắn hạn" của mô hình (KV cache). Khi anh em chat, sửa prompt, fork nhiều nhánh hội thoại hoặc chạy lại các đoạn tương tự, phần lớn ngữ cảnh đầu vào thực ra bị lặp lại. Nếu hệ thống phải tính lại từ đầu mỗi lần thì rất phí. Với cải tiến mới, Ollama lưu lại các đoạn tiền tố chung và tạo các điểm checkpoint thông minh trong prompt, để khi anh em sửa hoặc chạy lại, nó chỉ cần tiếp tục từ điểm đã tính sẵn thay vì làm lại tất cả. Điều này làm cho trải nghiệm sử dụng mô hình cục bộ trở nên "mượt" hơn nhiều, nhất là với các use case như viết code, refactor, thử nghiệm prompt theo kiểu iterative.
Thay đổi mới nhất khiến việc chạy mô hình AI Local trên Apple Sillicon dễ dàng hơn
Một chi tiết kỹ thuật nữa nhưng khá đáng chú ý là việc Ollama hỗ trợ định dạng NVFP4 của Nvidia cho việc nén mô hình. NVFP4 là chuẩn số thực 4-bit dùng cho quantization, giúp nén trọng số mô hình xuống nhỏ hơn đáng kể so với 16-bit hay 8-bit mà vẫn giữ chất lượng ở mức chấp nhận được cho suy luận. Khi Ollama đọc được mô hình ở định dạng này, anh em có thể chạy các mô hình lớn hơn trong cùng dung lượng RAM, băng thông bộ nhớ cũng đỡ căng hơn. Điều này đặc biệt có ý nghĩa trên Mac, nơi dung lượng unified memory tuy nhanh nhưng không phải lúc nào cũng quá dồi dào. Với NVFP4, một chiếc Mac có 32 GB hay 64 GB bộ nhớ hợp nhất có thể "gánh" những mô hình phức tạp mà trước đây anh em khó có thể nghĩ tới.
Tất cả những thay đổi đó gộp lại tạo ra một cú hích đáng kể cho việc chạy AI cục bộ trên Mac dùng Apple Silicon. Thời điểm thay đổi này diễn ra cũng khá thú vị: phong trào dùng mô hình local đang lan rộng hơn ra ngoài cộng đồng nghiên cứu và anh em thích vọc. Những dự án như OpenClaw, với hàng trăm nghìn sao trên GitHub và độ phủ truyền thông lớn, khiến rất nhiều người bắt đầu tò mò xem "máy mình có chạy nổi mấy thứ này không". Đồng thời, không ít lập trình viên bắt đầu thấy khó chịu với giới hạn rate limit, độ trễ mạng hoặc chi phí thuê gói cao của những dịch vụ AI đỉnh như Claude hay ChatGPT, nên nhu cầu có một "trợ lý AI" chạy ngay trên máy ngày càng thực tế hơn.
Trong bối cảnh đó, Ollama vừa cải thiện hiệu năng, vừa hỗ trợ tốt hơn cho các công cụ lập trình như Visual Studio Code, khiến combo "Mac Apple Silicon mô hình local" trở thành một lựa chọn hấp dẫn hơn nhiều. Nếu anh em đang dùng Mac M1 trở lên, những cập nhật này có nghĩa là cùng một con máy, anh em có thể kéo mô hình về chạy nhanh hơn, đỡ tốn RAM hơn, ít bị "nghẹt" hơn khi context dài, và đặc biệt là thoải mái thử nghiệm, vọc vạch mô hình mà không cần lo API key hay hóa đơn cuối tháng. Nó không biến Mac thành siêu máy chủ GPU, nhưng lại kéo khoảng cách giữa "dùng cloud" và "dùng local" lại gần hơn một bước rất rõ ràng.
Nguồn: Ollama Blog
Điểm quan trọng nhất trong bài là việc Ollama tích hợp hỗ trợ MLX. Đây vốn là framework machine learning mã nguồn mở do chính Apple phát triển cho Apple Silicon. MLX được thiết kế để tận dụng tối đa kiến trúc bộ nhớ hợp nhất, nơi CPU và GPU cùng dùng chung một "hồ" RAM thay vì tách riêng như PC truyền thống. Nhờ vậy, khi mô hình chạy, dữ liệu không phải liên tục bị "bê" qua lại giữa CPU và GPU, giảm được rất nhiều chi phí sao chép, băng thông và độ trễ. Kết quả thực tế là tốc độ sinh token được cải thiện rõ rệt, thời gian chờ token đầu tiên cũng ngắn lại, trong khi mức dùng bộ nhớ hiệu quả hơn trên chính phần cứng bạn đang có.
Song song với chuyện đổi sang MLX, Ollama còn tối ưu phần caching, cụ thể là cách nó xử lý và tái sử dụng "bộ nhớ ngắn hạn" của mô hình (KV cache). Khi anh em chat, sửa prompt, fork nhiều nhánh hội thoại hoặc chạy lại các đoạn tương tự, phần lớn ngữ cảnh đầu vào thực ra bị lặp lại. Nếu hệ thống phải tính lại từ đầu mỗi lần thì rất phí. Với cải tiến mới, Ollama lưu lại các đoạn tiền tố chung và tạo các điểm checkpoint thông minh trong prompt, để khi anh em sửa hoặc chạy lại, nó chỉ cần tiếp tục từ điểm đã tính sẵn thay vì làm lại tất cả. Điều này làm cho trải nghiệm sử dụng mô hình cục bộ trở nên "mượt" hơn nhiều, nhất là với các use case như viết code, refactor, thử nghiệm prompt theo kiểu iterative.
Thay đổi mới nhất khiến việc chạy mô hình AI Local trên Apple Sillicon dễ dàng hơn
Một chi tiết kỹ thuật nữa nhưng khá đáng chú ý là việc Ollama hỗ trợ định dạng NVFP4 của Nvidia cho việc nén mô hình. NVFP4 là chuẩn số thực 4-bit dùng cho quantization, giúp nén trọng số mô hình xuống nhỏ hơn đáng kể so với 16-bit hay 8-bit mà vẫn giữ chất lượng ở mức chấp nhận được cho suy luận. Khi Ollama đọc được mô hình ở định dạng này, anh em có thể chạy các mô hình lớn hơn trong cùng dung lượng RAM, băng thông bộ nhớ cũng đỡ căng hơn. Điều này đặc biệt có ý nghĩa trên Mac, nơi dung lượng unified memory tuy nhanh nhưng không phải lúc nào cũng quá dồi dào. Với NVFP4, một chiếc Mac có 32 GB hay 64 GB bộ nhớ hợp nhất có thể "gánh" những mô hình phức tạp mà trước đây anh em khó có thể nghĩ tới.
Tất cả những thay đổi đó gộp lại tạo ra một cú hích đáng kể cho việc chạy AI cục bộ trên Mac dùng Apple Silicon. Thời điểm thay đổi này diễn ra cũng khá thú vị: phong trào dùng mô hình local đang lan rộng hơn ra ngoài cộng đồng nghiên cứu và anh em thích vọc. Những dự án như OpenClaw, với hàng trăm nghìn sao trên GitHub và độ phủ truyền thông lớn, khiến rất nhiều người bắt đầu tò mò xem "máy mình có chạy nổi mấy thứ này không". Đồng thời, không ít lập trình viên bắt đầu thấy khó chịu với giới hạn rate limit, độ trễ mạng hoặc chi phí thuê gói cao của những dịch vụ AI đỉnh như Claude hay ChatGPT, nên nhu cầu có một "trợ lý AI" chạy ngay trên máy ngày càng thực tế hơn.
Trong bối cảnh đó, Ollama vừa cải thiện hiệu năng, vừa hỗ trợ tốt hơn cho các công cụ lập trình như Visual Studio Code, khiến combo "Mac Apple Silicon mô hình local" trở thành một lựa chọn hấp dẫn hơn nhiều. Nếu anh em đang dùng Mac M1 trở lên, những cập nhật này có nghĩa là cùng một con máy, anh em có thể kéo mô hình về chạy nhanh hơn, đỡ tốn RAM hơn, ít bị "nghẹt" hơn khi context dài, và đặc biệt là thoải mái thử nghiệm, vọc vạch mô hình mà không cần lo API key hay hóa đơn cuối tháng. Nó không biến Mac thành siêu máy chủ GPU, nhưng lại kéo khoảng cách giữa "dùng cloud" và "dùng local" lại gần hơn một bước rất rõ ràng.
Nguồn: Ollama Blog
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































