
Trong bài viết này, mình sẽ thử test chi tiết khả năng của model AI miễn phí GPT-OSS 120 tỷ tham số mà OpenAI vừa phát hành mấy ngày qua. Đây là model mạnh nhất trong 2 model miễn phí mà công ty lần đầu tiên phát hành. Khả năng của nó được giới thiệu là ngang với cả ChatGPT-4o và đi kèm với đó là yêu cầu phần cứng cũng không phải dạng vừa, cần có ít nhất 70GB RAM để load model, dĩ nhiên là CPU và GPU tương ứng. Nhân tiện, mình test nó trên chiếc Macbook Pro M2 Max 96GB RAM để thử khả năng của chiếc máy này luôn nha.
Không chỉ phát hành ChatGPT-5 hoàn toàn mới với nhiều cải tiến, OpenAI vừa qua cũng đã phát hành model mở miễn phí GPT-OSS cho chúng ta tải về tự host, tự custom lại theo đúng nhu cầu sử dụng của chúng ta. Nếu như xài ChatGPT trên trang web thì chúng ta phải trả tiền 20 đô mỗi tháng để xài hết tất cả các tính năng họ cung cấp thì ngược lại, để tự tải model GPT-OSS (được giới thiệu là mạnh ngang ChatGPT-4o mini hồi trước), thì chúng ta cần phải có phần cứng phù hợp.
GPT-OSS được phát hành với 2 phiên bản là 20 tỷ và 120 tỷ tham số (hậu tố là 20b hay 120b là diễn tả số tham số). Thực chất để chạy bản 20 tỷ tham số trên máy tính Windows / macOS của các bạn thì chỉ cần máy có 16GB RAM là được, còn đối với bản 120 tỷ tham số thì nhu cầu cao hơn nhiều, phải trên 70GB RAM để model nó được load hết vào, đảm bảo tốc độ phản hồi của model. Vậy nếu RAM ít hơn thì có chạy được không? Câu trả lời là trên lý thuyết thì chạy vẫn được nhưng mà model sẽ trả lời câu hỏi siêu chậm do phải đẩy phần model tạm vào ổ cứng khi RAM nó hết. Tùy vào phần mềm bạn dùng để chạy model offline mà nó có "crash" hay không. Tuy nhiên, chẳng ai lại cố đấm ăn xôi như vậy.
Cho bạn nào muốn cài GPT-OSS trên máy tính của bạn thì có thể coi lại bài bên dưới ha, cách sử dụng combo Ollama OpenWebUI này hỗ trợ tốt cả WIndows và Mac, cả về giao diện giống ChatGPT online lẫn đảm bảo hiệu năng ổn cho cả 2 hệ điều hành.
Cho bạn nào lỡ quên…
Không chỉ phát hành ChatGPT-5 hoàn toàn mới với nhiều cải tiến, OpenAI vừa qua cũng đã phát hành model mở miễn phí GPT-OSS cho chúng ta tải về tự host, tự custom lại theo đúng nhu cầu sử dụng của chúng ta. Nếu như xài ChatGPT trên trang web thì chúng ta phải trả tiền 20 đô mỗi tháng để xài hết tất cả các tính năng họ cung cấp thì ngược lại, để tự tải model GPT-OSS (được giới thiệu là mạnh ngang ChatGPT-4o mini hồi trước), thì chúng ta cần phải có phần cứng phù hợp.
GPT-OSS được phát hành với 2 phiên bản là 20 tỷ và 120 tỷ tham số (hậu tố là 20b hay 120b là diễn tả số tham số). Thực chất để chạy bản 20 tỷ tham số trên máy tính Windows / macOS của các bạn thì chỉ cần máy có 16GB RAM là được, còn đối với bản 120 tỷ tham số thì nhu cầu cao hơn nhiều, phải trên 70GB RAM để model nó được load hết vào, đảm bảo tốc độ phản hồi của model. Vậy nếu RAM ít hơn thì có chạy được không? Câu trả lời là trên lý thuyết thì chạy vẫn được nhưng mà model sẽ trả lời câu hỏi siêu chậm do phải đẩy phần model tạm vào ổ cứng khi RAM nó hết. Tùy vào phần mềm bạn dùng để chạy model offline mà nó có "crash" hay không. Tuy nhiên, chẳng ai lại cố đấm ăn xôi như vậy.
Cho bạn nào muốn cài GPT-OSS trên máy tính của bạn thì có thể coi lại bài bên dưới ha, cách sử dụng combo Ollama OpenWebUI này hỗ trợ tốt cả WIndows và Mac, cả về giao diện giống ChatGPT online lẫn đảm bảo hiệu năng ổn cho cả 2 hệ điều hành.
Trên mac nên dùng LMStudio để chạy model cho mục đích xài cá nhân
Bên cạnh đó, chúng ta còn có một cách khác mà mình thấy nhiều bạn cũng xài là LMStudio. Đây là ứng dụng được build sẵn, tải nó về cài, tải model list sẵn trong đó là chạy như chatbot được luôn. Ứng dụng này có bản cho mac lẫn Windows nên ai cũng có thể xài được. Tuy nhiên, đối với bạn nào xài Mac để chạy model, thì LM Studio sẽ là lựa chọn thích hợp hơn. Nguyên nhân là do LMStudio hỗ trợ native MLX. Đây là một cái framwork machine learning do Apple phát triển dành cho phần cứng của họ.
MLX được thiết kế để khai thác triệt để kiến trúc độc đáo của chip M-series, đặc biệt là Bộ nhớ Unified Memory. Thay vì phải sao chép dữ liệu giữa RAM của CPU và VRAM của GPUv vốn là một quy trình tốn thời gian và là nút thắt cổ chai phổ biến trên các hệ thống chạy LLM local, MLX cho phép cả CPU và GPU truy cập trực tiếp vào cùng một vùng nhớ. LM Studio được thiết kế để hỗ trợ MLX làm một trong những engine suy luận chính, đã tận dụng được lợi thế này để giảm thiểu độ trễ, tăng tốc độ xử lý và sử dụng tài nguyên hệ thống một cách hiệu quả vượt trội hơn trên mac.
Nói như vậy không có nghĩa là dùng Ollama là tệ. Thứ nhất là Ollama cho xài với webUI giống ChatGPT trên web và quan trọng hơn, nó cho custom rất sâu các kịch bản sử dụng, chia cho nhóm xài được luôn nên có rất nhiều đường triển khai. Bản chất do triết lý phát triển đã theo 2 hướng khác nhau. Mặc dù Ollama vẫn có hiệu năng rất tốt nhờ sử dụng engine llama.cpp được tối ưu hóa cho API đồ họa Metal của Apple nhưng về cơ bản vẫn là một giải pháp đa nền tảng. Nó giống như một bộ chuyển đổi đa năng hiệu suất cao, trong khi LM Studio với MLX giống như một thiết bị được chế tạo riêng cho hệ sinh thái Apple. Bởi thế, để tối ưu nhất thì trên mac, chúng ta nên xài LMStudio là vậy.
Xem một model chạy trên máy tính thì cần quan tâm điểm nào
Ở góc độ đơn giản nhất, khi mình chat với một con Chatbot thì mình cần nó trả lời xong càng nhanh càng tốt. Đó là mục tiêu cuối cùng. Đối với các model hiện tại, độ "thông minh" có xu hướng gắn với model reasoning (GPT-OSS là một model như thế) thì thời gian này nó lâu hơn LLM cơ bản chút do cần phải mất thời gian cho nó suy nghĩ, lên phương án nhiều bước rồi mới bắt đầu sinh ra chữ trả lời chúng ta.
Để đánh giá một model chạy local là nhanh hay chậm, có tốt không thì mình sẽ quan tâm vào các con số quan trọng:
- Tốc độ tạo token (Tokens per Second - t/s). Chỉ số này đo lường số lượng token (đơn vị từ hoặc ký tự) mà mô hình sản sinh ra mỗi giây sau khi đã xử lý xong yêu cầu đầu vào. Nó là thước đo cốt lõi cho tốc độ sinh văn bản và ảnh hưởng trực tiếp đến thời gian chờ đợi của người dùng để nhận được câu trả lời hoàn chỉnh.
- Thời gian đến token đầu tiên (Time to First Token - TTFT): đây cũng là một con số quan trọng, phản ánh độ trễ từ khi gửi yêu cầu đến khi nhận được ký tự phản hồi đầu tiên. TTFT càng thấp thì càng tạo cảm giác mô hình nhạy và phản ứng tức thì.
- Thời gian tải mô hình (Model Load Time): đây là khoảng thời gian cần thiết để nạp các trọng số từ ổ cứng vào bộ nhớ RAM và VRAM. Dù là nó chỉ chạy một lần khi bắt đầu sử dụng model nhưng dĩ nhiên, nó cũng ảnh hưởng tới trải nghiệm của người dùng.
- Mức sử dụng RAM và VRAM / GPU: cái này thì tất yếu rồi. Mức sử dụng RAM ảnh hưởng đến khả năng đa nhiệm của toàn bộ hệ thống còn VRAM (bộ nhớ GPU) quyết định bao nhiêu phần của mô hình có thể được tăng tốc bởi card đồ họa. Một mô hình quá lớn không vừa với VRAM sẽ chạy chậm hơn đáng kể.
Xong, bây giờ mình sẽ đi qua các khía cạnh trên khi chạy GPT-OSS 120b trên chiếc Macbook Pro M2 Max 96GB RAM. Mình sẽ vào LMStudio, load model, chọn chế độ Reasoning cao nhất để đẩy độ thử thách lên tối đa.
Test hiệu năng chạy GPT-OSS:120b trên Macbook Pro M2 Max 96GB RAM
Quảng cáo
Nhìn chung hiệu năng của phần cứng MacBook đang chạy mô hình GPT-OSS 120 tỷ tham số (120b) qua LMStudio là cực kỳ ấn tượng và mạnh. Đối với model này, ở lần đầu tiên, LMStudio mất tổng cộng 48 giây để mở
Tốc độ tạo token trung bình dao động trong khoảng 20-28 tokens/giây (t/s) và thời gian phản hồi ban đầu (TTFT) chỉ khoảng 1-1.3 giây. Trong hầu hết các tình huống, khi đưa prompt vào bấm enter phát là model bắt đầu suy nghĩ ngay, sau đó không lâu cho kết quả. Trải nghiệm rất gần như xài trên dịch vụ online.
Chi tiết hơn, về tốc độ tạo token (t/s). Mình dùng 6 tình huống prompt với các độ phức tạp của task đưa cho AI làm khác nhau, tốc độ sẽ dao động từ 18.61 t/s khi kêu nó tạo code game Flappy Bird trên python, đến mức cao nhất là 28.05 t/s đối với yêu cầu giải thích ký tự tiếng Việt. Mình thử trên M1 Max 64GB RAM để so, tốc độ này cao hơn rất nhiều và có thể nói là nhanh đáng kể.
Việc duy trì tốc độ trung bình trên 20 t/s đối với một mô hình khổng lồ 120B là một kết quả có thể tính là xuất sắc. Tốc độ này đủ nhanh cho việc trò chuyện tương tác, viết lách và các tác vụ phức tạp khác mà không gây cảm giác chậm trễ. Ở tốc độ thấp nhất mà mình test được, khi tạo code là 18.61 t/s và con số này hoàn toàn hợp lý bởi task này đòi hỏi sự chính xác về cú pháp và logic phức tạp, làm cho quá trình tạo mỗi token trở nên nặng hơn nhiều so với các nhiệm vụ xử lý đơn giản khác.
Trong khi đó, tác vụ lý luận logic như so sánh số có tốc độ khá nhanh.
Quảng cáo
Tương tự như trong tình huống đánh số bảng chữ cái, tốc độ tạo token cũng rất nhanh.
Tương tự, bài toán đố nhẹ nhàng này cũng được xử lý rất nhanh. Qua đó cho thấy mô hình có thể nhanh chóng xử lý và đưa ra các câu trả lời có cấu trúc đơn giản, nghĩa là hầu hết các nhu cầu sử dụng hàng ngày bình thường của người dùng.
Ở khía cạnh thời gian đến token đầu tiên TTFT tính bằng giây, giúp chúng ta đo lường được thời gian suy nghĩ của mô hình, cho biết độ nhạy và khả năng phản hồi ban đầu. Trong các tình huống trên, TTFT sẽ rơi ổn định vào khoảng từ 1 đến 1.3 giây. Việc mô hình 120B chỉ mất khoảng 1 giây để xử lý yêu cầu và bắt đầu tạo ra từ đầu tiên là cực kỳ nhanh. Điều này mang lại trải nghiệm tương tác rất mượt mà, khiến người dùng cảm thấy như đang trò chuyện với một hệ thống phản ứng nhanh và nhạy. Tất nhiên là duy có tình huống 1/72s TTFT khi tạo code game Flappy Bird, cái này cũng dễ hiểu khi yêu cầu này phức tạp hơn, đòi hỏi mô hình phải "lập kế hoạch" và xử lý nhiều thông tin hơn trước khi bắt đầu viết dòng code đầu tiên.
Trong hầu hết toàn bộ quá trình test các task, để ý mức RAM chạy ở góc dưới bên phải cửa sổ LM Studio thì RAM sẽ dao động từ 60-70 GB, còn GPU Usage sẽ đạt đâu 80-100% khi model chạy suy luận và sinh ra nội dung phản hồi. Lúc này Macbook sẽ chạy quạt lên và thực sự, rất hiếm khi thấy chiếc máy này quay quạt đối với các tác vụ bình thường mỗi ngày. Con số này khẳng định 96GB Unified Memory ở chiếc MacBook M2 Max này là hoàn toàn dư dả để chạy một model nặng như GPT-OSS:120b. Và thực sự đến đây, cấu hình này cũng là lý tưởng nhất mà mình từng test, và cũng là rẻ nhất để chạy toàn bộ model khổng lồ 120B vào bộ nhớ và khai thác tối đa sức mạnh của GPU để tăng tốc xử lý.
Test khả năng của model GPT-OSS:120b
Với phần cứng trên, model chạy mượt, mình mạnh dạng thử nhiều tình huống hơn để test khả năng của model GPT-OSS:120b miễn phí mà OpenAI vừa cho chúng ta xài. Bên dưới đây là các tình huống test, hy vọng cung cấp cho bạn một góc nhìn cơ bản về những gì mà một model local như nó có thể làm được.
Thử kêu so sánh 2 con số thập phân và số âm
Tình huống cơ bản nhất, mình kêu GPT-OSS:120b đếm từ và xác định vị trí từ, chữ cái trong một câu tiếng Việt. Model trả lời chính xác và rất nhanh. Trên thực tế, tiếng Việt mình là ký tự Latin nên chúng ta được hưởng lợi lớn khi sử dụng các model được cung cấp, không chỉ GPT-OSS:120b của OpenAI mà cả những bên khác như Gemma của Google, Mistral, LLama của Meta,... đều hỗ trợ tiếng Việt rất tốt. Coi vậy chứ một model không được train sẵn bằng tiếng Việt / tiếng Anh thì để xài nó như thí dụ này thôi cũng không phải là chuyện đơn giản đâu.
Tình huống khó hơn chút, mình kêu GPT-OSS:120b đánh số bảng chữ cái nhưng với một prompt khác. Cái này đòi hỏi nó phải hiểu ngữ nghĩa, tự biết nghĩ tới cái chuyện phải đánh số bảng chữ cái để xác định đúng số thứ tự. Kết quả hài lòng.
Trong bài toán đố dành riêng cho AI này, GPT-OSS:120b vô tình lại trả lời chính xác. Trong khi đó mình mới test ChatGPT 4o thì nó trả lời trật lất với prompt giống hệt. Quái lạ.
Trong tình huống này, mình kêu GPT-OSS:120b nó viết trò chơi Flappy Bird bằng mỗi pygame. Tổng thời gian ra được hết mọi thứ cỡ gần 2 phút, mình có toàn bộ câu trả lời, bao gồm file python của tựa game 256 dòng code.
Chạy thử file game, mọi thứ hoạt động bình thường, đúng logic của game Flappy Bird. Kết quả này hoàn toàn chấp nhận được. Chỉ cần prompt thêm chút nữa là ra kết quả ngon hơn được liền, chủ yếu chỉnh về mặt giao diện người dùng cho đẹp hơn chút thôi. Tương tự, mình mới thử ChatGPT 4o với prompt giống hệt thì nó sinh ra một file py khong hề chơi được luôn.
Thử thách chút nữa, mình kêu nó tạo một file SVG vẽ con cái voi đang bơi trên mây. Kếu nó không xài quá 3k token. Và đây là kết quả nó trả về.
Hình con cá voi đây nha các bạn.
Thử hỏi GPT-OSS:120b coi kiến thức của nó được train mới nhất tới thời điểm nào. Kết quả là tháng 6/2024 năm ngoái. Nghĩa là tương đồng với GPT 4 cũng là hợp lý. Và nhân đây, mình cũng muốn nhắc lại xíu là chatbot AI nói chung hay GPT-OSS:120b chạy local này nói riêng sẽ cực kỳ giới hạn trong việc tìm kiếm thông tin realtime (cho dù có cấu hình thế nào đi nữa), nên là mọi người cần giữ quan điểm này để chọn task kêu nó làm phù hợp nha.
Thử hỏi GPT-OSS:120b một bài toán đố 2 xe gặp nhau. 2 đắp án trả về đều chính xác hết.
![[IMG]](https://photo2.tinhte.vn/data/attachment-files/2025/08/8805317_Screenshot_2025-08-07_at_6.41.48PM.png)
Trong tình huống này, mình thử hỏi nó một vấn đề khá kinh điển trong môn đạo đức hay pháp luật là song đề đường ray. Và đây là trả lời của nó. Có thể thấy phản hồi của model cho thấy khá tốt về năng lực lý luận. Kết quả trả về cấu trúc rõ ràng, sử dụng bảng biểu để so sánh các trường phái triết học và trình bày thông tin phức tạp một cách trực quan và dễ hiểu.
Model đã định nghĩa và áp dụng chính xác các khái niệm như Chủ nghĩa vị lợi và Đạo đức học, cho thấy sự hiểu biết sâu sắc thay vì trả lời máy móc. Điểm đáng giá nhất là nó không chọn một phe, mà cung cấp một khung sườn tư duy đa chiều, để người dùng tự đưa ra quyết định. Cuối cùng, nó cũng đưa ra gợi ý để tương tác và khai thác tiếp vấn đề. Khá hay.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































