
Trong chủ đề này mình muốn chia sẻ với anh em một số cách để tận dụng sức mạnh của mẫu siêu máy tính ASUS Ascent GX10, hay những biến thể của chiếc NVIDIA DGX Spark vào việc xây dựng hệ thống chatbot cơ bản cho đến triển khai Agentic RAG và một số các trường hợp sử dụng thực tế của chúng.
Như trong những chủ đề trước mình đã chia sẻ hoặc những anh em mod khác đã chia sẻ về ASUS Ascent GX10, thì với sức mạnh của mẫu siêu chip GB10 (Grace Blackwell), 128GB Unified memory thì nó có thể xử lý một mô hình ngôn ngữ lớn lên đến 200 tỷ tham số. Con số này không đại diện cho việc nó sẽ nhanh hơn những chiếc máy Mac chạy chip M Ultra hay M Max Series, nhưng rõ ràng nó được tối ưu sẵn các công cụ của NVIDIA một cách triệt để nhất.
![[IMG]](https://photo2.tinhte.vn/data/attachment-files/2025/11/8890703_unbox-ASUS-Ascent-GX10-pnghuy.jpg)
Nhắc lại một chút cho anh em nào lỡ quên, GB10 là mẫu chip được phát triển dựa trên kiến trúc Grace Blackwell của NVIDIA, kết hợp giữa CPU 20 nhân Arm và GPU Blackwell, tối ưu cho quá trình nghiên cứu, phát triển các ứng dụng AI, triển khai AI cục bộ cho cá nhân, nhóm làm việc hoặc thậm chí là cấp doanh nghiệp. Với kết nối NVLink-C2C mà băng thông để "giao tiếp" giữa CPU và GPU lên đến 900GB/s (2 chiều). Điều này có nghĩa là dữ liệu được truyền từ CPU sang GPU (hoặc ngược lại) gần như không có độ trễ, cho phép các mô hình AI huấn luyện và chạy inference (dự đoán) nhanh hơn rất nhiều.
Như trong những chủ đề trước mình đã chia sẻ hoặc những anh em mod khác đã chia sẻ về ASUS Ascent GX10, thì với sức mạnh của mẫu siêu chip GB10 (Grace Blackwell), 128GB Unified memory thì nó có thể xử lý một mô hình ngôn ngữ lớn lên đến 200 tỷ tham số. Con số này không đại diện cho việc nó sẽ nhanh hơn những chiếc máy Mac chạy chip M Ultra hay M Max Series, nhưng rõ ràng nó được tối ưu sẵn các công cụ của NVIDIA một cách triệt để nhất.
![[IMG]](https://photo2.tinhte.vn/data/attachment-files/2025/11/8890703_unbox-ASUS-Ascent-GX10-pnghuy.jpg)
Nhắc lại một chút cho anh em nào lỡ quên, GB10 là mẫu chip được phát triển dựa trên kiến trúc Grace Blackwell của NVIDIA, kết hợp giữa CPU 20 nhân Arm và GPU Blackwell, tối ưu cho quá trình nghiên cứu, phát triển các ứng dụng AI, triển khai AI cục bộ cho cá nhân, nhóm làm việc hoặc thậm chí là cấp doanh nghiệp. Với kết nối NVLink-C2C mà băng thông để "giao tiếp" giữa CPU và GPU lên đến 900GB/s (2 chiều). Điều này có nghĩa là dữ liệu được truyền từ CPU sang GPU (hoặc ngược lại) gần như không có độ trễ, cho phép các mô hình AI huấn luyện và chạy inference (dự đoán) nhanh hơn rất nhiều.
Ngoài ra, NVIDIA còn có NVIDIA ConnectX-7 SmartNIC – một bộ điều hợp mạng đặc biệt hỗ trợ tốc độ lên tới 400 Gbps cho phép kết nối hai chiếc GX10 với nhau bằng cáp kết nối đặc biệt. Với băng thông này, bạn có thể fine-tune mô hình lên đến 405 tỷ tham số.
Thông số kỹ thuật đầy đủ của ASUS Ascent GX10:
- CPU: 20 nhân ARM (Grace)
- GPU: Blackwell, AI compute 1 petaFLOP
- RAM hợp nhất (unified memory): 128GB LPDDR5X (dùng chung cho CPU & GPU)
- Lưu trữ: 1TB PCIe NVMe.
- Kết nối: 10GbE, QSFP (hỗ trợ ghép nối nhiều Spark)
- Điện năng tiêu thụ: 240W chạy 24/7.
- Hệ điều hành: DGX OS (dựa trên Ubuntu), hỗ trợ Nvidia Sync, SSH đơn giản.
Xây dựng chatbot "mì ăn liền" với Ollama Open WebUI
Với Ollama làm nền (backend) và giao diện Open WebUI, bạn có thể chạy mô hình AI cục bộ trên máy tính với bất kì thiết bị nào, dù là Windows, macOS hay Linux và dĩ nhiên với Ascent GX10 cũng không ngoại lệ. Đây là giải pháp phù hợp nhất để làm quen với DGX Spark. Nhờ kiến trúc ARM của CPU Grace, Ollama chạy cực kỳ tối ưu và ổn định.
Các hệ thống như Ollama hoạt động như một Standard RAG, theo cơ chế tuyến tính: Truy xuất (Retrieval) > Trả lời (Generation). Khi người dùng hỏi, hệ thống quét dữ liệu vector, tìm đoạn văn bản khớp nhất và dùng LLM để tổng hợp câu trả lời.
Quá trình triển khai hệ thống này diễn ra khá trực quan, bắt đầu bằng việc thiết lập kết nối bảo mật SSH vào thiết bị và cài đặt Ollama thông qua các câu lệnh cơ bản. Sau khi phần lõi đã hoạt động, việc triển khai Open WebUI thông qua Docker sẽ cung cấp một giao diện người dùng trực quan, tương tự như trải nghiệm ChatGPT mà đa số mọi người đã quen thuộc.
Để giải quyết bài toán làm việc từ xa, việc sử dụng Tailscale vào quy trình này cho phép đội ngũ kỹ thuật hoặc người dùng cuối truy cập vào Chatbot ngay tại nhà thông qua một địa chỉ IP riêng biệt mà không cần mở cổng public rủi ro ra Internet.
Quảng cáo
Đây là giải pháp "mì ăn liền" nhưng cực kỳ hiệu quả, mang lại khả năng Chatbot cơ bản và tính năng RAG tiêu chuẩn, cho phép người dùng tải lên tài liệu và hỏi đáp tức thì với tốc độ phản hồi cực nhanh nhờ sự tối ưu hóa phần cứng.
Các giải pháp như Ollama sẽ phù hợp với nhóm phát triển sản phẩm, các nhà phát triển ứng dụng có thể tích hợp thẳng vào VS Code, các đoạn mã nguồn cũ hay tài liệu kỹ thuật độc quyền của công ty có thể được nạp vào hệ thống để AI hỗ trợ giải thích logic, viết tài liệu hướng dẫn hoặc tạo các bài kiểm tra tự động mà không sợ rò rỉ mã nguồn ra các máy chủ công cộng như khi sử dụng các dịch vụ AI miễn phí. Điều này đặc biệt quan trọng với các công ty công nghệ coi mã nguồn là tài sản sống còn.
Đối với một nhóm biên tập nội dung công nghệ như Tinh tế chẳng hạn, hệ thống Standard RAG chạy trên hạ tầng nội bộ mang lại những giá trị như:
Các nhóm nội dung công nghệ thường nhận được tài liệu kỹ thuật của các sản phẩm công nghệ chưa ra mắt dưới dạng thỏa thuận bảo mật (NDA). Việc sử dụng các công cụ AI đám mây (như ChatGPT, Gemini) để tóm tắt hay trích xuất thông tin từ các tài liệu này có nguy cơ vi phạm NDA do dữ liệu bị gửi lên máy chủ bên ngoài.
Hệ thống Standard RAG chạy local đảm bảo toàn bộ thông số nhạy cảm (như xung nhịp, số lượng nhân xử lý) nằm hoàn toàn trong mạng nội bộ, cho phép đội ngũ biên tập xử lý tin bài trước giờ G mà không lo rò rỉ.
Các biên tập viên công nghệ thường mất nhiều thời gian để "đào" thông số từ các file PDF tài liệu kỹ thuật dài hàng trăm trang. Standard RAG cực kỳ hiệu quả trong việc này. Bạn có thể upload toàn bộ tài liệu kỹ thuật của một dòng chip mới và hỏi: "So sánh số lượng nhân CUDA của RTX 4090 và RTX 5090 dựa trên tài liệu này". Hệ thống sẽ trích xuất con số chính xác từ văn bản gốc để trả lời, giảm thiểu tối đa tình trạng "ảo giác" (hallucination) thường gặp khi AI tự bịa số liệu, giúp bài viết có độ chính xác kỹ thuật cao.
Quảng cáo
Tốc độ inference với các mô hình như gpt-oss-20b hay thậm chí là 120b thì nó cũng không vượt trội hơn so với các hệ thống máy tính hiện tại cũng sử dụng Unified memory, nhưng lợi thế về phần mềm, sự hỗ trợ "tận răng" từ NVIDIA là thứ sẽ khiến người dùng triển khai nhanh chóng hơn nhiều. Đặc biệt, hệ thống này có thể được truy cập từ xa, từ nhiều người để dùng, không tiêu tốn nhiều tài nguyên của máy tính cá nhân.
Xây dựng "Nhân viên ảo" với NVIDIA AI Workbench (Agentic RAG)
Mặc dù hệ thống Standard RAG với Ollama hoạt động rất hiệu quả cho các tác vụ tra cứu thông thường, nhưng tham vọng về một hệ thống AI thông minh hơn, có khả năng tư duy và tự hành thì lúc này chúng ta sẽ cần đến NVIDIA AI Workbench và mô hình Agentic RAG.
Đây là giải pháp tận dụng tối đa sức mạnh phần cứng của DGX Spark, biến nó thành một Agent có khả năng tư duy. Khác với Standard RAG, Agentic RAG hoạt động theo vòng lặp tư duy: Lập kế hoạch > Sử dụng công cụ > Kiểm tra kết quả > Trả lời.
Hệ thống Agentic RAG này không chỉ đơn thuần là trả lời câu hỏi, nó hoạt động như một nhân viên mẫn cán với khả năng lập kế hoạch, biết tự quyết định khi nào cần tra cứu dữ liệu nội bộ, khi nào cần sử dụng công cụ tìm kiếm web như Tavily để cập nhật thông tin mới nhất, và khi nào cần kích hoạt môi trường lập trình Python để tính toán số liệu phức tạp.
Sự khác biệt giữa hai hệ thống này không chỉ nằm ở công nghệ mà còn ở tư duy giải quyết vấn đề. Nếu ví hệ thống Standard RAG trên Ollama như một người thủ thư cần mẫn, làm việc theo quy trình tuyến tính "tìm và gửi", thì Agentic RAG trên NVIDIA AI Workbench chính là một chuyên gia phân tích cao cấp với tư duy vòng lặp.
Người thủ thư chỉ có thể trích xuất chính xác những gì đã được viết trong sách (dữ liệu nạp vào), đảm bảo tính trung thực tuyệt đối nhưng thiếu sự linh hoạt. Ngược lại, chuyên gia phân tích Agentic có khả năng dừng lại để suy ngẫm, tự đặt câu hỏi phản biện, tìm kiếm thêm thông tin bổ sung từ bên ngoài để làm rõ vấn đề và thậm chí tự tạo ra công cụ (viết code) để xử lý dữ liệu thô thành các biểu đồ trực quan. Chính khả năng "tự nhận thức" và tự sửa lỗi này đã nâng tầm giá trị của Agentic RAG, biến nó thành công cụ đắc lực cho các quyết định chiến lược.
Ứng dụng vào thực tế ra sao?
Khi áp dụng vào thực tế doanh nghiệp, mình ví dụ như ở Tinh tế, hai hệ thống này mang lại những giá trị bổ trợ hoàn hảo cho nhau. Một mặt thì nhóm mod có thể sử dụng Ollama như ở trên mình đã chia sẻ, mặt khác, khi bước sang giai đoạn lên ý tưởng và nghiên cứu xu hướng, Agentic RAG sẽ là lựa chọn phù hợp hơn.
Ví dụ, một mod có thể giao cho Agent nhiệm vụ nghiên cứu phản ứng của cộng đồng mạng về một sự cố kỹ thuật vừa mới nổ ra, chẳng hạn như lỗi quá nhiệt trên một dòng chip mới. Agent sẽ tự động sử dụng công cụ tìm kiếm để quét qua các diễn đàn công nghệ, mạng xã hội để tổng hợp các trường hợp báo lỗi, sau đó đối chiếu với tài liệu kỹ thuật nội bộ của hãng để phân tích nguyên nhân tiềm năng.
Hơn thế nữa, khả năng chạy code Python của Agentic RAG cho phép nó tự động hóa việc vẽ các biểu đồ so sánh hiệu năng từ các bảng số liệu thô (benchmark CSV), tạo ra các hình ảnh trực quan chất lượng cao để chèn trực tiếp vào bài viết. Quy trình này giúp tiết kiệm hàng giờ đồng hồ thao tác thủ công, cho phép đội ngũ nội dung tập trung vào việc kể chuyện và phân tích sâu sắc hơn.
Không chỉ giới hạn ở mảng nội dung, sức mạnh của siêu máy tính ASUS Ascent GX10 còn mở ra những khả năng ứng dụng mới cho các phòng ban khác trong doanh nghiệp vừa và nhỏ. Đối với đội ngũ kinh doanh và bán hàng (Sales), Agentic RAG có thể biến thành một trợ lý tình báo thị trường sắc bén. Thay vì tốn thời gian google thủ công giá bán của đối thủ, nhân viên kinh doanh có thể yêu cầu Agent thực hiện một khảo sát nhanh về giá cả của các sản phẩm cạnh tranh trên thị trường hiện tại, sau đó đối chiếu với chính sách chiết khấu nội bộ được lưu trữ trong cơ sở dữ liệu vector để đề xuất một mức giá chào hàng tối ưu nhất cho khách hàng B2B.
Khả năng tổng hợp thông tin đa chiều từ cả nguồn public (giá thị trường) và nguồn private (chính sách công ty) giúp đội ngũ sales đưa ra các quyết định đàm phán dựa trên dữ liệu thực tế (Data-driven) chứ không chỉ dựa vào cảm tính.
Agentic RAG cũng có thể giúp cho đội ngũ dev có thể yêu cầu AI tự động tìm kiếm các lỗ hổng bảo mật mới được công bố trên các cơ sở dữ liệu an ninh mạng uy tín và quét qua mã nguồn hiện tại để cảnh báo sớm các rủi ro tiềm ẩn.
Tạm kết
Nhìn rộng ra, việc đầu tư vào một thiết bị như ASUS Ascent GX10 và triển khai song song hai hệ thống RAG này không chỉ là một quyết định nâng cấp phần cứng đơn thuần, mà là một bước chuyển mình chiến lược về cách thức vận hành doanh nghiệp. Nó đánh dấu sự chuyển dịch từ việc "sử dụng AI" như một dịch vụ thuê ngoài sang việc "sở hữu AI" như một tài sản cố định.
Các doanh nghiệp bây giờ sẽ ít bị phụ thuộc vào hạn ngạch sử dụng, tốc độ đường truyền internet hay chính sách bảo mật của các ông lớn công nghệ. Mọi dữ liệu, mọi quy trình xử lý, mọi tri thức được sinh ra từ AI đều nằm trọn vẹn trong khuôn viên văn phòng, được bảo vệ bởi lớp vỏ vật lý của máy chủ và các giao thức mạng nội bộ.
Sản phẩm được phân phối bởi Nhất Tiến Chung - Nhà cung cấp giải pháp hạ tầng CNTT, anh em quan tâm sản phẩm có thể tham khảo tại đây.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































