Header ads

Header ads
» »

ASUS Ascent GX10: Từ xây dựng chatbot cơ bản đến hệ thống Agentic RAG

Trong chủ đề này mình muốn chia sẻ với anh em một số cách để tận dụng sức mạnh của mẫu siêu máy tính ASUS Ascent GX10, hay những biến thể của chiếc NVIDIA DGX Spark vào việc xây dựng hệ thống chatbot cơ bản cho đến triển khai Agentic RAG và một số các trường hợp sử dụng thực tế của chúng.



Như trong những chủ đề trước mình đã chia sẻ hoặc những anh em mod khác đã chia sẻ về ASUS Ascent GX10, thì với sức mạnh của mẫu siêu chip GB10 (Grace Blackwell), 128GB Unified memory thì nó có thể xử lý một mô hình ngôn ngữ lớn lên đến 200 tỷ tham số. Con số này không đại diện cho việc nó sẽ nhanh hơn những chiếc máy Mac chạy chip M Ultra hay M Max Series, nhưng rõ ràng nó được tối ưu sẵn các công cụ của NVIDIA một cách triệt để nhất.

[​IMG]
Nhắc lại một chút cho anh em nào lỡ quên, GB10 là mẫu chip được phát triển dựa trên kiến trúc Grace Blackwell của NVIDIA, kết hợp giữa CPU 20 nhân Arm và GPU Blackwell, tối ưu cho quá trình nghiên cứu, phát triển các ứng dụng AI, triển khai AI cục bộ cho cá nhân, nhóm làm việc hoặc thậm chí là cấp doanh nghiệp. Với kết nối NVLink-C2C mà băng thông để "giao tiếp" giữa CPU và GPU lên đến 900GB/s (2 chiều). Điều này có nghĩa là dữ liệu được truyền từ CPU sang GPU (hoặc ngược lại) gần như không có độ trễ, cho phép các mô hình AI huấn luyện và chạy inference (dự đoán) nhanh hơn rất nhiều.

Ngoài ra, NVIDIA còn có NVIDIA ConnectX-7 SmartNIC – một bộ điều hợp mạng đặc biệt hỗ trợ tốc độ lên tới 400 Gbps cho phép kết nối hai chiếc GX10 với nhau bằng cáp kết nối đặc biệt. Với băng thông này, bạn có thể fine-tune mô hình lên đến 405 tỷ tham số.

Thông số kỹ thuật đầy đủ của ASUS Ascent GX10:

  • CPU: 20 nhân ARM (Grace)
  • GPU: Blackwell, AI compute 1 petaFLOP
  • RAM hợp nhất (unified memory): 128GB LPDDR5X (dùng chung cho CPU & GPU)
  • Lưu trữ: 1TB PCIe NVMe.
  • Kết nối: 10GbE, QSFP (hỗ trợ ghép nối nhiều Spark)
  • Điện năng tiêu thụ: 240W chạy 24/7.
  • Hệ điều hành: DGX OS (dựa trên Ubuntu), hỗ trợ Nvidia Sync, SSH đơn giản.

Xây dựng chatbot "mì ăn liền" với Ollama Open WebUI


Với Ollama làm nền (backend) và giao diện Open WebUI, bạn có thể chạy mô hình AI cục bộ trên máy tính với bất kì thiết bị nào, dù là Windows, macOS hay Linux và dĩ nhiên với Ascent GX10 cũng không ngoại lệ. Đây là giải pháp phù hợp nhất để làm quen với DGX Spark. Nhờ kiến trúc ARM của CPU Grace, Ollama chạy cực kỳ tối ưu và ổn định.

CleanShot 2026-01-12 at 14.44.54@2x.jpg
Các hệ thống như Ollama hoạt động như một Standard RAG, theo cơ chế tuyến tính: Truy xuất (Retrieval) > Trả lời (Generation). Khi người dùng hỏi, hệ thống quét dữ liệu vector, tìm đoạn văn bản khớp nhất và dùng LLM để tổng hợp câu trả lời.

Quá trình triển khai hệ thống này diễn ra khá trực quan, bắt đầu bằng việc thiết lập kết nối bảo mật SSH vào thiết bị và cài đặt Ollama thông qua các câu lệnh cơ bản. Sau khi phần lõi đã hoạt động, việc triển khai Open WebUI thông qua Docker sẽ cung cấp một giao diện người dùng trực quan, tương tự như trải nghiệm ChatGPT mà đa số mọi người đã quen thuộc.

CleanShot 2026-01-08 at 11.57.12@2x.jpg
Để giải quyết bài toán làm việc từ xa, việc sử dụng Tailscale vào quy trình này cho phép đội ngũ kỹ thuật hoặc người dùng cuối truy cập vào Chatbot ngay tại nhà thông qua một địa chỉ IP riêng biệt mà không cần mở cổng public rủi ro ra Internet.

Quảng cáo


Đây là giải pháp "mì ăn liền" nhưng cực kỳ hiệu quả, mang lại khả năng Chatbot cơ bản và tính năng RAG tiêu chuẩn, cho phép người dùng tải lên tài liệu và hỏi đáp tức thì với tốc độ phản hồi cực nhanh nhờ sự tối ưu hóa phần cứng.
CleanShot 2026-01-08 at 11.57.33@2x.jpg
Các giải pháp như Ollama sẽ phù hợp với nhóm phát triển sản phẩm, các nhà phát triển ứng dụng có thể tích hợp thẳng vào VS Code, các đoạn mã nguồn cũ hay tài liệu kỹ thuật độc quyền của công ty có thể được nạp vào hệ thống để AI hỗ trợ giải thích logic, viết tài liệu hướng dẫn hoặc tạo các bài kiểm tra tự động mà không sợ rò rỉ mã nguồn ra các máy chủ công cộng như khi sử dụng các dịch vụ AI miễn phí. Điều này đặc biệt quan trọng với các công ty công nghệ coi mã nguồn là tài sản sống còn.

Đối với một nhóm biên tập nội dung công nghệ như Tinh tế chẳng hạn, hệ thống Standard RAG chạy trên hạ tầng nội bộ mang lại những giá trị như:

Các nhóm nội dung công nghệ thường nhận được tài liệu kỹ thuật của các sản phẩm công nghệ chưa ra mắt dưới dạng thỏa thuận bảo mật (NDA). Việc sử dụng các công cụ AI đám mây (như ChatGPT, Gemini) để tóm tắt hay trích xuất thông tin từ các tài liệu này có nguy cơ vi phạm NDA do dữ liệu bị gửi lên máy chủ bên ngoài.

CleanShot 2026-01-12 at 14.49.42@2x.jpg
Hệ thống Standard RAG chạy local đảm bảo toàn bộ thông số nhạy cảm (như xung nhịp, số lượng nhân xử lý) nằm hoàn toàn trong mạng nội bộ, cho phép đội ngũ biên tập xử lý tin bài trước giờ G mà không lo rò rỉ.

Các biên tập viên công nghệ thường mất nhiều thời gian để "đào" thông số từ các file PDF tài liệu kỹ thuật dài hàng trăm trang. Standard RAG cực kỳ hiệu quả trong việc này. Bạn có thể upload toàn bộ tài liệu kỹ thuật của một dòng chip mới và hỏi: "So sánh số lượng nhân CUDA của RTX 4090 và RTX 5090 dựa trên tài liệu này". Hệ thống sẽ trích xuất con số chính xác từ văn bản gốc để trả lời, giảm thiểu tối đa tình trạng "ảo giác" (hallucination) thường gặp khi AI tự bịa số liệu, giúp bài viết có độ chính xác kỹ thuật cao.

Quảng cáo



Tốc độ inference với các mô hình như gpt-oss-20b hay thậm chí là 120b thì nó cũng không vượt trội hơn so với các hệ thống máy tính hiện tại cũng sử dụng Unified memory, nhưng lợi thế về phần mềm, sự hỗ trợ "tận răng" từ NVIDIA là thứ sẽ khiến người dùng triển khai nhanh chóng hơn nhiều. Đặc biệt, hệ thống này có thể được truy cập từ xa, từ nhiều người để dùng, không tiêu tốn nhiều tài nguyên của máy tính cá nhân.

Xây dựng "Nhân viên ảo" với NVIDIA AI Workbench (Agentic RAG)

CleanShot 2026-01-07 at 15.58.31@2x.jpg


Mặc dù hệ thống Standard RAG với Ollama hoạt động rất hiệu quả cho các tác vụ tra cứu thông thường, nhưng tham vọng về một hệ thống AI thông minh hơn, có khả năng tư duy và tự hành thì lúc này chúng ta sẽ cần đến NVIDIA AI Workbench và mô hình Agentic RAG.
CleanShot 2026-01-07 at 16.22.34@2x.jpg
Đây là giải pháp tận dụng tối đa sức mạnh phần cứng của DGX Spark, biến nó thành một Agent có khả năng tư duy. Khác với Standard RAG, Agentic RAG hoạt động theo vòng lặp tư duy: Lập kế hoạch > Sử dụng công cụ > Kiểm tra kết quả > Trả lời.
CleanShot 2026-01-07 at 19.41.09@2x.jpg
Hệ thống Agentic RAG này không chỉ đơn thuần là trả lời câu hỏi, nó hoạt động như một nhân viên mẫn cán với khả năng lập kế hoạch, biết tự quyết định khi nào cần tra cứu dữ liệu nội bộ, khi nào cần sử dụng công cụ tìm kiếm web như Tavily để cập nhật thông tin mới nhất, và khi nào cần kích hoạt môi trường lập trình Python để tính toán số liệu phức tạp.
CleanShot 2026-01-08 at 11.53.09@2x.jpg
Sự khác biệt giữa hai hệ thống này không chỉ nằm ở công nghệ mà còn ở tư duy giải quyết vấn đề. Nếu ví hệ thống Standard RAG trên Ollama như một người thủ thư cần mẫn, làm việc theo quy trình tuyến tính "tìm và gửi", thì Agentic RAG trên NVIDIA AI Workbench chính là một chuyên gia phân tích cao cấp với tư duy vòng lặp.
CleanShot 2026-01-08 at 11.54.43@2x.jpg
Người thủ thư chỉ có thể trích xuất chính xác những gì đã được viết trong sách (dữ liệu nạp vào), đảm bảo tính trung thực tuyệt đối nhưng thiếu sự linh hoạt. Ngược lại, chuyên gia phân tích Agentic có khả năng dừng lại để suy ngẫm, tự đặt câu hỏi phản biện, tìm kiếm thêm thông tin bổ sung từ bên ngoài để làm rõ vấn đề và thậm chí tự tạo ra công cụ (viết code) để xử lý dữ liệu thô thành các biểu đồ trực quan. Chính khả năng "tự nhận thức" và tự sửa lỗi này đã nâng tầm giá trị của Agentic RAG, biến nó thành công cụ đắc lực cho các quyết định chiến lược.

Ứng dụng vào thực tế ra sao?


Khi áp dụng vào thực tế doanh nghiệp, mình ví dụ như ở Tinh tế, hai hệ thống này mang lại những giá trị bổ trợ hoàn hảo cho nhau. Một mặt thì nhóm mod có thể sử dụng Ollama như ở trên mình đã chia sẻ, mặt khác, khi bước sang giai đoạn lên ý tưởng và nghiên cứu xu hướng, Agentic RAG sẽ là lựa chọn phù hợp hơn.

CleanShot 2026-01-08 at 11.55.56@2x.jpg
Ví dụ, một mod có thể giao cho Agent nhiệm vụ nghiên cứu phản ứng của cộng đồng mạng về một sự cố kỹ thuật vừa mới nổ ra, chẳng hạn như lỗi quá nhiệt trên một dòng chip mới. Agent sẽ tự động sử dụng công cụ tìm kiếm để quét qua các diễn đàn công nghệ, mạng xã hội để tổng hợp các trường hợp báo lỗi, sau đó đối chiếu với tài liệu kỹ thuật nội bộ của hãng để phân tích nguyên nhân tiềm năng.

Hơn thế nữa, khả năng chạy code Python của Agentic RAG cho phép nó tự động hóa việc vẽ các biểu đồ so sánh hiệu năng từ các bảng số liệu thô (benchmark CSV), tạo ra các hình ảnh trực quan chất lượng cao để chèn trực tiếp vào bài viết. Quy trình này giúp tiết kiệm hàng giờ đồng hồ thao tác thủ công, cho phép đội ngũ nội dung tập trung vào việc kể chuyện và phân tích sâu sắc hơn.
CleanShot 2026-01-08 at 11.55.44@2x.jpg
Không chỉ giới hạn ở mảng nội dung, sức mạnh của siêu máy tính ASUS Ascent GX10 còn mở ra những khả năng ứng dụng mới cho các phòng ban khác trong doanh nghiệp vừa và nhỏ. Đối với đội ngũ kinh doanh và bán hàng (Sales), Agentic RAG có thể biến thành một trợ lý tình báo thị trường sắc bén. Thay vì tốn thời gian google thủ công giá bán của đối thủ, nhân viên kinh doanh có thể yêu cầu Agent thực hiện một khảo sát nhanh về giá cả của các sản phẩm cạnh tranh trên thị trường hiện tại, sau đó đối chiếu với chính sách chiết khấu nội bộ được lưu trữ trong cơ sở dữ liệu vector để đề xuất một mức giá chào hàng tối ưu nhất cho khách hàng B2B.

Khả năng tổng hợp thông tin đa chiều từ cả nguồn public (giá thị trường) và nguồn private (chính sách công ty) giúp đội ngũ sales đưa ra các quyết định đàm phán dựa trên dữ liệu thực tế (Data-driven) chứ không chỉ dựa vào cảm tính.
CleanShot 2026-01-08 at 11.55.27@2x.jpg
Agentic RAG cũng có thể giúp cho đội ngũ dev có thể yêu cầu AI tự động tìm kiếm các lỗ hổng bảo mật mới được công bố trên các cơ sở dữ liệu an ninh mạng uy tín và quét qua mã nguồn hiện tại để cảnh báo sớm các rủi ro tiềm ẩn.

Tạm kết

CleanShot 2026-01-08 at 11.53.23@2x.jpg

Nhìn rộng ra, việc đầu tư vào một thiết bị như ASUS Ascent GX10 và triển khai song song hai hệ thống RAG này không chỉ là một quyết định nâng cấp phần cứng đơn thuần, mà là một bước chuyển mình chiến lược về cách thức vận hành doanh nghiệp. Nó đánh dấu sự chuyển dịch từ việc "sử dụng AI" như một dịch vụ thuê ngoài sang việc "sở hữu AI" như một tài sản cố định.

Các doanh nghiệp bây giờ sẽ ít bị phụ thuộc vào hạn ngạch sử dụng, tốc độ đường truyền internet hay chính sách bảo mật của các ông lớn công nghệ. Mọi dữ liệu, mọi quy trình xử lý, mọi tri thức được sinh ra từ AI đều nằm trọn vẹn trong khuôn viên văn phòng, được bảo vệ bởi lớp vỏ vật lý của máy chủ và các giao thức mạng nội bộ.

Sản phẩm được phân phối bởi Nhất Tiến Chung - Nhà cung cấp giải pháp hạ tầng CNTT, anh em quan tâm sản phẩm có thể tham khảo tại đây.

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn