
Mời anh em theo dõi tường thuật trực tiếp về sự kiện Zalo AI - Việt Nam trong kỷ nguyên AI đang diễn ra tại VNG Campus vào ngày hôm nay (20/12). Mình sẽ tường thuật những điểm đáng chú ý nhất của sự kiện này trong bài này anh em nhé.
Anh em xem live tại đây.
Mở đầu sự kiện là phát biểu của anh Nguyễn Minh Tú, CTO của Zalo về việc AI, AI Agents và việc Việt Nam bước vào kỷ nguyên AI như thế nào. Việt Nam đã bắt đầu tiếp xúc AI từ sớm và cũng đã có những bước chuẩn bị cho các thế hệ trẻ tiếp xúc với AI và thực tế nó đã được các bạn học sinh sinh viên đón nhận nồng nhiệt qua các công cụ từ các nhà cung cấp lớn như Google, OpenAI, Claude…
Anh em xem live tại đây.
Mở đầu sự kiện là phát biểu của anh Nguyễn Minh Tú, CTO của Zalo về việc AI, AI Agents và việc Việt Nam bước vào kỷ nguyên AI như thế nào. Việt Nam đã bắt đầu tiếp xúc AI từ sớm và cũng đã có những bước chuẩn bị cho các thế hệ trẻ tiếp xúc với AI và thực tế nó đã được các bạn học sinh sinh viên đón nhận nồng nhiệt qua các công cụ từ các nhà cung cấp lớn như Google, OpenAI, Claude…
Mul-ti Agent AI và nó sẽ thay đổi thế giới ra sao?
PGS.TS Quản Thành Thơ, Giảng viên Khoa học máy tính tại Đại học Bách Khoa chia sẻ về AI Agent, LLM và thế giới AI đã phát triển đến như thế nào. Cột mốc chính của AI bắt đầu khi Foundation model Transformer ra đời vào năm 2017 và nó chính là nền móng cho AI sau này.
Roadmap của AI trước Deep learning và sau Deep learning. Như PGS.TS đã nói, cột mốc của LLM và AI mà chúng ta biết ngày nay là từ khi Foundation model Transformer ra đời vào năm 2017, sau đó là những LLM được phát triển từ Transformer ra đời.
Sự khác biệt cơ bản giữa AI Agents và Agentic AI nằm ở mức độ tự chủ (autonomy) và khả năng phối hợp. AI Agents là "người thực thi", giỏi làm một việc cụ thể khi được ra lệnh. Còn Agentic AI là "người quản lý/hệ thống", biết tự lên kế hoạch, phối hợp nhiều Agents khác để giải quyết một mục tiêu lớn.
Thay vì một AI làm tất cả, hệ thống chia nhỏ việc cho các AI chuyên biệt: một con chuyên tìm kiếm, một con chuyên viết lách, một con chuyên kiểm tra lỗi…. Chúng "nói chuyện" với nhau để ra kết quả tốt nhất mà không cần con người can thiệp vào từng bước nhỏ.
Một quy trình khép kín của Agentic AI và chặt chẽ bắt đầu từ phía người dùng (User) gửi tín hiệu tương tác đến hệ thống, tại đây mô hình ngôn ngữ lớn (LLM) đóng vai trò là bộ vi xử lý trung tâm chịu trách nhiệm tiếp nhận và phân tích logic. Để đảm bảo độ chính xác cho các quyết định, LLM không hoạt động độc lập mà liên tục truy xuất dữ liệu từ hai nguồn lưu trữ là cơ sở dữ liệu truyền thống (Database) và cơ sở dữ liệu vector (Vector Database) trước khi đưa ra một hành động cụ thể (Action).
Điểm mấu chốt tạo nên sự thông minh của kiến trúc này nằm ở cơ chế "Feedback Loop" (vòng lặp phản hồi) giúp hệ thống tự đánh giá và học hỏi từ kết quả đầu ra, kết hợp cùng khả năng "Model Customization" cho phép tinh chỉnh mô hình chuyên biệt, từ đó tạo ra một tác nhân AI có khả năng thích nghi và tự tối ưu hóa liên tục trong quá trình phục vụ con người.
Quảng cáo
Thực tế có rất nhiều vấn đề phức tạp mà một AI Agent đơn lẻ không thể giải quyết trọn vẹn. Các nhiệm vụ lớn thường đòi hỏi sự chuyên môn hóa cao (mỗi agent giỏi một việc) và cần được thực hiện song song để tiết kiệm thời gian. Do đó, hệ thống MAS ra đời với ba ưu điểm chính.
Đầu tiên là chia nhỏ một vấn đề lớn thành các phần nhỏ giao cho từng agent phù hợp, tiếp đến là các agent cùng làm việc một lúc thay vì chờ đợi nhau theo tuần tự, giúp tăng hiệu suất. Tiếp theo đó là hệ thống có khả năng kiểm tra chéo (cross-checking) và dự phòng, nếu một agent gặp lỗi, các agent khác có thể hỗ trợ hoặc sửa sai.
Sự thông minh của Agentic AI so với các phần mềm tự động hóa cũ đó là nó Hoạt động như một đội ngũ nhân sự. Các Agent liên tục quan sát môi trường xung quanh, tự đưa ra quyết định cục bộ (local decisions) và cập nhật trạng thái động. Sự phối hợp giữa chúng không phải do cài đặt cứng, mà nảy sinh thông qua quá trình giao tiếp và phản hồi (feedback) lẫn nhau.
Các use case thực tế từ các doanh nghiệp ở Việt Nam đã có và ngay cả trong môi trường học đường như khoa khoa học máy tính của trường Đại học Bách Khoa đã có những hệ thống để hỗ trợ các bạn sinh viên có nhu cầu tìm hiểu về ngành học, về trường Đại học Bách Khoa.
Quảng cáo
Kết lại, phần chia sẻ của PGS.TS Quản Thành Thơ cho chúng ta thấy được về Multi-Agent System (MAS) là gì và nó sẽ giúp ích gì cho thế giới chúng ta. Thay vì dựa vào một trợ lý ảo duy nhất cố gắng làm mọi thứ, hệ thống đa tác nhân sử dụng nhiều AI chuyên biệt hoạt động song song. Việc phân chia công việc này giúp các vấn đề phức tạp được giải quyết nhanh hơn và sâu sắc hơn nhiều so với trước đây. Từ tư duy sang hành động, đây là bước tiến lớn nhất: AI không còn dừng lại ở việc đưa ra câu trả lời (answers) trên màn hình. Các đội ngũ agent giờ đây có thể tự lên kế hoạch (plan), sử dụng công cụ để thực thi, kiểm tra kết quả và lặp lại quy trình cho đến khi hoàn thành mục tiêu thực tế (outcomes).
Một điểm yếu của AI truyền thống là hay bị "ảo giác". Với hệ thống đa tác nhân, các agent có khả năng phản biện và kiểm toán lẫn nhau. Agent này làm, agent kia kiểm tra, giúp giảm thiểu các điểm mù và khiến kết quả đầu ra trở nên đáng tin cậy hơn, đủ an toàn để áp dụng cho các quy trình quan trọng. Ở tầm vĩ mô, các tổ chức sẽ sở hữu một "lực lượng lao động có thể lập trình được". Điều này sẽ định hình lại cách các công ty vận hành và thay đổi vai trò của con người: chúng ta sẽ chuyển từ người trực tiếp làm việc sang vai trò tập trung vào đánh giá, đặt mục tiêu và quản trị.
Làn sóng Physical AI
Là bài chia sẻ của Dr. Trần Minh Quân từ NVIDIA, cho thấy làn sóng Physical AI sẽ phải xảy đến và tương lai con người sẽ dùng Robot để hỗ trợ cho công việc, những công việc nguy hiểm và ảnh hưởng đến sức khỏe con người.
Tiến sĩ Trần Minh Quân nhấn mạnh sự chuyển dịch từ Generative AI sang Physical AI (AI vật lý - AI điều khiển robot, máy móc trong thế giới thực). Để làm được điều này, thế giới cần một hạ tầng tính toán mới - chính là các "AI Factory" vận hành bởi các siêu chip của NVIDIA.
Cột mốc khởi đầu của kỷ nguyên Deep Learning hiện đại với sự ra đời của kiến trúc mạng neron AlexNet, chứng minh sức mạnh của GPU trong việc huấn luyện AI. Giai đoạn AI học cách cảm nhận thế giới thông qua các giác quan số. Các ứng dụng tiêu biểu là nhận diện giọng nói (Speech Recognition), thị giác máy tính (Deep ResNet) và phân tích hình ảnh y tế (Medical Imaging).
Generative AI làn sóng hiện tại mà chúng ta đang trải qua. AI không chỉ nhận biết mà còn có khả năng sáng tạo nội dung mới, ứng dụng mạnh mẽ trong digital marketing và sáng tạo nội dung. Giai đoạn tiếp theo chính là Agentic AI, AI trở thành các trợ lý đắc lực có khả năng tư duy và thực hiện tác vụ phức tạp như hỗ trợ lập trình, chăm sóc khách hàng hay chăm sóc bệnh nhân. Đích đến cuối cùng trên lộ trình này. Đây là sự kết hợp giữa "bộ não" AI tiên tiến và "cơ thể" vật lý. AI sẽ thoát khỏi màn hình máy tính để điều khiển các thực thể trong thế giới thực như xe tự hành và robot đa năng.
Physical AI là việc mang "trí khôn" của các mô hình nền tảng (Foundation Models) vào "cơ thể" của máy móc, biến chúng từ những cỗ máy tự động cứng nhắc thành các thực thể tự chủ linh hoạt.
Thay vì chỉ nhập văn bản, hệ thống tiếp nhận dữ liệu đa phương thức từ thế giới thực (hình ảnh camera, dữ liệu cảm biến Lidar, nhiệt độ...). Dữ liệu này được chuyển đổi thành image tokens và text tokens. Đây là "bộ não" trung tâm. Khác với các mô hình ngôn ngữ lớn chỉ hiểu ngữ pháp, mô hình này phải hiểu được các quy luật vật lý (trọng lực, ma sát, va chạm, không gian 3D) để đưa ra quyết định an toàn và chính xác. Đây là khái niệm quan trọng nhất mà NVIDIA nhấn mạnh. Thay vì xuất ra một câu trả lời (text), mô hình xuất ra các action tokens. Các token này là các lệnh điều khiển kỹ thuật số để vận hành các khớp nối robot, bánh xe, hoặc cánh tay máy.
NVIDIA không chỉ cung cấp một con chip đơn lẻ mà đang kiến tạo một hệ sinh thái phần cứng toàn diện gồm ba giai đoạn khép kín để hiện thực hóa AI vật lý.
Đầu tiên là giai đoạn mô phỏng, nơi các robot được "sinh ra" và học tập trong môi trường ảo trước khi bước ra thế giới thực. Tại đây, NVIDIA sử dụng các máy trạm đồ họa chuyên nghiệp RTX PRO vận hành nền tảng NVIDIA Omniverse và các mô hình vật lý Cosmos. Mục tiêu của giai đoạn này là tạo ra các bản sao kỹ thuật số, cho phép robot học cách di chuyển, cầm nắm và tương tác với các định luật vật lý mà không gây nguy hiểm hay tốn kém chi phí sửa chữa phần cứng thực tế.
Tiếp theo là giai đoạn huấn luyện (Train), đóng vai trò như một "nhà máy tri thức". Dữ liệu khổng lồ thu được từ quá trình mô phỏng sẽ được chuyển về các siêu máy tính AI sử dụng hệ thống NVIDIA DGX và HGX. Đây là nơi diễn ra các tác vụ tính toán nặng nhất để xây dựng nên các mô hình nền tảng (Foundation Models), giúp nén hàng nghìn giờ học trong môi trường ảo thành trí thông minh cô đọng mà robot có thể sử dụng.
Cuối cùng là giai đoạn triển khai (deploy), nơi trí tuệ nhân tạo được nạp vào chính cơ thể của robot. Phần cứng được sử dụng ở đây là NVIDIA Jetson Thor AGX, một hệ thống trên chip (SoC) được thiết kế chuyên biệt cho robot hình nhân. Con chip này đóng vai trò là "bộ não tại chỗ", vừa phải đảm bảo hiệu năng xử lý các mô hình Transformer đa phương thức phức tạp, vừa phải tiết kiệm năng lượng để điều khiển hệ thống vận động của robot trong thời gian thực. Ba hệ thống máy tính này tạo thành một vòng lặp liên tục: mô phỏng để sinh dữ liệu, siêu máy tính để học và chip nhúng để hành động.
Zalo AI
Về Zalo AI đã trở thành công cụ giao tiếp thiết yếu giữa tài xế và khách hàng. Cụ thể, trên nền tảng Grab, tính năng Dictation (chuyển giọng nói thành văn bản) đã trở thành công cụ đắc lực với trung bình 7,5 triệu người sử dụng mỗi tháng, bên cạnh 2,5 triệu người dùng tính năng dịch thuật AI để xóa bỏ rào cản ngôn ngữ. Song song đó, ở mảng ô tô thông minh, trợ lý giọng nói tiếng Việt Kiki Auto sau gần 5 năm phát triển đã đạt cột mốc 1,4 triệu lượt cài đặt và sử dụng thực tế, khẳng định vị thế không thể thiếu trên các bảng điều khiển xe hơi hiện nay.
Sự hiện diện của AI không chỉ giới hạn ở các tiện ích cá nhân mà còn mở rộng sang khu vực hành chính công với sự ra đời của "Trợ lý công dân số". Chỉ trong vòng 3 tháng ngắn ngủi kể từ khi ra mắt, ứng dụng này đã nhanh chóng thu hút 350 nghìn người sử dụng và tiếp nhận xử lý hơn 600 nghìn câu hỏi từ người dân, cho thấy nhu cầu rất lớn về việc số hóa thủ tục hành chính.
Các diễn giả Tiến sĩ Châu Thành Đức và Tiến sĩ Nguyễn Trường Sơn đã trình bày chi tiết về chuyên đề "AI-fication in Vietnam" với trọng tâm là các bài học thực tiễn từ Zalo, mở đầu bằng việc định nghĩa "AI-fication" là quá trình tích hợp sâu rộng trí tuệ nhân tạo vào các quy trình, sản phẩm và dịch vụ thường nhật nhằm tối ưu hóa hiệu quả ra quyết định.
Xu hướng này được thúc đẩy bởi bốn động lực cốt lõi gồm sự nâng cấp mạnh mẽ của phần cứng và hạ tầng mạng, những bước tiến vượt bậc trong thuật toán mô hình AI, sự bùng nổ về dữ liệu quy mô lớn và nhu cầu cấp thiết của chuyển đổi số trong doanh nghiệp. Tại Việt Nam, các điều kiện để hiện thực hóa kỷ nguyên này đang rất thuận lợi nhờ nguồn nhân lực chất lượng cao từ các chương trình đào tạo khoa học dữ liệu tại các trường đại học, hành lang pháp lý vững chắc với Chiến lược quốc gia về AI và Luật Công nghiệp Công nghệ số dự kiến ban hành năm 2025, cùng mức độ sẵn sàng cao của cộng đồng công nghệ trong nước.
Làn sóng AI-fication đã thâm nhập sâu vào nhiều ngành kinh tế mũi nhọn tại Việt Nam với những thành công bước đầu rất cụ thể. Trong lĩnh vực y tế, AI đang hỗ trợ đắc lực cho chẩn đoán hình ảnh và phát hiện bệnh sớm tại các bệnh viện lớn như Vinmec hay Bạch Mai; mảng Fintech chứng kiến sự tham gia của MoMo, Zalopay trong việc dùng AI phát hiện gian lận và đánh giá rủi ro tín dụng; ngành thương mại điện tử với Shopee, Tiki tối ưu hóa trải nghiệm mua sắm qua các hệ thống gợi ý cá nhân hóa; đồng thời các tập đoàn công nghệ như FPT, Viettel, VNPT cũng đang ứng dụng mạnh mẽ AI để tự động hóa quy trình phát triển phần mềm và vận hành tổng đài chăm sóc khách hàng thông minh.
Riêng đối với Zalo, hành trình phổ cập AI đã được khởi động từ năm 2017 và phát triển liên tục qua các cột mốc như ra mắt trợ lý Kiki vào năm 2020, áp dụng eKYC năm 2021, cho đến các tính năng Generative AI hiện đại như tạo ảnh avatar, làm thơ năm 2023 và hướng tới các mục tiêu năm 2025 như dịch tin nhắn thời gian thực hay tìm kiếm bằng hình ảnh.
Chiến lược của Zalo được chia thành hai trụ cột chính là AI phục vụ hiệu suất công việc và AI dành cho đại chúng. Với mục tiêu hiệu suất, họ triển khai các trợ lý lập trình (AI code assistant) giúp tạo và tối ưu mã nguồn, hệ thống chatbot hỗ trợ khách hàng 24/7 và công cụ duyệt quảng cáo tự động để đảm bảo tuân thủ chính sách nội dung.
Ở trụ cột AI dành cho người dùng cuối (AI for Everyone), Zalo đã tạo ra một hệ sinh thái tiện ích thiết thực bao gồm Kiki Auto giúp tài xế tương tác rảnh tay, Kiki Info để tra cứu kiến thức tổng quát, tính năng chuyển đổi giọng nói thành văn bản (Voice-to-Text) và đặc biệt là "Trợ lý công dân số" hỗ trợ giải đáp thủ tục hành chính công.
View attachment 8453567
Tiến sĩ Nguyễn Trường Sơn đã mở đầu phần trình bày về những rào cản thực tế khi triển khai các mô hình ngôn ngữ lớn tại Việt Nam bằng việc chỉ ra bốn thách thức trọng yếu bao gồm bài toán lựa chọn mô hình để đảm bảo chất lượng ổn định trong môi trường thực tế, áp lực cân bằng giữa hiệu suất xử lý và chi phí vận hành, sự kỳ vọng ngày càng khắt khe của người dùng đại chúng về chất lượng đầu ra, và cuối cùng là yêu cầu cấp thiết về an toàn tin cậy nhằm ngăn chặn các nội dung độc hại hoặc rủi ro lạm dụng hệ thống.
View attachment 8453566
Zalo áp dụng cách tiếp cận linh hoạt nhưng kiên định với mục tiêu tự chủ công nghệ. Mặc dù các API từ bên thứ ba như OpenAI hay Google mang lại lợi thế về tốc độ tạo mẫu (prototyping) và triển khai đơn giản, chúng lại bộc lộ điểm yếu về bảo mật dữ liệu và sự phụ thuộc; do đó, Zalo xác định AI là công nghệ lõi và ưu tiên phát triển các mô hình nội bộ (in-house) hoặc tinh chỉnh (fine-tuning) để đảm bảo quyền kiểm soát dữ liệu và tính riêng tư, chỉ sử dụng giải pháp bên ngoài cho các bước thử nghiệm ngắn hạn.
Đối với vấn đề kỹ thuật nan giải là sự thiếu nhất quán và khó kiểm soát chất lượng đầu ra, chẳng hạn như việc mô hình trả lời khác nhau khi thay đổi câu lệnh hoặc diễn đạt tiếng Việt kém tự nhiên, nhóm kỹ sư xác định fine-tuning là phương pháp thực hành tốt nhất. Quy trình này được tối ưu hóa bằng kỹ thuật chắt lọc tri thức từ các mô hình lớn sang các mô hình nhỏ (SLM), đồng thời khắc phục sự thiếu hụt dữ liệu sạch bằng cách dùng chính các LLM tiên tiến để tạo dữ liệu tổng hợp (synthetic data) dưới sự giám sát và kiểm định chặt chẽ của con người.
Để xử lý hiện tượng "ảo giác" (hallucination) khiến AI cung cấp thông tin sai lệch hoặc lỗi thời, ví dụ như sai ngày mất của nhân vật lịch sử, chúng ta có thể triển khai kiến trúc RAG (Retrieval-Augmented Generation) với trọng tâm cải thiện bộ truy xuất thông tin. Hệ thống được thiết lập để chỉ khai thác các nguồn dữ liệu tin cậy, bắt buộc câu trả lời phải kèm trích dẫn nguồn và trải qua bước hậu kiểm định nhằm đảm bảo độ chính xác cao nhất cho người dùng.
Tiến sĩ Nguyễn Trường Sơn nhấn mạnh rằng dù có áp dụng nhiều phương pháp tối ưu, AI vẫn không thể hoàn hảo tuyệt đối và luôn tồn tại rủi ro đưa ra câu trả lời thiếu nhất quán hoặc ảo giác; do đó, giải pháp thực tế nhất là áp dụng mô hình "lai" (Hybrid) kết hợp giữa hệ thống dựa trên luật (rule-based) cứng nhắc nhưng an toàn với sự linh hoạt của mô hình AI.
Để kiểm soát rủi ro trong môi trường thực tế, đội ngũ kỹ thuật luôn duy trì một thành phần hot-fix component để xử lý nhanh các tình huống ngoại lệ và thiết lập quy trình giám sát chặt chẽ nhằm thu hẹp khoảng cách giữa kết quả trong phòng thí nghiệm với trải nghiệm người dùng thực, đặc biệt là sử dụng chính LLM để đóng vai trò giám khảo, chấm điểm và theo dõi hiện tượng trôi mô hình (model drift) theo thời gian.
Đối với bài toán tối ưu hóa chi phí vận hành và hiệu năng, một yếu tố sống còn khi triển khai diện rộng, người ta có thể ưu tiên sử dụng các mô hình ngôn ngữ nhỏ (SLM) thay vì chạy đua vũ trang với các siêu mô hình đắt đỏ. Sự kết hợp giữa việc xác định đúng tác vụ, chọn mô hình nhỏ phù hợp và fine-tuning bằng nguồn dữ liệu chất lượng cao. Thực tế chứng minh các mô hình nhỏ từ 3B đến 13B tham số hoàn toàn có thể cạnh tranh sòng phẳng với các mô hình 70B trong các tác vụ phân loại hay tóm tắt, thậm chí các mô hình cực nhỏ 0.1B hay 1B đã đủ sức vận hành tốt các tính năng như NLP trên Kiki Auto hay tìm kiếm hình ảnh, giúp giảm kích thước mô hình từ 5 đến 20 lần.
Cuối cùng, để giải quyết vấn đề chi phí tính toán trên từng đơn vị dữ liệu (token cost), giải pháp được đưa ra là tối ưu hóa kỹ thuật xử lý ngữ cảnh (context Engineering) bằng cách cải thiện bộ truy xuất (Retriever) để lọc và xếp hạng lại thông tin, tránh việc nạp quá nhiều dữ liệu thừa vào đầu vào. Hệ thống cũng được thiết kế thông minh để phân loại độ khó của yêu cầu. Với những câu hỏi đơn giản mang tính tra cứu như "thủ tục làm giấy khai sinh", AI sẽ trả lời trực tiếp để tiết kiệm tài nguyên và chỉ kích hoạt chế độ suy luận sâu tốn kém hơn cho các tác vụ phức tạp đòi hỏi tư duy nhiều bước như "tạo infographic so sánh sản phẩm", đảm bảo cân bằng giữa trải nghiệm người dùng và hiệu quả kinh tế.
Đối với thách thức sống còn về an toàn và niềm tin, Zalo đã thiết lập một hệ thống phòng vệ đa lớp (multi-layer protection system) kiểm soát chặt chẽ luồng dữ liệu từ đầu vào đến đầu ra, đảm bảo ngăn chặn tuyệt đối các nội dung độc hại hoặc vi phạm chính sách như hướng dẫn chế tạo vũ khí trước khi câu trả lời đến tay người dùng.
Tổng kết lại lộ trình phát triển, chiến lược của Zalo là sự kết hợp linh hoạt giữa việc sử dụng các mô hình SOTA có sẵn để tạo mẫu nhanh và chuyển sang tinh chỉnh các mô hình nhỏ (SLM) kết hợp RAG để tối ưu hóa chi phí, hiệu năng và tính nhất quán cho sản phẩm dài hạn. Bài tham luận khép lại với thông điệp mạnh mẽ rằng Việt Nam đã hoàn toàn sẵn sàng cho kỷ nguyên AI-fication. Dù đang ở giai đoạn đầu với nhiều thách thức về quy mô, chìa khóa thành công sẽ nằm ở việc kiểm soát chất lượng khắt khe, tối ưu hóa dịch vụ và xây dựng được rào chắn an toàn vững chắc cho người dùng.
Chip bán dẫn đằng sau sự bùng nổ AI
Tiếp nối chương trình là phần trình bày của Tiến sĩ Phạm Hy Hiếu đến từ OpenAI với chủ đề về "cơn sóng ngầm" chip bán dẫn đằng sau sự bùng nổ của AI. Ông bắt đầu bằng bức tranh toàn cảnh thị trường nơi NVIDIA đang thống trị tuyệt đối với giá trị vốn hóa đạt 4,5 nghìn tỷ USD, vượt qua cả các gã khổng lồ như Apple, Google và Meta để trở thành công ty công nghệ giá trị nhất thế giới. Biểu đồ tài chính cho thấy cổ phiếu NVIDIA đã tăng trưởng thần tốc 14,3 lần kể từ cột mốc ChatGPT ra mắt vào tháng 11/2022, minh chứng cho việc hãng này là người hưởng lợi lớn nhất khi cung cấp "cuốc xẻng" cho cơn sốt đào vàng AI toàn cầu.
Đi sâu vào bản chất kỹ thuật của các vi xử lý này, Tiến sĩ Hiếu giải thích rằng nhiệm vụ cốt lõi của chip AI khi vận hành các mô hình như ChatGPT hay Gemini thực chất là xử lý các phép tính nhân ma trận. Cấu trúc của một con chip AI dành tới 80% tài nguyên cho việc nhân ma trận và 20% còn lại cho tính tương thích, do đó thành phần quan trọng nhất trên tấm silicon chính là các khối xử lý chuyên dụng mà NVIDIA gọi là Tensor Core còn Google gọi là Matrix Core.
Xung quanh các nhân tính toán chủ lực này là hệ thống các nhân CUDA để xử lý các phép toán thông thường khác, các module bộ nhớ dung lượng lớn để lưu trữ tham số và hệ thống giao tiếp tốc độ cao như NVLink giúp các GPU có thể truyền tải dữ liệu qua lại nhằm vận hành đồng bộ như một siêu máy tính nhất thể.
Tiếp nối mạch phân tích về thị trường phần cứng, Tiến sĩ Phạm Hy Hiếu đi sâu vào sự chuyển dịch mang tính lịch sử trong nhu cầu tính toán của AI, chuyển trọng tâm từ "Training" sang "Inference" (suy luận). Biểu đồ lịch sử điện toán AI cho thấy trong giai đoạn đầu với GPT-3 hay thời điểm ChatGPT mới ra mắt, năng lực tính toán chủ yếu dồn vào việc huấn luyện các mô hình khổng lồ; tuy nhiên, khi bước sang kỷ nguyên của GPT-4 và các thế hệ AI "biết suy nghĩ" (Reasoning models) hay các tác nhân AI (Agents) hoạt động liên tục, cán cân đã thay đổi hoàn toàn. Nhu cầu về chip suy luận (Inference chips) đang tăng vọt và dự kiến sẽ áp đảo chip huấn luyện, bởi lẽ việc huấn luyện chỉ diễn ra một lần nhưng việc chạy suy luận để phục vụ hàng tỷ người dùng lại diễn ra hàng giây hàng phút.
Sự bùng nổ của nhu cầu suy luận dẫn đến sự ra đời của ý tưởng về các nền tảng suy luận chuyên biệt hóa, nơi CEO NVIDIA dự đoán quy mô sẽ lớn hơn nhiều so với mảng huấn luyện. Quá trình suy luận không chỉ bó hẹp trong các trung tâm dữ liệu mà đang lan tỏa mạnh mẽ ra vùng biên (Edge) của mạng lưới: từ các hệ thống tự lái FSD trên xe Tesla, robotaxi Waymo, cho đến laptop, điện thoại, đồng hồ thông minh và thậm chí là các thiết bị cấy ghép vào cơ thể người. Mỗi nền tảng mục tiêu này đều đòi hỏi sự tối ưu hóa riêng biệt về điện năng, độ trễ và kích thước, tạo ra vô số bài toán kỹ thuật mới chưa có lời giải.
Để giải quyết các bài toán này mà không cần đầu tư hàng tỷ USD vào các nhà máy đúc chip (foundry), Tiến sĩ Hiếu đề xuất hướng đi Software/Hardware Co-design. Đây là sân chơi của các công nghệ biên dịch tiên tiến như LLVM, MLIR và các ngôn ngữ lập trình nhân (kernel programming) như Triton của OpenAI hay JAX/XLA của Google giúp khai thác tối đa sức mạnh phần cứng.
Đồng thời, sự xuất hiện của các kiến trúc mạng neron mới lạ như Mamba, SSM (State Space Models) hay MoE (Mixture of Experts) đang mở ra cơ hội thiết kế những con chip chuyên biệt hỗ trợ trực tiếp các cơ chế này. Ví dụ như NVIDIA có thể làm chip hỗ trợ riêng cho thuật toán Attention thay vì chỉ dùng các kiến trúc GPU đa dụng truyền thống.
Kết lại, Tiến sĩ Phạm Hy Hiếu cho biết thay vì đối đầu trực diện trong việc sản xuất silicon vốn tốn kém, Việt Nam đang đứng trước cơ hội lớn để tham gia vào chuỗi giá trị ở những khâu đòi hỏi hàm lượng chất xám cao như thiết kế các nền tảng suy luận chuyên biệt hoặc tham gia vào "trò chơi" đồng thiết kế phần mềm/phần cứng.
Zalo AI Challenge
Phần tiếp theo của sự kiện tập trung vào "Zalo AI Challenge 2025" với bài toán thực tế mang tên "RoadBuddy", thách thức các kỹ sư AI xây dựng hệ thống có khả năng thấu hiểu và phân tích tình huống giao thông qua camera hành trình. Đề bài yêu cầu mô hình phải xử lý đầu vào là các video ngắn từ 5 đến 15 giây ghi lại bối cảnh giao thông đa dạng tại Việt Nam, từ đô thị đến cao tốc, bất kể ngày đêm hay mưa nắng, sau đó trả lời chính xác câu hỏi của người dùng dựa trên sự tuân thủ nghiêm ngặt Luật giao thông đường bộ Việt Nam hiện hành.
Hiệu năng của các giải pháp được đánh giá dựa trên bộ dữ liệu gồm khoảng 2.500 video chia thành các tập huấn luyện và kiểm thử, với tiêu chí chấm điểm khắt khe kết hợp giữa độ chính xác của nội dung trả lời và tốc độ xử lý của thuật toán.
Đi sâu vào giải pháp kỹ thuật, các đội thi đã triển khai quy trình xử lý tiên tiến dựa trên các mô hình ngôn ngữ thị giác (VLM) như Qwen3-VL với kích thước tham số 4B và 8B, kết hợp cùng các mô hình bổ trợ chuyên biệt để nâng cao độ chính xác. Hệ thống được tối ưu hóa thông qua việc sử dụng YOLO để phát hiện và khoanh vùng vật thể giao thông, dùng CLIP để chọn lọc thông minh từ 3 đến 10 khung hình (frames) có liên quan nhất đến câu hỏi thay vì xử lý toàn bộ video, đồng thời tích hợp cơ chế nhận diện biển báo giao thông thông qua mô hình nhúng truy xuất từ cơ sở dữ liệu.
Nhờ các kỹ thuật quantization và fine-tuning, giải pháp này đã cải thiện đáng kể so với mức độ chính xác cơ sở là 48% và kết quả chung cuộc, đội thi xuất sắc giành giải Á quân đã nhận được phần thưởng trị giá 2.500 USD cho những nỗ lực chinh phục bài toán thị giác máy tính đầy thách thức này.
Khoảnh khắc vinh danh đội quán quân xuất sắc nhất với phần thưởng trị giá 3.500 USD cho giải pháp tối ưu nhất giải quyết bài toán "RoadBuddy".
Nội dung tiếp theo của sự kiện chuyển sang bài toán thách thức thứ hai mang tên "AeroEyes" với mục tiêu nhân văn là ứng dụng AI hỗ trợ công tác tìm kiếm và cứu nạn thông qua thiết bị bay không người lái.
Tại vòng loại diễn ra từ cuối tháng 10 đến cuối tháng 11, các đội thi phải xây dựng mô hình thị giác máy tính để phát hiện vật thể dựa trên dữ liệu đầu vào gồm 3 ảnh mẫu vật thể và video quay từ drone, với yêu cầu đầu ra là xác định chính xác vị trí vật thể trong video thông qua các khung bao (bounding boxes).
Hệ thống đánh giá hiệu năng dựa trên chỉ số ST-IoU (Spatio-Temporal Intersection over Union), một thước đo phức tạp đòi hỏi sự chính xác đồng thời cả về không gian (vị trí khung hình) và thời gian (sự liên tục qua các frame) trên các tập dữ liệu kiểm thử gồm nhiều video và vật thể khác nhau.
Độ khó và tính thực tiễn được đẩy lên cao nhất tại vòng chung kết khi các giải pháp phần mềm phải được tích hợp trực tiếp lên drone thật để vận hành hệ thống tìm kiếm trọn vẹn. Lúc này, bài toán không chỉ dừng lại ở nhận diện hình ảnh mà còn mở rộng sang việc lập trình chiến thuật bay tối ưu đường dẫn để drone có thể quét khu vực và tìm ra mục tiêu nhanh nhất.
Tiêu chí chấm điểm dựa trên thời gian thực tế để drone phát hiện vật thể, trong đó một lần phát hiện thành công được định nghĩa là khi drone zoom cận cảnh vào đối tượng và duy trì trong 1 giây. Kết thúc hạng mục đầy thử thách này, ban tổ chức đã trao giải Á quân với phần thưởng 2.500 USD cho nhóm tác giả có giải pháp kết hợp hiệu quả nhất giữa thuật toán AI và kỹ thuật điều khiển drone.
==***==
==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
---
Khóa học Hacker và Marketing từ A-Z trên ZALO!
Khóa học Hacker và Marketing từ A-Z trên Facebook!
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP
Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Khóa học hướng dẫn về Moodle chuyên nghiệp và hay Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.
Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình kiếm tiền Youtube bằng phần mềm Camtasia Studio Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công ==***== Bảo hiểm nhân thọ - Bảo vệ người trụ cột Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Bảo mật và tấn công Website - Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp
Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu
Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel
Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
GOOGLE SPREADSHEETS phê không tưởng
Hãy tham gia khóa học để biết mọi thứ
Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Để thành thạo Wordpress bạn hãy tham gia khóa học
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
Nguồn: Tinh Tế
Topics: Công nghệ mới


































