Header ads

Header ads
» »Unlabelled »

Nuôi AI tốn kém cỡ nào?

Cuộc đua AI gần đây giữa những gã khổng lồ công nghệ đã tạo ra một phong trào khiến mình liên tưởng tới "thời đại hải tặc" trong One Piece. Đó là một cuộc đua đầy phấn khích, hướng tới những điều kỳ diệu, nhưng cũng ẩn chứa vô vàn thử thách. Và kẻ hưởng lợi đầu tiên mà chúng ta được chứng kiến gần đây chính là những công ty phần cứng, đại diện tiêu biểu là Nvidia - công ty vừa gia nhập câu lạc bộ vốn hóa nghìn tỷ đô.
Để có cái nhìn sâu sắc hơn đối với bức tranh rộng lớn hơn về sự phát triển của AI, mình sẽ tóm tắt giúp các bạn một bài chia sẻ của nhà đầu tư huyền thoại Andreesen Horowitz và các cộng sự (bạn có thể đọc bài gốc ở link cuối bài viết). Để hiểu Andreesen khủng cỡ nào, bạn có thể xem porfolio đầu tư của ông ấy ở LINK NÀY. Từ hơn 10 năm trước, ông đã nằm trong Top10 Midas List của Forbes (danh sách những bàn tay vàng của giới đầu tư thuộc lĩnh vực công nghệ). Giới đầu tư của thế giới không ai là không biết tới sức mạnh và kiến thức của Andreesen Horowitz và network của ông này. Vậy nên, chúng ta có thể tạm tin rằng những chia sẻ của ông ấy có một mức độ uy tín nhất định.

Chi phí phần cứng chiếm tới hơn 80% vốn đầu tư

Andreesen cho rằng đặc điểm nổi bật trong việc phát triển AI chính là sự quan hệ mật thiết với sức mạnh phần cứng của nó: Phần cứng mạnh hơn sẽ ngay lập tức giúp sản phẩm tốt hơn. Thông thường đối với các sản phẩm mới thì chi phí R&D sẽ tạo ra tác động lớn hơn trong việc nâng cao giá trị của sản phẩm, và đồ thị biểu thị mối quan hệ này gần như là một đường "gần thẳng" tuyến tính. Còn đối với giai đoạn phát triển AI hiện tại, yếu tố quan trọng nhất chỉ đơn giản là chi phí huấn luyện máy học và các phương pháp diễn dịch/suy luận của AI.

Các nguồn cung phần cứng chưa theo kịp tốc độ phát triển của AI khiến thị trường rất hạn chế (từ đó đẩy giá của Nvidia lên mây vì độ khan hiếm nguồn cung). Vậy nên, cuộc chiến sống còn hiện tại của các công ty A.I. chính là phải giành được nguồn cung về phần cứng với giá thấp nhất. Thực tế, rất nhiều báo cáo tài chính do Andreesen và cộng sự xem xét đã cho thấy các công ty đang sử dụng hơn 80% số tiền gọi vốn để đầu tư vào các chi phí điện toán.

Tại sao nuôi AI lại tốn kém phần cứng đến thế?

Tất nhiên là có nhiều mô hình phát triển AI khác nhau, sử dụng các phương pháp lấy dữ liệu, huấn luyện, diễn dịch, suy luận khác nhau, và quy mô cũng khác nhau. Từ đó, chi phí cho các mô hình này cũng rất khác nhau. Nhưng hầu hết đều phát triển dựa trên nền tảng là mô hình deep learning sử dụng phương pháp xử lý ngôn ngữ tự nhiên (NLP - Natural Language Processing) gọi chung là transfomer-based. Trên nền tảng đó, các AI nổi bật hiện nay đã phát triển thành các mô hình ngôn ngữ mở rộng (LLMs - Large Language Models), mà chúng ta có thể thấy các đại diện tiêu biểu là GPT-3, GPT-J, hay là BERT.

Trong hàng loạt yếu tố tham gia đóng góp tạo nên sức mạnh của một AI, thì yếu tố quan trọng nhất chính là số lượng tham số (parameter). Đó là lý do chúng ta thường nghe các công ty nhấn mạnh đến mức độ ưu việt của GPT-4 so với GPT-3 chính là vì mô hình mới có tới 100 nghìn tỷ tham số so với mô hình cũ chỉ có 175 tỷ, tức là gấp gần 600 lần.
Ngoài ra, một thông số cực kỳ quan trọng khác chính là số lượng token đầu vào và đầu ra. Token trong các mô hình ngôn ngữ tự nhiên chính là các chuỗi ký tự ngắn. Ví dụ với GPT-3, thì độ dài trung bình của mỗi token là 4 ký tự.

Một công thức được đơn giản hóa cho dễ hiểu chính là: Để một mô hình có [P] tham số xử lý một mô hình ngôn ngữ có token đầu vào và đầu ra là [N], thì cần năng lực tính toán bằng [6]x[N]x[P], đơn vị là FLOP (floating point operations). Con số [6] là tham số ước lượng, bao gồm 2 lần xử lý chiều thuận (forward pass) và 4 lần xử lý chiều nghịch (backward pass). Bạn có thể tính được yêu cầu phần cứng cần thiết dựa trên số lượng token cần xử lý (trong việc huấn luyện hoặc phục vụ người dùng) nhân với số lượng tham số mà mô hình AI đang sử dụng.
Chưa hết, bộ nhớ đóng vai trò rất quan trọng. Mọi việc xử lý điện toán đều cần lưu trên các bộ nhớ (bộ nhớ tạm hoặc/và bộ nhớ vĩnh viễn). Ví dụ: Giả sử dùng hệ thống tính toán 32-bit (8 byte/parameter) để huấn luyện một mô hình GPT-3 với 175 tỷ tham số, bộ nhớ tạm cần thiết sẽ lên tới hơn 1TB, và không có bất kỳ một GPU nào trên thị trường có thể đáp ứng nổi. Giải pháp là phải chia nhỏ ra trong một hệ thống rất nhiều GPU liên kết.
Vậy thì bạn có thể hình dung là với mỗi một nâng cấp nhỏ, sẽ cần nâng cấp phần cứng khủng cỡ nào để có thể chịu tải. Tất nhiên, đi kèm với đó sẽ là các thuật toán tối ưu hơn cho quá trình tính toán để tiết kiệm sức mạnh phần cứng. Nhưng, phần cứng vẫn là bức tường khủng khiếp nhất mà các công ty AI đang phải đối mặt.
Nói đơn giản ai cũng hiểu là: Đầu vào càng nhiều, số lượng tham số càng lớn, dữ liệu càng nhiều, thì đều dẫn tới chi phí phần cứng càng cao, theo hệ số nhân.
AI1.png
***CẬP NHẬT: CEO của OpenAI là Sam Altman không công bố con số tham số chính xác, và con số [100 nghìn tỷ] này chỉ là con số được lan truyền, không phải con số chính thức.

Bạn có thể thấy bảng ở trên cho thấy sức mạnh cần thiết đối với 3 mô hình cơ bản, đối với hai giai đoạn huấn luyện (training) và suy luận (inference - tức là khi áp dụng với đầu vào mới chứ không phải từ dữ liệu huấn luyện). Bảng này sử dụng số lượng token trung bình cho đầu vào và đầu ra là 1024 token, và đơn vị TFLOP là Tera-Flop (Tera: 1 nghìn tỷ).
Theo Andreesen, mô hình LLaMA của Meta (sở hữu Facebook), thậm chí còn yêu cầu phần cứng cao hơn nữa, vì đó là một trong những khó nhất tính tới thời điểm hiện tại.
Tóm lại, các mô hình AI hiện tại đòi hỏi cơ sở hạ tầng về phần cứng quá lớn, và phải liên tục nâng cấp mở rộng theo yêu cầu liên tục tăng cao, cũng như các nâng cấp về công nghệ. Điểm lợi thế của các mô hình transfomer-based này chính là đồ thị nâng cấp gần như tuyến tính, nên có thể dễ dàng ước lượng một cách tương đối chính xác các chi phí cần thiết đối với nhu cầu của từng sản phẩm nhất định.

Thời gian xử lý của GPU

Mỗi core (nhân xử lý) thường sẽ xử lý 1-2 lệnh trong mỗi chu kỳ, và xung nhịp mỗi core đã liên tục được duy trì trung bình tầm 3GHz trong suốt 15 năm qua. Nếu để một core 3Ghz như vậy xử lý một câu lệnh suy luận (inference) của mô hình GPT-3 thì sẽ mất khoảng 116 ngàn giây, tức là khoảng 32 giờ. Rõ ràng là không thực tế, và cần phải có những nhân xử lý chuyên dụng hơn cho các tác vụ của AI.

Thực tế thì đã có những sản phẩm chuyên phục vụ AI với hàng loạt nhân xử lý chuyên dụng trên một GPU duy nhất. Ví dụ, GPU chuyên dụng mới của NVIDIA có mã là A100 (giá 10.000 USD), có tới 512 "tensor core", có thể xử lý 128 FLOP mỗi chu kỳ.
***Bên lề xíu: Hiện tại thì card cho AI vẫn gọi là GPU, tức là card "đồ họa", vì vốn được phát triển lên từ card đồ họa cho game. Nghe hơi vô duyên. Nhưng về sau, sẽ có card chuyên dụng chỉ dành riêng cho mục đích tính toán các mô hình ngôn ngữ chứ không phải là đồ họa.
A100.png
Trên lý thuyết, card A100 mới của Nvidia có thể xử lý 1 câu lệnh với GPT-3 chỉ trong 1 giây. Nhưng thực tế thì sẽ có rất nhiều vấn đề khác. Vấn đề đầu tiên là hiện tượng "thắt cổ chai", tức là tốc độ truy xuất dữ liệu của các nhân xử lý sẽ bị giới hạn bởi băng thông của hệ thống. Thứ hai, 175 tỷ tham số sẽ chiếm 700GB bộ nhớ tạm nên sẽ không thể chứa trong bộ nhớ của GPU được, mà cần hệ thống đặc biệt để lưu trữ và truy xuất tốc độ siêu cao. Thứ ba, vẫn sẽ cần rất nhiều bước tối ưu về thuật toán để tăng tốc độ xử lý các tác vụ, bù đắp cho sự chậm trễ vì rất nhiều bước xử lý trung gian. Chưa kể, dữ liệu và các lệnh truy xuất có thể phải thông qua các đám mây, nghĩa là còn tính tới cả tốc độ đường truyền nữa.

Quảng cáo


Đó chỉ mới là tính trên 1 lượt xử lý ở giai đoạn suy luận (inference), ví dụ một câu hỏi của người dùng. Còn đối với quá trình huấn luyện GPT-3, số lượng dữ liệu cần xử lý sẽ gấp khoảng 300 triệu lần, tức là thời gian cần thiết để xử lý sẽ gấp khoảng 1 tỷ lần, tức là nếu chỉ dùng 1 card A100 thì sẽ mất khoảng hơn 30 năm (đó là chưa nói các vấn đề truy xuất dữ liệu và các chi tiết khác đó nhé).
Để có thể huấn luyện một mô hình ngôn ngữ lớn, thì thách thức cần phải vượt qua chính là hệ thống liên kết GPU, hệ thống bộ nhớ, và giới hạn băng thông trong đó chứ không chỉ là bản thân các core xử lý chuyên dụng tối ưu cho tác vụ của AI.
llms.png
Hình trên này là một thống kê vào tháng 3.2023. Tất nhiên, các công ty như Google, Apple, Amazon cũng sẽ không ngồi yên. Dưới 100 tỷ tham số là mô hình nhỏ, từ 100 tỷ trở lên được tính là Large Language Models. Nhắc lại, OpenAI chưa công bố số lượng tham số của GPT-4, và con số 100 nghìn tỷ hiện tại vẫn chưa được khẳng định.

Chi phí nuôi AI

Chi phí huấn luyện GPT-3 trong thực tế là rất tốn kém. Nếu chỉ ước tính dựa trên sức mạnh xử lý với card A100, thì cần phải tốn khoảng 560.000 USD cho mỗi một lượt chạy chương trình huấn luyện. Giống như bạn render một clip ra mà thấy lỗi, xong bạn render lại, thì tưởng tượng mỗi lần train lỗi với GPT-3, mỗi cú click chuột đó sẽ tốn số tiền khoảng bằng một lần cứu trợ miền Trung, khoảng 14 tỷ VND.

Đó là chỉ mới tính trên một hệ thống tối tân và tối ưu, còn nếu tính trên các hệ thống thực tế thì con số không còn là nửa triệu đô nữa, mà có thể lên đến 4.6 triệu đô la mỗi lượt chạy. Và tất nhiên, chẳng có mô hình nào mà bạn chạy một lần là thành công, hoặc… thỏa mãn. Mọi mô hình đều đòi hỏi phải liên tục nâng cấp, nghĩa là liên tục chạy và chạy lại, vòng lặp bất tận. Còn tiền là còn chạy, vì mình không chạy thì đối thủ sẽ chạy. Đó lại là một cuộc chiến đốt tiền đến chết (hoặc đến khi có tiền đốt tiếp).
Đi sâu hơn, trong bài chia sẻ của Andreesen có nói rất chi tiết về khía cạnh kỹ thuật, lựa chọn, các phương án và các mô hình. Những bạn nào đang muốn nghiên cứu sâu thì có thể đọc thêm. Ở đây, mình muốn nói thêm một chút về các dự đoán và vị trí của Việt Nam có thể có?

Việt Nam có thể ở đâu trong bức tranh lớn này

Ở trên, chúng ta đã thấy chi phí để huấn luyện AI lớn cỡ nào, khi chỉ mới tính trên mô hình GPT-3 với 175 tỷ tham số. Khi áp dụng với các mô hình lớn hơn như GPT-4 với số lượng tham số gấp 600 lần, hoặc LLaMA của Meta, thì sẽ là một nhu cầu khổng lồ. Hơn nữa, khi thật sự đưa ra công chúng, người dùng càng nhiều thì cũng đòi hỏi sức mạnh phần cứng tương ứng để chịu tải. Nhà nhà phát triển AI, người người sử dụng AI, thì một hệ sinh thái và chuỗi giá trị mới sẽ liên tục được phát triển và hoàn thiện để phục vụ.

Nói về tập dữ liệu, các mô hình LLM hiện nay đang sủ dụng Common Crawl với dữ liệu từ 4.5 tỷ trang web (khoảng 10% số website đang tồn tại). Đối với các nhóm sử dụng Wikipedia hoặc dữ liệu từ sách thì khối lượng nhỏ hơn khá nhiều. Cũng có nhiều dự án tham vọng sử dụng dữ liệu lấy từ video và audio, nhưng sẽ đòi hỏi nhiều yêu cầu nặng hơn.
Ai.png

Quảng cáo


Tuy nhiên, theo đánh giá từ Andreesen và các cộng sự, thì sự thiếu hụt nguồn cung cho các giải pháp điện toán như phần cứng vẫn có thể sẽ tiếp trong tương lai gần. Ông và các cộng sự cũng không biết liệu các hạn chế về phần cứng có cản trở những công ty mới phát triển các dự án mới về AI. hay không. Tuy nhiên, các mô hình mã nguồn mở như Alpaca và Stable Diffusion cũng cho thấy nhiều hướng đi mới đầy sáng tạo, và có thể hy vọng sẽ có nhiều chuyển biến thú vị trong bức tranh AI.
Dù gì thì gì, cuộc chạy đua AI sẽ tất yếu dẫn tới cuộc chạy đua cung ứng phần cứng và các công nghệ phục vụ cho nó. Vậy thì Việt Nam có thể tham gia vào những mảng nào?
Về hướng phần mềm và ứng dụng, Việt Nam có VinGroup, FPT, Viettel có thể nói là dẫn đầu trong việc đầu tư và nghiên cứu AI, nhưng có thể nói là vẫn theo hướng ứng dụng nhiều hơn là thực sự build một cái lõi mới.
Còn về phần cứng, Việt Nam không có công ty sản xuất chip, nhưng có nguồn tài nguyên đất hiếm dồi dào, thuộc hàng top thế giới (có báo nói Top2, có báo nói Top3). Liệu chúng ta có những deal đặc biệt với Nvidia hay các tập đoàn lớn trên thế giới trong việc tham gia vào chuỗi giá trị AI không?
Mình chưa biết và chưa có thông tin nào mới hơn. Rất mong các bạn làm trong lĩnh vực này có thể chia sẻ sâu sắc hơn về những cách thức để Việt Nam không để vuột mất con sóng này.

Tham khảo bài gốc của nhà đầu tư Andreesen Horowitz: Navigating the High Cost of AI Compute

CHUYÊN MỤC NGHỆ THUẬT LÀM GIÀU BỀN VỮNG
Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn