Header ads

Header ads
» »

Đọ sức mạnh AI Mỹ và AI Trung Quốc: Runway Gen-3 Alpha vs Kuaishou Kling AI

Sau hai bài viết trải nghiệm chi tiết hai mô hình tạo sinh video nhờ thuật toán AI mà mình gửi tới anh em trong thời gian qua, có lẽ cũng đã đến lúc so sánh trực tiếp khả năng của cả hai mô hình này, để xem video ngắn từ mô hình AI nào trông chân thực hơn, và bàn về những giới hạn của những công nghệ tạo sinh hình ảnh dựa trên những gì mô hình và thuật toán AI học được từ những nội dung do con người tạo ra, rồi dựa vào đó để tạo ra những hình ảnh hoàn toàn không có thật.

Gen-3 là mô hình ngôn ngữ mới nhất của RunwayML, trụ sở Manhattan, New York, Mỹ. Còn Kling AI là sản phẩm của Kuaishou Technology, trụ sở Bắc Kinh, Trung Quốc.

Anh em quan tâm có thể đọc lại hai bài trải nghiệm AI Runway Gen-3 Alpha Test, và Kuaishou Kling AI của mình:

Làm video bằng AI Runway Gen-3: Chưa hoàn hảo, nhưng một 9 một 10 với Sora

Trước khi nói tới trải nghiệm sử dụng hay chính bản thân phiên bản thử nghiệm Alpha của mô hình tạo sinh video Gen-3 từ RunwayML, mời anh em xem trước đoạn clip ngắn 30 giây, chỉ sử dụng nội dung tạo ra bằng mô hình AI này.
tinhte.vn


Tạo video bằng AI Trung Quốc: Kling AI vừa mở cửa toàn cầu, làm clip miễn phí

Ngày 24/7, Kuaishou Technology của Trung Quốc cuối cùng cũng mở cửa thử nghiệm mô hình tạo sinh hình ảnh và video do chính họ phát triển mang tên Kling AI. Trước đó nếu như muốn tạo ra những đoạn clip ngắn dài khoảng 5 giây theo yêu cầu…
tinhte.vn


Mình có giải pháp so sánh trực tiếp như thế này. Vấn đề của Kling AI nằm ở hai điểm. Thứ nhất, Kling AI giờ muốn trả tiền để làm nhiều hơn 6 video vẫn chưa khả thi, nên đó là giới hạn của bài viết so sánh của mình ngày hôm nay. Và vấn đề thứ hai, Kling AI cũng chỉ cho làm mỗi video dài 5 giây, chất lượng "thấp", độ phân giải 1280x720 pixel, để máy chủ xử lý nhanh nhất cho người dùng miễn phí, trong quá trình thử nghiệm rộng rãi mô hình này trên toàn thế giới.

Thành ra để công bằng, chỉ có một cách là gõ cùng một prompt vào cả hai cửa sổ tạo video bằng AI trên trang web của RunwayML và Kuaishou Technology, rồi cùng chọn đoạn video dài 5 giây. Cả hai công cụ này đều được điều chỉnh tham số tạo sinh video ngẫu nhiên.

Sáu câu lệnh được lựa chọn dựa trên những góc quay và giải pháp quay khác nhau. Có cảnh cận, có cảnh toàn, có cảnh rượt đuổi theo chủ thể và cũng có những cảnh yêu cầu mô hình AI phải tạo ra những chi tiết không có thực, để thử nghiệm khả năng sáng tạo dựa trên những gì hai mô hình AI đã được học.

Prompt số 1


hyperspeed drone shot flying through an abandoned building, fast motion, graffiti paintings on the walls, high contrast, low light, vibrant color, cinematic color

Runway Gen 3 Alpha:



Kuaishou Kling AI:

Quảng cáo




Điều đầu tiên mình để ý khi so sánh Gen 3 Alpha và Kling AI, đó là khác biệt về tốc độ tạo sinh những đoạn clip 5 giây của hai mô hình này phụ thuộc gần như hoàn toàn vào sức mạnh của hệ thống máy chủ đám mây. Cùng thời lượng video, nhưng khoảng thời gian mình phải chờ đợi Kling AI trả kết quả lâu gấp từ 5 đến 6 lần so với máy chủ của Runway Gen 3. Hai lý do được đưa ra. Thứ nhất, Kuaishou không thể có những GPU Nvidia H100 hay H200 vì quy định cấm vận của phía Mỹ, không có những GPU xử lý thuật toán AI mạnh nhất trên thị trường ở thời điểm hiện tại, nên khả năng vận hành mô hình AI, thời lượng video lẫn cả tốc độ tạo video của AI Trung Quốc đều bị giới hạn nghiêm trọng, chờ khá lâu.

Lý do thứ hai, muốn dùng thử Runway Gen-3 Alpha phải trả tiền, mỗi ngày sẽ có 1000 token để anh em tạo video, sang ngày hôm sau reset, lại dùng được tiếp. Việc startup AI trụ sở tại New York thương mại hóa mô hình đang trong quá trình thử nghiệm cũng giúp họ trang trải được phần nào chi phí máy chủ đám mây dùng để vận hành những ứng dụng dựa trên những mô hình AI do họ phát triển. Thành ra làm video rất nhanh.

Có ba yếu tố cần đề cập trong cái prompt đầu tiên này. Thứ nhất là độ mượt của chuyển động camera, thứ hai là ánh sáng màu sắc, và thứ ba là độ đồng nhất của chi tiết hình ảnh. Cả ba khía cạnh này, Gen-3 Alpha nhỉnh hơn một cách rõ ràng. Màu sắc trong video Kling AI làm ra có phần rực hơn, nhưng chi tiết hình ảnh liên tục bị thay đổi, không nhất quán như video của Gen-3. Rồi tốc độ của camera mô phỏng drone bay cũng là một giới hạn của Kling AI. "Tốc độ nhanh" có vẻ AI hiểu là tốc độ khung hình mượt chứ không phải drone bay nhanh. Về phần mô phỏng nhịp độ camera, Gen-3 làm tốt hơn.

Prompt số 2


close up static shot: the camera is angled up at a young Asian woman standing in a neon lit street at night, she is looking directly into the camera, neon light reflections, cinematic color, f1.8, high contrast, low light, vibrant color

Runway Gen-3 Alpha:

Quảng cáo





Kuaishou Kling AI:



Ở bài thử nghiệm này, Gen-3 có xu hướng "làm lố" hiệu ứng ánh sáng, thành ra hai giây cuối video, gương mặt nhân vật chính tối thui, lệnh "ánh sáng đèn neon" không đủ bù lấp cho lệnh "trời khuya" trong prompt. Còn trong khi đó, mình thích kết quả video Kling AI tạo ra hơn, nhưng "cô gái trẻ người châu Á" có nét Trung Hoa khá rõ rệt, mặt trái xoan mũm mĩm chứ không có nét Nhật hay Hàn. Cái này có lẽ do dữ liệu đầu vào trong quá trình huấn luyện mô hình AI.

Còn khía cạnh cả hai mô hình đều làm rất tốt là mô phỏng khẩu độ ống kính. Bokeh thực sự đẹp mắt. Khẩu độ ống kính cao cũng giúp che khuất những giới hạn trong khả năng tạo sinh ký tự, ở đây là chữ trên mấy bảng hiệu đèn neon theo câu lệnh.

Prompt số 3


fast motion low angle static shot: the camera is angled up at a rally car running through the wet dirt road in an European forest, dirt and gravel blowing up behind the car, the car is running towards the camera, the dramatic sky is overcast, raining, cinematic color

Runway Gen-3 Alpha:



Kuaishou Kling AI:



Cái prompt này mình nghĩ ra để đánh giá khả năng xử lý vật thể chuyển động ở vận tốc cao của mô hình AI. Nhờ đó anh em có thể thấy rằng, cả hai mô hình đều chưa hoàn hảo. Gen-3 tạo ra cảnh chiếc xe đua kịch tính hơn nhiều, thậm chí còn mất lái trong khi mình chẳng yêu cầu. Tốc độ vật thể nhìn cũng đã mắt, có sự kịch tính nhất định. Tuy nhiên chi tiết vật thể như thân xe và đèn pha thì biến đổi liên tục, không có sự đồng nhất cần thiết.

Còn Kling AI thì ổn định hơn về mặt chi tiết hình ảnh, và "nghe lời" lệnh prompt mà mình đưa ra hơn. Dù vậy, mình vẫn thích tông màu đoạn video Gen-3 tạo ra. Và cũng nhờ prompt này, một giới hạn của Kling AI cũng được thể hiện khá rõ ràng. Tốc độ chuyển động lúc nào cũng bị ì, nhìn mượt chứ không tạo ra được cảm giác kịch tính khi máy quay đuổi theo một vật thể chuyển động nhanh.

Prompt số 4


fast motion low angle following shot: the camera is angled up at a girl riding a white unicorn running through an European forest at night, the leaves on the tree lights up the forest, purple and green gel lighting, the dramatic sky is overcast, raining, cinematic color

Runway Gen-3 Alpha:



Kuaishou Kling AI:



Bài test này mô tả khả năng tạo sinh những chi tiết phi logic và "lẽ thông thường" của mô hình AI. Nói chung cả hai AI đều thất bại trong việc tạo ra thứ mình muốn thông qua câu lệnh. Một đoạn clip thì nhìn như hoạt hình 3D một đội ngũ thiếu kinh nghiệm tạo ra. Đoạn clip thứ hai thì cảnh vật và góc máy hợp lý, đúng như yêu cầu, nhưng chi tiết thì không đồng nhất. Con kỳ lân không có sừng, mà thỉnh thoảng nhân vật cưỡi kỳ lân cũng chẳng thấy đầu đâu.

Cái này cũng mô tả một vấn đề. Dựa trên những gì mình đã được xem trong suốt thời gian qua, rồi sau đó là trải nghiệm cụ thể như những gì mình đang gửi tới anh em, dù đều là những mô hình AI thế hệ mới nhất của từng startup nghiên cứu, nhưng chất lượng tạo sinh hình ảnh và video của Gen-3 hay Kling AI chắc chắn có khoảng cách thua sút nếu so sánh với hai mô hình đang được nhắc đến nhiều nhất ở thời điểm hiện tại, Sora của OpenAI và Veo của Google DeepMind. Tiếc là Sora và Veo giờ kể cả có tiền cũng chưa được dùng thử, nên mình chỉ còn biết thử nghiệm với hai mô hình đã thử nghiệm rộng rãi.

Prompt số 5


fast motion aerial drone shot above a magical white castle on a mountain cliff, panning around the castle, venetian lighting, dramatic sky, warm cinematic color

Runway Gen-3 Alpha:



Kuaishou Kling AI:



Cá nhân mình khẳng định, về mặt bố cục hình ảnh nói chung, mình thích kết quả video mà Kling AI tạo ra hơn so với kết quả của Gen-3 Alpha. Có một điều rõ ràng là làm việc với Kling AI, dù phải đợi lâu hơn, nhưng AI có vẻ "khôn" hơn, không yêu cầu những câu prompt quá chi tiết về cả nội dung, góc quay hay chi tiết vật thể. Bằng chứng là nhìn cái lâu đài trung cổ giả tưởng của AI Trung Quốc tạo ra trông hoành tráng, ánh sáng cũng đẹp hơn hẳn so với AI Mỹ. Nhưng đổi lại, mức độ nhất quán của chi tiết hình ảnh lại là thứ khiến cho Kling AI thua xa Gen-3 Alpha. Anh em hãy để ý từng ô cửa sổ, từng mảng tường của tòa lâu đài trong video Kling AI tạo ra, vừa vụn vừa có xu hướng "nhảy múa" khi camera chạy ngang chủ thể.

Prompt số 6


aerial drone shot of a small coastal town in portofino, mountain in background, focusing on colorful houses, warm color, morning, small boats on boat dock, panning around town, focusing on houses

Runway Gen-3 Alpha:



Kuaishou Kling AI:



Một lần nữa, prompt này giúp triệt tiêu những vấn đề về chuyển động hay chi tiết hình ảnh, vì là một video quay toàn cảnh. Video của Gen-3 Alpha vẫn cứ là nét hơn, nhưng bố cục chi tiết lại trông không được ưng mắt so với Kling AI. Ngoài nhà cửa san sát nhiều màu sắc đúng phong cách những thị trấn ven biển miền nam nước Ý, AI Trung Quốc còn biết chèn thêm cả cầu tàu cho cảnh thêm phong phú nữa. Chỉ tiếc là vì giới hạn xử lý của data center, video không nét như mình kỳ vọng.

Tạm kết


Có một điều rõ ràng, đó là những công cụ tạo sinh video nhờ mô hình AI nhận diện được ngôn ngữ hình ảnh tự nhiên của con người, chí ít là những giải pháp đã có thể sử dụng rộng rãi vẫn chưa thực sự hoàn hảo. Còn những mô hình chưa ra mắt thì thường được quảng bá bằng những đoạn video thực sự gây ấn tượng mạnh, còn sử dụng thực tế ra sao thì chưa một ai đưa ra được lời khẳng định.

Anh em có thể để ý, Gen-3 và Kling AI đều làm rất tốt, tạo ra những hình ảnh bố cục đẹp những đoạn clip ngắn dạng toàn cảnh, ít chủ thể hoặc nhiều chi tiết tĩnh, như thành phố hay rừng núi. Xin nhắc lại là bố cục đẹp chứ chi tiết chưa đẹp.

Và với khả năng tạo ra những đoạn clip từ 5 đến 10 giây (có lẽ do giới hạn của máy chủ đám mây dùng vận hành dịch vụ thử nghiệm), nếu ở độ phân giải cao, dân làm video thực sự có thể được hưởng lợi từ công cụ này, chứ hoàn toàn không có chuyện AI sẽ thay thế con người.

Nhưng như mình đã từng đề cập trong bài trải nghiệm AI Gen-3 phiên bản thử nghiệm Alpha, AI tạo video luôn có tiềm năng thay đổi. Từ đó, chúng sẽ giúp ngành sản xuất nội dung trở nên đa dạng, tiết kiệm thời gian, kích thích sáng tạo và tiết kiệm chi phí sản xuất là những lợi thế vô cùng rõ ràng. Nhưng những điều đó sẽ chỉ khả thi với điều kiện những giới hạn về khả năng tạo sinh video của những mô hình AI như Sora hay Gen-3 được cải thiện trong quá trình nghiên cứu phát triển mô hình sau này.

Khóa học Machine Learning cơ bản- Khoa học dữ liệu - AI
==***==

Khoá học Quản trị Chiến lược Dành cho Lãnh đạo Doanh nghiệp

Nhấn vào đây để bắt đầu khóa học

==***==
Nơi hội tụ Tinh Hoa Tri Thức - Khơi nguồn Sáng tạo
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com
--- 

Khóa học Hacker và Marketing từ A-Z trên ZALO!

Khóa học Hacker và Marketing từ A-Z trên Facebook!

Khóa đào tạo Power BI phân tích báo cáo để bán hàng thành công

Bảo mật và tấn công Website - Hacker mũ trắng
Hacker mũ trắng
KHÓA HỌC LẬP TRÌNH PYTHON TỪ CƠ BẢN ĐẾN CHUYÊN NGHIỆP

Khóa học Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán

Khóa học hướng dẫn về Moodle chuyên nghiệp và hay
Xây dựng hệ thống đào tạo trực tuyến chuyên nghiệp tốt nhất hiện nay.



Khóa học AutoIt dành cho dân IT và Marketing chuyên nghiệp

Khoá học Word từ cơ bản tới nâng cao, học nhanh, hiểu sâu


Khóa học hướng dẫn sử dụng Powerpoint từ đơn giản đến phức tạp HIỆU QUẢ
Khóa học Thiết kế, quản lý dữ liệu dự án chuyên nghiệp cho doanh nghiệp bằng Bizagi
Khoa hoc hay
Khóa học Phân tích dữ liệu sử dụng Power Query trong Excel

Khóa học Lập trình WEB bằng PHP từ cơ bản đến nâng cao

Khóa học Phân tích dữ liệu sử dụng TableAU - Chìa khóa thành công!
Nhấn vào đây để bắt đầu khóa học


Khóa học Phân tích dữ liệu sử dụng SPSS - Chìa khóa thành công!


Khóa học "Thiết kế bài giảng điện tử", Video, hoạt hình 
kiếm tiền Youtube bằng phần mềm Camtasia Studio
Khóa học HƯỚNG DẪN THIẾT KẾ VIDEO CLIP CHO DÂN MARKETING CHUYÊN NGHIỆP
Xây dựng website​​​​
HƯỚNG DẪN THIẾT KẾ QUẢNG CÁO VÀ ĐỒ HỌA CHUYÊN NGHIỆP VỚI CANVA
Hãy tham gia khóa học để trở thành người chuyên nghiệp. Tuyệt HAY!😲👍
Khoa hoc hay
MICROSOFT ACCESS



GOOGLE SPREADSHEETS phê không tưởng
Khoa hoc hay
Khóa hoc lập trình bằng Python tại đây

Hãy tham gia khóa học để biết mọi thứ

Để tham gia tất cả các bài học, Bạn nhấn vào đây 

Khóa học lập trình cho bé MSWLogo
Nhấn vào đây để bắt đầu học
Nhấn vào đây để bắt đầu học


Khóa học Ba, Mẹ và Bé - Cùng bé lập trình  TUYỆT VỜI

Khoa hoc hay

Khóa học sử dụng Adobe Presenter-Tạo bài giảng điện tử
Khoa hoc hay
Design Website

Để thành thạo Wordpress bạn hãy tham gia khóa học 
Khóa học sử dụng Edmodo để dạy và học hiện đại để thành công
==***==
Bảo hiểm nhân thọ - Bảo vệ người trụ cột
Cập nhật công nghệ từ Youtube tại link: congnghe.hocviendaotao.com
Tham gia nhóm Facebook
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

Nguồn: Tinh Tế

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn