Header ads

Header ads
» » [Video] PixelPlayer - hệ thống AI của MIT phân tách chính xác tiếng nhạc cụ từ video

trí thông minh nhân tạo và khoa học máy tính (CSAIL) thuộc Viện MIT đã giới thiệu một hệ thống có tên PixelPlayer cho phép phân biệt và phân tách âm thanh của các nhạc cụ và tăng độ lớn bằng AI.

Với một video có nhiều nhạc cụ được nạp vào, hệ thống PixelPlayer đã qua "huấn luyện" có thể phân tách âm thanh và xác định nguồn âm thanh, sau đó tính toán âm lượng của từng điểm ảnh trong hình ảnh video và xác định những khu vực nào trong clip tạo ra sóng âm tương tự nhau.

Hang Zhao - nghiên cứu sinh tiến sĩ tại CSAIL kiêm đồng tác giả nghiên cứu có tên "The Sound of Pixels" cho biết: "Chúng tôi kỳ vọng ở điều kiện tốt nhất, hệ thống có thể nhận dạng loại nhạc cụ với thứ âm thanh mà nó tạo ra. Chúng tôi đã rất ngạc nhiên khi hệ thống có thể xác định những nhạc cụ ở cấp độ điểm ảnh trong video. Điều này mở ra rất nhiều khả năng, chẳng hạn như chỉnh sửa đoạn nhạc của một nhạc cụ nào đó với chỉ một cú click vào video."


Bộ não của PixelPlayer là một mạng thần kinh ảo được huấn luyện dựa trên MUSIC (Multimodal Sources of Instrument Combinations). Đây là một tập dữ liệu gồm 714 video không gắn nhãn, không cắt được thu thập từ YouTube trong đó 500 video với tổng thời lượng 60 giờ được dùng để huấn luyện, phần còn lại dùng để xác thực và thử nghiệm. Trong quá trình huấn luyện hệ thống, các nhà nghiên cứu đã nạp những đoạn clip thuật toán của nhiều người chơi các loại nhạc cụ khác nhau như guitar, cello, kèn clarinet, sáo flute …

Đây chỉ là một phần của hệ thống máy học đa chức năng của PixelPlayer. Sau khi thuật toán phân tích video trích xuất các đặc tính từ khung hình, một mạng thần kinh ảo thứ 2 đóng vai trò phân tích âm thanh sẽ chia âm thanh thành các thành phần và trích xuất các đặc tính của âm thanh. Cuối cùng, một mạng lưới tổng hợp âm thanh sử dụng tín hiệu đầu ra từ 2 mạng lưới trước để liên kết các điểm ảnh với sóng âm. Kết quả như chúng ta đã thấy trong video!

PixelPlayer hoàn toàn tự giám sát, tức nó không cần đến con người chú thích dữ liệu và có khả năng xác định âm thanh của hơn 20 nhạc cụ. Ngoài ra, hệ thống còn có thể phân biệt các thành phần của âm thanh, chẳng hạn như các tần số điều hòa từ đàn violin.

Các nhà nghiên cứu nghĩ rằng PixelPlayer sẽ có thể hỗ trợ các công việc như biên tập âm thanh hay sử dụng trên robot để giúp nó hiểu về âm thanh môi trường như tiếng động từ động vật, phương tiện cũng như các vật thể khác.

Theo: VentureBeat
 



Cập nhật công nghệ từ Youtube tại link: https://www.youtube.com/channel/UCOxeYcvZPGf-mGLYSl_1LuA/videos
Để tham gia khóa học công nghệ truy cập link: http://thuvien.hocviendaotao.com
Mọi hỗ trợ về công nghệ email: dinhanhtuan68@gmail.com

About Học viện đào tạo trực tuyến

Xinh chào bạn. Tôi là Đinh Anh Tuấn - Thạc sĩ CNTT. Email: dinhanhtuan68@gmail.com .
- Nhận đào tạo trực tuyến lập trình dành cho nhà quản lý, kế toán bằng Foxpro, Access 2010, Excel, Macro Excel, Macro Word, chứng chỉ MOS cao cấp, IC3, tiếng anh, phần mềm, phần cứng .
- Nhận thiết kế phần mềm quản lý, Web, Web ứng dụng, quản lý, bán hàng,... Nhận Thiết kế bài giảng điện tử, số hóa tài liệu...
HỌC VIỆN ĐÀO TẠO TRỰC TUYẾN:TẬN TÂM-CHẤT LƯỢNG.
«
Next
Bài đăng Mới hơn
»
Previous
Bài đăng Cũ hơn