trí thông minh nhân tạo và khoa học máy tính (CSAIL) thuộc Viện MIT đã giới thiệu một hệ thống có tên PixelPlayer cho phép phân biệt và phân tách âm thanh của các nhạc cụ và tăng độ lớn bằng AI.
Với một video có nhiều nhạc cụ được nạp vào, hệ thống PixelPlayer đã qua "huấn luyện" có thể phân tách âm thanh và xác định nguồn âm thanh, sau đó tính toán âm lượng của từng điểm ảnh trong hình ảnh video và xác định những khu vực nào trong clip tạo ra sóng âm tương tự nhau.
Hang Zhao - nghiên cứu sinh tiến sĩ tại CSAIL kiêm đồng tác giả nghiên cứu có tên "The Sound of Pixels" cho biết: "Chúng tôi kỳ vọng ở điều kiện tốt nhất, hệ thống có thể nhận dạng loại nhạc cụ với thứ âm thanh mà nó tạo ra. Chúng tôi đã rất ngạc nhiên khi hệ thống có thể xác định những nhạc cụ ở cấp độ điểm ảnh trong video. Điều này mở ra rất nhiều khả năng, chẳng hạn như chỉnh sửa đoạn nhạc của một nhạc cụ nào đó với chỉ một cú click vào video."
Đây chỉ là một phần của hệ thống máy học đa chức năng của PixelPlayer. Sau khi thuật toán phân tích video trích xuất các đặc tính từ khung hình, một mạng thần kinh ảo thứ 2 đóng vai trò phân tích âm thanh sẽ chia âm thanh thành các thành phần và trích xuất các đặc tính của âm thanh. Cuối cùng, một mạng lưới tổng hợp âm thanh sử dụng tín hiệu đầu ra từ 2 mạng lưới trước để liên kết các điểm ảnh với sóng âm. Kết quả như chúng ta đã thấy trong video!
PixelPlayer hoàn toàn tự giám sát, tức nó không cần đến con người chú thích dữ liệu và có khả năng xác định âm thanh của hơn 20 nhạc cụ. Ngoài ra, hệ thống còn có thể phân biệt các thành phần của âm thanh, chẳng hạn như các tần số điều hòa từ đàn violin.
Các nhà nghiên cứu nghĩ rằng PixelPlayer sẽ có thể hỗ trợ các công việc như biên tập âm thanh hay sử dụng trên robot để giúp nó hiểu về âm thanh môi trường như tiếng động từ động vật, phương tiện cũng như các vật thể khác.
[Video] PixelPlayer - hệ thống AI của MIT phân tách chính xác tiếng nhạc cụ từ video
Theo: VentureBeat