Công nghệ nhận diện giọng nói hoạt động thế nào? Theo công nghệ nhận diện giọng nói truyền thống, sóng âm của giọng nói sẽ được cắt ra thành từng lát nhỏ liên tiếp nhau, gọi là từng "frame âm thanh" có thời lượng 10 ms. Mỗi frame sẽ được phân tích để xác định tần số và kết quả được dùng như một vector đặc trưng cho frame âm thanh đó. Các vector này tiếp tục được đưa qua một mô hình xử lý âm thanh (ở đây là DNN) nhằm xác định phân phối xác suất của từng đơn vị âm thanh.
Tiếp theo, người ta sẽ sử dụng thêm mô hình Markov ẩn (mô hình thống kê HMM) nhằm gán nhãn cho các chuỗi, từ đó xác định cấu trúc thời gian trong chuỗi phân bố xác suất. Kết quả sẽ được kết hợp với những nguồn dữ liệu khác như Mô hình phát âm nhằm so sánh, tìm ra âm thanh hợp lệ trong ngôn ngữ mục tiêu. Bằng tất cả các thông tin trên, bộ máy nhận dạng ngôn ngữ sẽ xác định được nội dung trong câu nói của người dùng.
Thí dụ như khi người dùng nói từ "museum" - với các frame âm thanh là /m j u z i @ m/, sẽ khó xác định được âm điểm kết thúc của âm /j/ và điểm bắt đầu của âm /u/ nhưng mô hình nhận diện trước đây không quan tâm tới sự chuyển đổi giữa 2 âm đó mà quan tâm tới việc có những âm này đã xuất hiện.
Giờ đây, Google sẽ nâng cấp khả năng nhận diện bằng hệ thống
mạng nơ ron hồi quy (RNN). Nó sử dụng các cấu trúc lặp phản hồi trong mô hình topo, cho phép xác định được thời gian các âm đó xuất hiện: khi người dùng phát ra âm /u/, hệ thống sẽ xác định chính xác được âm liền trước nó là /j/ và trước đó nữa là /m/. Nói cách khác, RNN có thể hiểu được chính xác từng từ ngữ mà chúng ta nói một cách trơn tru, tự nhiên.
Chưa dừng lại ở đó, RNN còn được Google trang bị thêm kỹ thuật nhận diện âm trong tình huống bất ngờ mà không cần phải dự đoán trước. Google gọi đây là công nghệ liên kết phân loại thời gian thực, được lập trình để có thể xác định những "chuỗi nổi bật" trong nhiều chuỗi âm trong âm thanh. Và điểm thành công hơn nữa chính là quá trình này có thể được thực hiện theo thời gian thực, đồng thời sau nhiều vòng lặp, quá trình phân tích sẽ trở nên tuyến tính, đơn hướng, phân tích khối lượng dữ liệu nhiều hơn nhưng lại tốn ít tài nguyên hơn so với trước đây.
Bấm để mở rộng...