Sau thời gian dài tìm hiểu, mình đã nhận ra một vài điểm chung của hệ thống Speech to Text trên nhiều thư viện và ngôn ngữ lập trình khác nhau. Những điểm chung đó sẽ được trình bày trong bài viết này.
Khi xây dựng hệ thống Nhận diện giọng nói (Speech to Text), thông thường điều quan trọng nhất là cần phải có thư viện Speech to Text có sẵn để có thể dùng được chức năng của nó.
Một thư viện Speech to Text có thể là tận dụng thư viện của Windows (nhưng đối với nhiều loại ngôn ngữ lập trình sẽ cần có cách giao tiếp riêng với Windows) hoặc là sử dụng các thư viện trực tuyến (online) thông qua API.
Chẳng hạn như Google Speech to Text hay FPT.AI Speech to Text, chúng được cung cấp nền tảng sẵn để có thể tận dụng chức năng Speech to Text.
Tiếp đến, sau khi có thư viện và API trung gian. Chúng ta cần thiết lập các thông số cần thiết để hệ thống Speech to Text hoạt động hiệu quả.
Đầu tiên, đó là Duration thông thường ở mức 5, đó là thời lượng hệ thống lắng nghe bạn nói và sau 5 giây sẽ trả về phần Text mà hệ thống nhận dạng được. (Tuỳ theo ngôn ngữ lập trình mà Duration còn có thể là độ ồn, trong Python sẽ là 0.2).
Tiếp theo, đó là Timeout để đặt thời gian kết thúc nhận diện mỗi N giây. (Cũng tuỳ thuộc vào ngôn ngữ lập trình mà bạn đang dùng sẽ có cấu trúc đặt thông số khác nhau)
Cuối cùng, đó là set (đặt) ngôn ngữ nhận dạng (language), nếu khi lập trình triển khai ứng dụng mà không có phần này thì hệ thống khó mà tự động xác định được bạn đang nói ngôn ngữ gì hoặc có khi nó báo lỗi luôn.
Tóm lại, đây là những thông tin bạn cần biết khi tiến thành dùng hệ thống Speech to Text trên bất kì nền tảng nào. Chúc các bạn thành công!