omniture

Chuyển giọng nói thành văn bản tức thì: Chuyển đổi phong cách làm việc với sức mạnh của AI

Toshiba Corporation
2020-01-08 10:00 517

TTXVN (SINGAPORE, ngày 8 tháng 1 năm 2020 / PRNewswire-AsiaNet / -

Trong khi Robot Process Automatic (RPA) - sử dụng robot để tự động hóa các quy trình làm việc - đã tạo ra kết quả tuyệt vời trong việc tự động hóa các tác vụ như tạo tài liệu và nhập dữ liệu, một số tác vụ như ghi biên bản cuộc họp và phiên âm các bài phát biểu vẫn cần được thực hiện thủ công. Tìm hiểu cách AI nhận dạng giọng nói mới được phát triển của Toshiba giúp chuyển đổi lời nói thành văn bản với độ chính xác cao và góp phần tăng năng suất tại nơi làm việc và hơn thế nữa.

Để xem Bản tin đa phương tiện, vui lòng bấm vào: https://www.prnasia.com/mnr/toshiba_202001.shtml

Taira Ashikawa, Head of Research, Media AI Laboratory, Toshiba Corporate R&D Center
Taira Ashikawa, Head of Research, Media AI Laboratory, Toshiba Corporate R&D Center

 

Hiroshi Fujimura, Lead researcher, Media AI Laboratory, Toshiba Corporate R&D Center
Hiroshi Fujimura, Lead researcher, Media AI Laboratory, Toshiba Corporate R&D Center

 

Photo (automatic speech subtitling system (left) and image of displayed subtitles (right))
Photo (automatic speech subtitling system (left) and image of displayed subtitles (right))

Công nghệ đằng sau sự chính xác trong nhận dạng giọng nói

Vào năm 2015, khi Toshiba lần đầu tiên bắt đầu phát triển hình thức AI này, họ có động lực mạnh mẽ trên toàn thế giới trong lĩnh vực tiếp cận thông tin, nhằm tạo ra môi trường cho phép người khiếm thính truy cập và nhập thông tin.

Với những hiểu biết sâu sắc từ những nhân viên khiếm thính muốn tham gia vào các cuộc họp và bài giảng trong thời gian thực, AI phát triển khả năng nhận dạng giọng nói của Toshiba bắt đầu với hai điểm trong tâm trí - để mở rộng khả năng tiếp cận thông tin cho người khiếm thính và tăng năng suất.

Các thuật toán tạo thành cốt lõi của AI và nhóm phát triển đã khám phá nhiều cách tiếp cận khác nhau để tăng độ chính xác. AI nhận dạng giọng nói của Toshiba không chỉ nhận dạng giọng nói với độ chính xác cao mà còn phát hiện tạp âm và quãng nghỉ. Bằng cách sử dụng mô hình ngày càng phổ biến được gọi là Bộ nhớ ngắn hạn dài hạn (LSTM) cũng như Phân loại tạm thời kết nối (CTC), AI đã được dạy về các đặc thù của lời nói như tạp âm và quãng nghỉ dành riêng cho con người.

Sử dụng các bài giảng như một cơ hội để kiểm tra xác minh, AI nhận dạng giọng nói đã đạt tỷ lệ nhận dạng giọng nói trung bình là 85%, nhận ra nội dung của lời nói trên một mức độ nhất định mà không cần chỉnh sửa hoặc học trước. Toshiba sẽ tiếp tục cải tiến công nghệ này để đạt được lời đề nghị nhận dạng giọng nói hoàn toàn chính xác với mục tiêu tạo ra một môi trường nơi những người nói các ngôn ngữ khác nhau sẽ có thể thoải mái trò chuyện cùng nhau.

Toshiba cũng nhìn thấy tiềm năng trong việc ứng dụng AI nhận dạng giọng nói vào lĩnh vực sản xuất, nơi cần thu thập và ghi âm giọng nói rảnh tay trong các nhà máy trong quá trình bảo trì và kiểm tra. Trong tương lai, Toshiba đặt mục tiêu sử dụng kiến thức và kinh nghiệm của mình trên các cơ sở sản xuất để tích hợp liền mạch nhận dạng giọng nói vào hoạt động của họ.

Ảnh - https://photos.prnasia.com/prnh/20191223/2678594-1-a?lang=0
Ảnh - https://photos.prnasia.com/prnh/20191223/2678594-1-b?lang=0
Ảnh - https://photos.prnasia.com/prnh/20191223/2678594-1-c?lang=0

nguồn: Toshiba Corporation