News Release

複数マイク並列処理の音声認識システムリリースのお知らせ

2021/11/22 15:00

キャピタルメディア株式会社(代表取締役: 成重鉄二 以下当社)は、複数マイクからの並列処理を実装した音声認識システムを開発しリリース致しました。認識した文字列は、ビデオカメラで撮影しているストリーミング映像に合わせてリアルタイムで話者ごとに表示いたします。


■背景
多くの音声認識システムでは、会話などの音声入力から雑音などを除去した後に特徴量を抽出してAIモデルにより文字を出力しております。しかしながら、多人数が同時に喋っている場合などは認識が難しいという課題がありました。当システムでは、複数マイクからの音声入力を並列に処理して出力することで、話者ごとの連続音声入力をより高精度に認識することを可能し、抽出した文字列も話者ごとに分けて表示することを実現しています。

■複数マイク並列処理の音声認識システム
本システムでは、音声マイクで認識した文字列を、リアルタイムで動的に任意のアプリケーションに表示いたします。複数マイクによる並列処理により、複数音源からの認識・出力ができます。個別用語の辞書を作成することで、特定の言葉を高精度に認識することもできます。日本語の他、英語、中国語(簡体字)の認識が可能で、出力テキストも日本語、英語、中国語(簡体字)で出力いたします。srtファイルなどにも対応いたします。

また、音声認識だけでなく、カメラで撮影した動画をアプリケーション(ブラウザ)でリアルタイム配信いたします。利用者同士でのチャット機能や、認識した文字をGraphQLでAPIとして開発者向けに外部公開する機能も備えています。クラウド上にデプロイしており、OSに関わらずPC、タブレッド、スマホから操作が可能です。

スポーツ中継、コンサート中継、デジタルサイネージ、会議・セミナー・インタビュー、コールセンター、乗り物の運転操作、など様々な用途での活用を想定しており、お客様のご要望に沿った設計をご提案させて頂きます。

■当社の開発について
transformerを用いたwav2vec2.0など、より高精度な音声認識を研究しています。また、本システムでは、GCP(Google Cloud Platform)環境にReact.js、Go言語、Pythonなどで開発しており、今後も世界的にモダンな技術を積極的に活用し、企業の課題解決に貢献していきます。




【問い合わせ先】
キャピタルメディア株式会社
東京都大田区南蒲田1-7-5
窓口: 成重鉄二
電話: 03-3730-4850
E-mail: contact@capitalmedia.jp
https://capitalmedia.jp

Copyright(c) Capital Media, Inc. All Rights Reserved.