
音声認識テキスト化って、どんなもの?
コールセンターで20年前くらいからずっと研究が続いている、音声認識ソフトの領域・・・。
一体、どんな技術なの?
基本的な知識について解説します。
英語では、Speech Recognition(スピーチ・リコグニッション)と言われ、20年前から開発・実用化がされてきました。
話し言葉を認識して、それに対してテキストに書き出したり、対応をしたりとアクションを自動で実行する事です。
日本語については、この技術の進化は他の先進国から随分遅れをとっています。
なぜなら、26文字しかない英語のアルファベットとは違い、ひらがな、カタカナ、漢字混じりで表現する日本語は、音から正しいテキストを掴むためには、あまりにもパターンや例外が多いからです。
漢字だけを取ってみても、音読み・訓読みがあり、さらにあて字があります。
同音異義語も半端なく・・・。
そのため、ソフトが学習するにもかなり時間を要してしまいます。
音声テキスト化は実用化されている?(2020年1月現在)
とは言え、実際に音声テキスト化が実用化されているコールセンター も存在します。
テキスト化することで、音声を聞き起こすより遥かに素早く必要な情報を見つけ出すことができます。
テキストになっているだけで、一発検索が可能になります。
また、間違い探しも簡単です。
音声テキスト化ソフトでは、事前にNGワードや注意喚起ワードを登録しておいて、その言葉が感知されるとアラートを上げる仕組みもあります。
20分の音声によるやり取りも、品質のチェックやエラーチェックは、テキスト化されていることで、3分程度で完了させることもできます。
金融市場や製薬・医療関連のコールセンターでは、あらゆる法律上の規制があり、コールセンターで言ってはいけない言葉や違反事項がかなりあります。
テキスト化することにより、そのような法令に抵触する内容が発言されていないか?
という、チェック機能が迅速に働くという効果があります。
テキスト化には何が必要?
テキスト化を実施するには、まず、
目的が何か?
を明確にすべきです。
音声認識とそのテキスト化は、決して安い投資ではありません。
まず、コールセンターの音声録音ログは必須ですが、その音声ログもステレオタイプにする必要があります。
コールセンターのコミュニケーションは、どうしてもオペレーターとお客様の声が重なる瞬間があるので、オペレーター側とお客様側でそれぞれ別のラインで録音しておく必要があります。
従来のコールセンターの音声ログでは、アナログ回線による音声録音がほとんど。
このアナログ録音をステレオ録音に変更する手順が第一の投資関門です。
そして、音声をテキスト化するためのデーターベースの大きさ。
音声をテキストに起こす時にかかるTransactionのデーター量は、かなりのボリュームとなりますので、大きなデーター格納が必要となります。
ここも、投資としては大きいですね。
さらに、最初の段階では、ソフトの学習時間が必要です。
少なくとも、300時間くらいのソフト学習に人が付き合う必要がありますので、業務知識のある人材リソースの確保も考えておきましょう。
後々の費用対効果が大きければ、実行すべき!
このように労力がかかりますが、目的がハッキリしていれば、費用対効果を出しやすいでしょう。
今まで、人が何人もかかってやっていたチェック機能やミスによる後処理の工数が削減できるのであれば、推進すると良いでしょう。
以前、私がマネージメントしていたコールセンターでは、10名程度のチェック業務が削減できました。
10名だと、安く見積もっても、年間5000万円くらいの経費がかかると思いますので、投資をしても1−2年で回収できる計算となるでしょう。
付随して、品質向上というコストには算出しにくい効果も得られます。
これからも技術革新が進む領域
そして、この音声認識という領域は、これからも技術革新が進んでいくでしょう。
アマゾンが提供しているアレクサも、この技術の1つですね。
AIとの組み合わせにより、簡単なコールセンターの問い合わせは、AIエージェントが音声を認識して答えてくれるかもしれません。
先日、マイクロソフトのオフィスで見せてもらったマルチ言語のテキスト化は、ほぼリアルタイムで、話した言葉がテキスト化され、さらに相手側のパソコンにはそのテキストが別の言語に翻訳されてテキスト化されるという技術ができています。
音声がテキスト化されて相手に表示されることで、聴覚障害の方の問い合わせも可能になります。
より良い未来社会を創ることに貢献していくテクノロジーとして期待できます。