34　コールセンターの運営を楽にする音声関連テクノロジー

2022.07.12

コールセンターテクノロジー

テーマ：

34　コールセンターの運営を楽にする音声関連テクノロジー

コールセンターの運営には、オペレーターの人事管理、人員配置の最適化、お客様対応のシナリオ設計、シナリオの高度化、言葉遣いの指導とその効率化、クレーム処理、各種の統計データの収集と分析等、数多くの仕事があります。これらの仕事をスムーズにする為にさまざまな音声関連のテクノロジーが用いられています。ここではコールセンターで用いられるそれらのテクノロジーの動作原理とその応用例を紹介します。

音声テクノロジーの基本原理
過去のブログ（音声の性質１）及び（音声の性質２）で記述したように、声は空気の振動なので、音声にかかわるテクノロジーは空気の振動を脳に代わってコンピューターで詳しく解析して目的の情報を得ることです。目的によって解析の方法が異なっておりますが、入力された音声情報からその特徴量を抽出し、そのデータベースと照合して目的の出力を得ることが音声テクノロジーの基本原理です。

声紋認証
個人特定の代表的な方法として指紋がありますが、声紋は文字通り声の指紋です。声を聞けばその人を知っているかどうか分かりますし、知っている人の声を聞けばそれが誰か分かります。人間の声には発声者に特有な振動パターンがあり、声として入力された空気の振動パターンをコンピューターに蓄積されているパタン（声紋ファイル）と高速照合することにより個人を特定します。
以前は照合に時間がかかり、照合精度が悪くて本人確認に使うことができないなどの問題がありましたが、2022年現在では大幅に照合時間が短縮し、照合精度も高まっています。
コールセンターでは、お客様からの問い合わせに際し、本人確認のために名前、生年月日、認証番号など複数の質問をする必要がありますが、この手間を省き、お客様とオペレーターの時間短縮とサービス向上に使います。
また、本人のなりすまし対策として声紋認証を使うことが可能です。欧州では詐欺対策として用いている金融機関が多くあります。

音声認識
音声テクノロジーの代表格が音声認識で、アップル社のSiriが代表的な製品です。音声を認識して文字に置き換えるテクノロジーで議事録の自動作成や字幕のリアルタイム表示などにも使われています。欧米では医者の診察時に音声認識で自動的にカルテを作成し、診療時間の短縮と医師が診察に専念できる様に使われることが多いようです。
コールセンターでは、お客様の「◯◯がしたい」「◯◯について知りたい」と話す声に対してコンピューターが自動応答することによる省力化や、オペレーターの通話メモ作成作業効率化、スーパーバイザーによるお客様とオペレーターとの会話にサポートの為入る前にそれまでオペレーターがお客様と何を話したかを文字で読むことにより効率的なサポートが可能になります。また、通話録音から特定の音声フレーズ、例えば「贈り物」とか「お中元」というフレーズをすばやく検索再生したり、回数をカウントすることにも用いられています。
音声認識は60年以上前から研究開発されてましたが、実用化となると「帯に短し襷に長し」の状況が長く続いていたと言うのが実情でした。アップル社のSiriやGoogleアレクサが音声認識の普及に果たした役割は大きく、最近は実用化に耐える製品が次々と市場投入されています。

音声感情解析
いくつもの音声テクノロジーの中で異彩を放っているのが音声感情解析テクノロジーです。音声から話者の感情を解析します。現代社会においてメールだけでなく、LINEやTikTok,ツイッター、ユーチューブなどコミュニケーション手段が多様化し、文字や絵文字、画像、動画等様々な手段でコミュニケーションすることが出来ます。
このような環境で、音声によるコミュニケーションは単に情報を伝達するだけでは無く、話者の感情を伝達する手段として認知されるようになってきました。「彼はああ言っているが本音は違うよ・・・」とよく日常でも使いますが、これは話者の感情を聞き手が推測して「本音」を探り当てたと思う場面で使う表現です。
感情には2種類あります。意識的に制御できる感情(随意感情)と意識的には制御できない感情(不随意感情)です。随意感情は俳優や女優が感情を込めてせりふを言う場合の感情です。悲しそうに、不快そうに、あるいは歓喜にあふれているように発声し振る舞うのが上手な演技です。随意感情は感情を聞き手に意識的に知らしめる為に用いられます。しかし、演技のできない感情もあります。難しい試験に合格したときにどんなに隠そうとしても嬉しくて声が弾んでしまうとか、最愛の人を亡くした時にはどんなに冷静を保とうとしても悲しくて声が沈んでしまうなど、また侮辱された時に平成を保とうと思っても怒りで声が震えてしまう経験は誰にでもあると思います。これが不随意感情です。往々にして話者の真の気持ちは不随意感情に現れます。
不随意感情を音声会話から検出できれば、コールセンターでのお客様の真の気持ちがかなりの確率で推測できます。またオペレーターの真の気持ちが相当程度推測できます。検出結果を用いて、コールセンターでの売上向上、お客様対応の改善、適切な時点でのスーパーバイザーの会話への割り込み、オペレーターの離職防止、オペレータータイプの把握による適切業務へのアサインなど、様々な業務に応用可能です。
当社が提供している音声感情解析ソフトESASは、まさに不随意感情を検出して可視化するソフトです。音声の振動数分布の詳細分析と、感情要素に特徴的な音声波形の出現頻度の分析により感情特徴を抽出し、これを長年収集したデータと比較することにより話者の感情を可視化するものです。
現在のようにコミュニケーションが多様化する時代には、音声感情解析テクノロジーは音声テクノロジーの中で重要な位置を占めるものと期待されます。
市場ではいろいろな音声感情分析ソフトが販売されていますが、不付随感情を可視化できるソフトは日本ではESASだけであると自負しています。ご興味のある方はぜひ当社にお問合せ下さい。