BLOG

音声活用ブログ

音声感情検出のアルゴリズム(計算の手順)について少し詳しく解説します。

2023.04.14

Nemesysco社お知らせテクノロジー

50 なぜ音声から感情がわかるのか(3)

前回のブログ(ブログ49)では、ソフトウエアでどのように情報処理すると感情に関する情報が取り出せるのかを解説しました。このブログでは、感情検出のアルゴリズム(計算の手順)について少し詳しく解説します。

1   音声を特徴づける要素

音声の3要素

前回のブログでは音声は空気の振動であり、音の3要素(大きさ、高さ、音色)で特徴付けられることを説明しました。これらの要素を詳しく解析することにより音声に含まれる感情情報を取り出すことができることを述べました。

この方法には言語情報分析型と音響的特徴分析型の2種類あることも解説しました。後者はAIにより予めどのような感情が含まれているのかがわかっている膨大な数の音声波形をコンピューターに覚え込ませて、コンピューターが受信した音声と比べることにより感情を推定する機械学習の方法と、独自のアルゴリズムを用いる方法あるいはその混在の方法があることを解説しました。後者は音の3要素の特徴を積極的に利用するもので当社が提携しているイスラエルのNemesysco社もこの方法です。

音声の3要素は音声をマイクロフォンに通したときにマイクロフォンから出力される電圧の時間的な変化を示す波形に全て含まれています。図1は筆者が「あ~」と言った時と「い~」と言った時の波形です。同じような波形の繰返しパタンがあることがわかります。

声の大きさ

図1の縦軸、すなわちマイクの出力電圧の大きさが「声の大きさ」を示します。大きな声で話すと縦の方向に波形が大きくなり、小さな声で話すと小さくなります。図2に大きな声と小さな声を比較した波形を示します。

声の高さ

同じ「え」でも男声と女声では高さが異なり、一般的には女声の方が男声よりも高い音です。この違いは単位時間での波形の繰返しパタンの回数の違いに起因します。図3に男声と女声の波形を比較した波形を示します。

この単位時間(1秒間)あたりの繰り返しの回数のことを振動数とか周波数とかと言います。英語ではfrequency(フリークエンシー)と言い、アルファベット (エフ)あるいはギリシャ語の (ミュー)で表すのが習慣になっています。1秒間に振動する回数のことをヘルツと言いHzと書きます。周波数が大きくなればなるほど高い音になります。日本人の男性が話す時の周波数はおおまかに1秒間に200回(200Hz)ですが女性のそれは400Hzくらいになります。また女性が「あーーー」とゆったりした話し方では200Hz程度ですが、「キャー!」という悲鳴は2000Hz程度になります。「さ行」など摩擦音は、4000~5000Hzと非常に高い周波数になります。

 

声の音色

同じ高さ、大きさで「あ~」と話しても、山田さんが話す「あ~」と高橋さんが話す「あ~」では声の音色が違います。他の人がしゃべり声を聞いて、誰が話しているのかはその人の姿を見なくてもわかります。この理由は波形の形が異なるからです。図4に示すように楽器の場合でピアノとバイオリンで同じ高さと大きさの音の波形を見ると繰り返しの数は同じですが、波形の形が異なります。人間の声も同じで山田さんと高橋さんでは波形の形が異なるのです。

実は、波形の形は、さまざまな周波数の正弦波波形(きれいな波形)の和で表すことができます。

これを波形の重ね合わせと言い、どのような周波数の波形がどのくらいの割合で含まれているかを調べることを、この発見者の名前にちなんで「フーリエ解析」と言い、音声波形から周波数分布を導出することを「フーリエ変換」と言います。(ブログ12 音声の周波数分析を参照して下さい。)

2  人間の耳と脳の情報処理

ブログ7(音声の性質(2))で述べたように、人間の耳に入った空気の振動の波は、鼓膜を通して渦巻き管に伝達されそこで大きさ、高さ、波形の違いの情報、さらに驚くべきことに耳の奥にある渦巻き管内ではフーリエ変換がなされ、その情報が電気信号に変えられ、神経を通して脳に伝えられます。脳はそれらの信号から、誰がどのような感情でしゃべっているのかを認識する情報処理能力を持っています。感情解析ソフトは脳の感情認識にかかわる情報処理を、コンピューターを用いて、あるアルゴリズム(計算手順)で脳に代わって代行させようとするものです。

ところが、脳内でどのようなアルゴリズムで音声波形の情報から感情を読み取っているのかは解っていません。そもそも脳の情報処理のやり方は我々が知っているコンピューターとは全く異っていて、脳内の神経が複雑に結びついたニューラルネットワーク(神経回路)と呼ばれる仕組みにより情報が処理されます。脳は神経細胞同士を結ぶニューラルネットワークを変幻自在に変化させながら、効率的に素早く感情を推定しているようです。土台になる計算機構の仕組みそのものがコンピューターと脳では異なるのですから、脳内のアルゴリズムがたとえわかったとしてもそれを普通のコンピューターに処理させることはできません。人工知能や機械学習は脳を模倣し、人工的にニューラルネットワークをコンピューター内に模擬的に作り、大量の教師データの入力音声波形から感情を推定する方法です。しかし、この方法は精度を高めようとすると莫大な計算量が必要となり普通のPCでは処理出来ません。

そこで当社の提携先のNemesysco社の方法は感情解析ソフトを作るには脳を模倣せず、音声波形そのものから感情を推定する技術を開発しました。これはブログ1とブログ2に記載している層別音声解析(LVA Layered Voice Analysis)と言う技術です。13種類の処理を逐次的行うことにより感情を出力するものです。この技術の詳しい説明はブログ1とブログ2を参照していただきたいのですが、肝になるのは音声波形の時間的な分析と周波数(周波数)の分析です。

 

3  音声波形の形から感情を読み取る

Nemesysco社は、人間の音声波形を眺めていると、ときどき波形が平坦になる部分(プラトーと言います)と棘のように急峻に変化する部分(ソーンと言います)があることに気が付きました。図6にその波形のイメージを示します。

これらの出現割合、平均時間長、及び平均からの偏り(偏差)の値がさまざまな感情要素に関係していることを実際の音声データを用いて導き出しました。例えば人間がストレス状態に置かれると平坦部分の偏差が大きくなり、平坦部分が次々と大きくなったり小さくなったりすることを繰り返します。興奮状態になると棘の部分の出現回数が多くなります。感情と音声波形に関するこれらの関係性から、いろいろな感情に対する計算式を導出して話者の感情状態を数値で出力します。残念ながらこれらの計算式は企業秘密として公開されていません。これらの計算式を用いた計算量は人口知能・機械学習の計算量に比べて圧倒的に小さく、普通のPCでも十分に使えます。

 

4 周波数の分布から感情を読み取る

Nemesysco社は次に音声波形に含まれるさまざまな周波数が感情に関係していることに気づきました。まず話者の発する声の波形を高速フーリエ変換(FFT Fast Fourie Transformation)という手法でどのくらいの周波数がどの程度含まれているかを調べます。

横軸は周波数で縦軸は音の圧力です。対数軸ですので横軸は右にいくほど縦軸は上にいくほど間隔が小さくなります。

そして、話者の周波数を3つの領域に区別します。図7では対数目盛なのでA,B,C領域の長さが異なるように見えますが、実際の周波数帯域の大きさは同じです。

      • 低い周波数帯(図7のAの領域)
      • 比較的高い周波数帯(図7のBの領域)
      • 最も高い周波数領域(図7のCの領域)

さらに、最も周波数成分の高い周波数を

  • 主周波数(図7のMのこと)

と言います。これらの領域と話者の感情との関係は次のようになります。

  • 低い周波数帯

話者の思慮・思考の程度、論理的な感情の程度に関係します。この領域の周波数が少ない会話は低思考で論理的矛盾を感じずに納得感をもって話していることを示し、多い会話は深く思慮しながら話しており、場合によっては論理矛盾を感じながら話していることを示します。

  • 比較的高い周波数帯

話者の情緒や、感情的に話しているかどうかに関係します。この領域の周波数が多い場合は話者が感情的に話していることを示します。愛情をもって話しているときはこの領域の周波数が多くなります。

  • 最も高い周波数領域

この領域は躊躇の度合いに関係しています。ここの周波数が多い場合は躊躇の感情の度合いが高いと推定されます。

  • 主周波数

会話の中の最も大きな周波数成分が話者の周波数帯域のどこに位置するのかを示す指標です。話者の注意力と集中力の程度を示します。この値は規範に従う傾向か状況に合わせて話す傾向かを示ます。この値が大きいと話者が高い関心を持った話題を話している状態を示します。

 

5  感情推定アルゴリズム

Nemesysco社は上記で述べた時間的音声波形と周波数分布からさまざまな感情要素(怒り、喜び、躊躇、ストレス、エネルギー、等)を導出するアルゴリズム(計算手順)を導き出しました。この手法の最大の特長は計算量が人口知能や機械学習に比べて圧倒的に少なくて済むことです。従って一般のPCでも感情解析ができるようになります。

もちろん、このアルゴリズムの正当性は実際の音声データで検証する必要があります。そのため、世界中のあらゆる言語の音声データを集めて日々検証しています。

警察捜査の調査や取り調べで、容疑者や参考人の音声から感情を推定するために、一部警察機関では当社が提供したソフトをご使用されています。その経験では驚くほど被疑者や参考人の感情が推定できるとの感想をいただいています。

以上


テーマ