BLOG

音声活用ブログ

11 音声は何を伝えているか?|音声活用ブログ

2021.03.23

テクノロジー

テーマ:

11 音声は何を伝えているか?

音声は単に言語的情報を伝えるだけではなく、文字に出来ない情報や、話者が意図的にコントロール出来ない感情情報が含まれています。今回のブログでは音声にはどのような情報が含まれているのかを簡単に説明します。

日本音響学会編の音声サイエンスシリーズに「音声は何を伝えているか」という書籍があり、音声にはどのような情報が含まれているのかが説明されています。音声関連分野を専攻している研究者や学生向けの本ですが、一般の人でも十分読める内容です。音声感情解析に興味がある方々の一読を勧めます。以下はその本に記載されている内容をベースに当社の見解を付け加えて解説したものです。

 

 1.音声が伝達する情報

 話者が聞き手に音声で伝達する情報は言語的情報、パラ言語的情報、及び非言語的情報の3種類に分類されます。これは「藤崎の分類*」と言われています。

  1)言語的情報

   文字により表現が可能で、話者が意図的に生成する情報です。音声から文字への変換ソフトの対象となる情報です。

  2)パラ言語的情報

 パラと言う接頭辞は英語のbesideに相当し、周辺的と言う意味です。パラ言語的とは言語周辺的と言う意味で、文字には表現できないが話し手の意志を伝える情報のことを言います。例えば「これを下さい」という場合に丁寧に言う場合とぞんざいに言う場合があると思います。前者は聞き手に感謝を伝え、後者はいらいら感や怒りを伝えることが出来ます。俳優は演技で音質を変えパラ言語情報を伝えます。

  3)非言語的情報

 これは話者が意図的に制御できない感情を伝える情報です。不随意感情とも言われます。例えば怒りがこみ上げて来て自分の意志とは無関係に声が震えるとか、冷静に声を出そうとしてもおかしくて声が波打つようになってしまう時の情報です。この情報は発話者が伝えようとした情報が聞き手に必ずしも正確には伝わるとは限らず、聞き手の主観評価により、発話者が発した同じ音声でも、聞き手により、ある人には悲しく聞こえ、別の人には愉快に聞こえる場合があります。時には発話者自身も何を伝えようとしていたのかを理解できていません。この情報に関して人間の判断は曖昧です。

当社の提供する音声による感情解析ソフトESASではこの非言語的情報を数値化して出力します。従って、話し手の真の感情をとらえる事ができ、かつ聞き手の特性によらない客観的な感情数値を得る事ができます。

 

 2.音声による感情の表出

 感情を喚起する何らかの刺激が人に与えられると顔の青ざめや冷や汗などの生理的反応が起こり、音声や表情、姿勢などで感情を外部に対して表出し、さらに自分が特定の心の状態(腹が立っている、落ち込んでいる、など)にあることを意識します。これらが話者の音声に影響を与えます。音声生成に対する自律神経系により呼吸器系に作用し声門が変化し音声の基本周波数(F0)が変化します。さらに表情変化の影響を受けて実効声道長が変化してフォルマント周波数(共鳴周波数)が変化します。笑顔のときには口角が上がって実効声道長が短くなりフォルマント周波数が高くなりますし、怒りで口をとがらせるとフォルマント周波数は低くなりドスの効いた声になります。このようなメカニズムで感情が音声に反映されます。

当社の感情解析ソフトESASの中で基本エンジンとして採用されているネメシスコ社のコアソフトでは、声の周波数変化を微細に分析して発話者の感情を数値化しています。その基本情報をもとにESASが目的毎(コールセンター用途人事用途、等)に最適化した感情情報に組み立てて出力しています。

 

 3.感情の理論モデル

 感情の理論的なモデルには基本感情説と感情次元説の2つの立場があり古くから論争が続いていました。

   1)基本感情説

  離散情動理論とも言われ、感情は先天的なものであり環境や文化に依存しない普遍的なものであるという立場を取る説です。学者により異なりますが少数の基本感情を仮定します。例えば中立、怒り、嫌悪、驚き、幸福、恐れ、悲しみ、興味、退屈などです。これらの感情には別々の神経回路が作動し、基本感情毎に別々の特有な生理反応パターンが存在すると主張する学説です。

   2)感情次元説

  感情状態を2次元あるいは3次元空間上のベクトルと考え、感情の類似性をベクトルの類似性で説明する学説です。例えば喜びや悲しみなどの特別な感情があることを仮定せず、ベクトルの方向が異なるとする説です。例えばラッセルという学者はx軸とy軸からなる2次元平面を考え、x軸は不快―快を表し、y軸は覚醒―睡眠を表すものとして、(x,y)の組み合わせで感情を表現する円環モデル(図参照)を提唱しています。(J.A Russel A circumplex model of affect, J.Pers. Soc.Psychol.,39(6), pp.1161-1178(1980) )

 当社の感情解析ソフトESASのコアとして採用されているネメシスコ社の感情解析は基本感情要素を仮定し、かつ基本感情の組み合わせによる感情を数値化しています。すなわち、基本感情説と次元説の両方を採用しています。どの感情要素を基本感情とし、どの感情を次元的に定義するかは長年により採取した膨大な音声データを解析することにより決定しています。当社では単にネメシスコ社から得られたデータのみでなく、長年実際に日本でのコールセンター運営で収集した百数十万の音声会話データを解析して基本感情と次元的感情を決定し商品化しています。この決定メカニズムは当社の企業秘密であり非公開とさせていただいております。

 

 4.まとめ

    当社は声を分析して感情数値を提供することにより顧客のビジネスに役立てて頂くことをモットーとしていますが、その活動の中で感情出力を何の目的でどのようにビジネスに活かすかにより最適な感情の表現方法があることに気づき、単にネメシスコの社の基本ソフトを販売するのではなく用途目的別にESASを開発しました。これはESAS Core ServiceESAS CallCenter ServiceESAS HR ServiceESAS Insurance Service、及びESAS Security Serviceです。 詳細につきご興味をお持ちの方々は是非当社ホームページのESASシリーズをご一読下さい。

 

  *藤崎の分類 東京大学名誉教授である藤崎博也氏の提言した分類方法

            https://nrid.nii.ac.jp/ja/nrid/1000080010776/

以上


テーマ