BLOG

音声活用ブログ

14 ネメシスコ社の特許(その2)|音声活用ブログ

2021.04.27

Nemesysco社

テーマ:

14 ネメシスコ社の特許(その2)

WRITER

都筑 一雄

都筑 一雄

ESジャパン株式会社
エグゼクティブアドバイザー

慶応義塾大学及び東北大学大学院で物理学専攻。修士課程修了後、日本電気(NEC)に36年間勤務。製品開発、システム構築、事業部運営、欧州合弁会社立上げ等、役割は変化したが一貫して音声関連の通信事業に関与。NEC退職後は滋賀県彦根市役所の行政情報化担当特別顧問を5年間務め、退任後、ESジャパン株式会社の設立発起人として創業に関与し現在に至る。

前回のブログに引き続き当社がゴールドパートナーとなっているイスラエルのネメシスコ社が保有している2番目の米国特許”APPARATUS AND METHODS FOR DETECTING EMOTIONS IN THE HUMAN VOICE”(人間の声の中の感情検出の装置と方法)についてその概要を説明します。

ネメシスコ社は感情検出に関する2つの米国特許を保有しています。前回のブログでは最初の特許の内容について説明しましたが、今回は引き続き2番目の特許を説明します。

  1. この特許の概要

1番目の特許は音声波形の時間的変化を用いて感情を検出しましたが、2番目の特許は音声波形に含まれる周波数成分を分析して感情を検出するものです。被験者の感情状態は次の解析結果として定義されると述べられています。

  • sub-conscious emotional state(副意識感情状態)
  • sub-conscious cognitive state(副意識認知状態)
  • Anticipation level(躊躇のレベル)
  • attention level(注意力のレベル)
  • Love Level(愛情レベル)

面白いことに被験者の感情状態には愛情検出(love detection)レポートが含まれていると記載されています。

尚、この特許の基本となる周波数分析についてはBlog12で解説していますのでそちらを参照して下さい。

  1. 周波数分析データと感情との関係

この特許には音声の周波数分析例がいくつか載っています。その中の図2Aを下記に示します。非常に単純化しており、被験者の音声帯域を低周波数から高周波数まで周波数帯域を16個に区分しています。この解説ではその周波数区分を周波数の低い方から第1周波数スペクトラム(FS)、第2FS、・・・、第16FS、と呼ぶことにします。さらにそれらの区分を下記に示すように4つに分類しています。

  1) Sub Cognitive Area(副認知領域)
周波数スペクトラム第1FS+第2FS+第3FSのことを言います。この領域の周波数成分の強度を第1から第16FS全体の強度に対する割合を感情データとして取得します。(図2Aの例では12%)この値により被験者の認知状態を推定します。例えば次のように推定します。

    ・ 20%以上 高い状態

    ・ 10%~20% 通常状態

    ・ 10%以下 低い状態

  2) Sub Emotional Area (副情緒感情領域)
周波数スペクトラム第11FS+第12FS+第13FSのことを言います。この領域の周波数成分の強度を第1から第16FS全体の強度に対する割合を感情データとして取得します。(図2Aの例では12%)この値により被験者の情緒的状態を推定します。例えば次のように推定します。

    ・ 20%以上 高い状態

    ・ 10%~20% 通常の状態

    ・ 10%以下 低い状態

  3) Anticipation Area (躊躇感情領域)
周波数スペクトラム第14FS+第15FS+第16FSのことを言います。この領域の周波数成分の強度を第1から第16FS全体の強度に対する割合を感情データとして取得します。(図2Aの例では13%)この値により被験者の躊躇の度合を推定します。これを用いてnormative (規範に従う傾向)かcircumstantial(状況に合わせる傾向)かを判断すると述べられています。

    ・ 10%以上 高い状態

    ・ 5%~10% 通常の状態

    ・ 5%以下 低い状態

  4) Main Frequency(主周波数)

さらに、周波数スペクトラムから主周波数を検出します。これは分析された周波数スペクトラムの中で最も大きな成分の周波数として定義されます。図2Aの例では主周波数は第8FSで、その周波数FSの値は30%です。主周波数はattention levelとconcentration level(集中力のレベル)の指標であると述べられています。これを用いてnormative分析 (規範に従う傾向)かcircumstantial分析(状況に合わせる傾向)か、その他の分析に用いると記載されています。

    ・ 40%以上 高い状態

    ・ 20%~40% 通常の状態

    ・ 20%以下 低い状態

 3.感情推定の例

この特許には被験者音声の周波数分析の例が上述した図2A以外に下記に示す図2Bと図2Cが記載されています。

上述の記述に従ってこの2つの図を分析すると、以下の表のようになります。

 4. 愛情推定の例

この特許の中ではLove levelの推定方法が記述されています。これはsub-conscious emotion データを用います。このデータの累積値が予め定められた閾値よりも高くなれば愛情レベルが高まったと判定し、別に設定した閾値よりも下がれば低下したと判定するものです。例えば情緒感情領域の累積値が30%を越えた時には愛情カウンターの値を0.3増加させ、40%以上になったらさらに0.2増加、50%以上になったらさらに0.3追加すると記載されています。

 5. 特許請求項の内容

前回のブログでも記載しましたが、特許は、学術論文とは異なり、周波数スペクトラムの分析により感情検出が何故できるのかについては述べられていません。そのやり方のみが記載されています。具体的には次の18個の項目について特許権を主張しています。

  1) 周波数分析を行うことで感情を推定する装置で下記の分析を含む。

    (a) スペクトラムの最もスペクトラム値の大きい周波数

    (b) 最低周波数のスペクトラム値のうちの少なくとも一つの合計

    (c) 比較的高周波数のスペクトラム値のうちの少なくとも一つの合計

    (d) 最高周波数のスペクトラム値のうちの少なくとも一つの合計

    (e) 最もスペクトラム値の大きい周波数におけるスペクトラム値のパーセント

  2) Sub-Conscious Cognitive Activityレベルからなる感情に関する請求項1)に関する装置

  3) Sub-Conscious Cognitive Activityレベルをスペクトラム分析で検出する請求項2)に関する装置

        4)    Sub-Conscious Emotion Activity レベルからなる感情に関する請求項1)に関する装置

        5)     Anticipation Activity レベルからなる感情に関する請求項1)に関する装置

        6)     Anticipation Activity レベルをスペクトラム分析で検出する請求項5)に関する装置

  7)     Attentionレベルからなる感情に関する請求項1)に関する装置

        8)    Love Report(愛情報告書)を生成する為に感情を収集し分析する請求項1)に関する装置

        9)    被験者の性的興奮レベルを示す為に感情を収集し分析する請求項1)に関する装置

   10)    画面を使って感情指標を示す請求項1)に関する装置

       11)    画面、文字、グラフィックからなる請求項10)に関する装置

       12)    音を使って感情報告をなす請求項1)に関する装置

       13)    決められた感情状態に反応して動く物体からなる請求項1)に関する装置

       14)    電話か電話線の少なくとも一つからなる音声入力の請求項1)に関する装置

       15)     マイクロフォンからなる音声入力の請求項1)に関する装置

       16)     ネットワークインターフェースからなる音声入力の請求項1)に関する装置

       17)     “Dens”定数の値あるいは同等の数学的定数値を用いて音声スペクトラムを計算あるいは分析する請求項1)に関する装置。ここでDens=Pi/180である。

       18)     個人の無意識感情を検出する方法で下記を含む。

                  (a)   アナログ音声データの受信

                  (b)   アナログ音声データをデジタル化したデータの獲得

                  (c)    このデジタルデータを基礎として個人の感情状態の決定

                  (d)    決定された感情状態の一部から感情の種類を生成。この決定は下記からなる。

                             デジタルデータの適切な複数の標本から予め決められた下図の周波数のスペクトラムを計算し、個人の感情状態指標を得るために少なくとも下記の1つを用いて音声セグメントのスペクトラム分析を行う。

                            (ⅰ)   スペクトラムの値が最大となる周波数

                            (ⅱ)  最低分析周波数の少なくとも一つの全和

                            (ⅲ) スペクトラムの比較的高スペクトラム範囲での少なくとも一つの周波数の全和

                            (ⅳ)  最大分析周波数の少なくとも一つの全和

                            (ⅵ)  スペクトラムの値が最大となる周波数の寄与のパーセント割合

 

  6. まとめ

人間の感情を声から検出する方法はいろいろありますが、前回のブログで説明した音声波形の棘波と平坦波を用いてイントネーション情報を抽出して検出する方法に加え、音声の周波数領域のスペクトラムを用いて感情を推定する手法がこの特許の肝になります。ネメシスコ社の提供するソフトウエアは時間的な音声波形変化の分析データと周波数分析データの両方を用いて感情を推定していますが、単に定式化した計算方法を適応しただけでは正確な感情推定はできず、実は何百万というデータを用いて検証しながら計算方法や閾値データを修正しています。当社も日本の環境で収集したデータを用いて感情推定精度の向上に日々努めています。

以上