BLOG

音声活用ブログ

ネメシスコ社が保有している米国特許について

2021.04.26

Nemesysco社

テーマ:

13 ネメシスコ社の特許(その1)

WRITER

都筑 一雄

都筑 一雄

ESジャパン株式会社
エグゼクティブアドバイザー

慶応義塾大学及び東北大学大学院で物理学専攻。修士課程修了後、日本電気(NEC)に36年間勤務。製品開発、システム構築、事業部運営、欧州合弁会社立上げ等、役割は変化したが一貫して音声関連の通信事業に関与。NEC退職後は滋賀県彦根市役所の行政情報化担当特別顧問を5年間務め、退任後、ESジャパン株式会社の設立発起人として創業に関与し現在に至る。

 当社がゴールドパートナーとなっているイスラエルのネメシスコ社が保有している米国特許”APPARATUS AND METHODS FOR DETECTING EMOTIONS”(感情検出の装置と方法)についてその概要を説明します。

ネメシスコ社は感情検出に関する次の2つの米国特許を保有しています。

  • APPARATUS AND METHODS FOR DETECTING EMOTIONS
    (感情検出の装置と方法)

   特許番号          US 6638217

   取得日              2003年10月28日

   発明者              Amir Liberman

  • APPARATUS AND METHODS FOR DETECTING EMOTIONS IN THE HUMAN VOICE
    (人間の声における感情検出の装置と方法)

   特許番号          US 7165033

   取得日              2007年1月16日

   発明者              Amir Liberman

前者は音声会話から感情状態を検出する方法についての基本的な方法についての特許であり、音声波形の時間的な変化から感情を検出方法です。後者は音声波形の周波数成分を分析して感情を検出する装置と方法についての特許です。いずれもネメシスコ社代表であるアミール・リバーマン氏が発明者として登録されています。今回は前者の概要について掲載します。後者は次回以降に掲載予定です。

 

 1.この特許の概要

 個人の声から、その音声波形に含まれる棘波形(Thorn)の数と平坦波形(Plateau)の長さの変化に基づきイントネーション情報を導き出し、それによりその個人の感情状態を検出する方法で、16個の特許請求項(Claims)からなります。

 

 2.ThornとPlateau

 この特許の肝は音声波形の中に現れる棘のような波形(Thorn)と平坦な波形部分(Plateau)を用いて被験者の感情を検出することです。この特許中に記載されている図2と図3を下記に示します。前者はThornの波形を後者はPlateauの波形を示します。

被験者の音声振幅の時間的な変化をグラフにすると、図2に示すように短時間で急速に振幅が変化する部分がありそれを棘(Thorn)と名付けています。また図3に示すように比較的長時間振幅が変化しない部分があり、それを平坦(Plateau)と名付けています。予め定められた時間間隔(セグメント)に出現するThornの出現割合(SPT)とPlateau出現割合(SPJ)及びその平均長及び標準誤差を求め、これらを解析して感情を検出する方法がこの特許で述べられています。

 

 3.感情検出アルゴリズム

この特許では感情検出のアルゴリズムが5ページにわたるフローチャートを用いて述べられています。その最初のフローチャートを下記に示します。

また、付録としてこのアルゴリズムをプログラミングした例が示されています。その一部もフローチャートの下に示します。

特許本文では、この特許を実施するための方法について詳細に説明がなされていますが非常に細かな記述ですので、本特許本文中で示されている例を用いて要点だけを下記に示します。受信した音声は一定の時間間隔(セグメント:0.5秒から2秒程度)毎に下記の4つの特徴パラメーター(4次元情報と言います)を取得します。

     SPT     セグメントの中に表れるThornの出現数

     SPJ       セグメントの中に表れるPlateauの出現数

     AVJ       セグメントの中に表れるPlateauの平均長(時間)

     JQ        セグメント中のPlateauの時間長偏差平方根

被験者のデータは2つのモードで取得します。

   a. キャリブレーション(校正)モード

    被験者が感情的に中立、あるいは嘘をついていない期間のことを言います。

   b. 試験モード

    被験者の感情状態を検出すべき期間のことを言います。

上記2つのモードでSPT、SPJ、AVJ、JQを取得しその差分を計算します。これらの差分データを用いて次の情報を計算します。

crLIE=((SPT差分+1) *(SPJ差分+1) *100+((JQ差分−JQ平均) *1.5

crSTRESS=(JQ差分*100) を示す整数

crTHINK=(AVJ差分*100) を示す整数

crEXCITE=(((SPT差分/2+1) *900) +crSTRESS)/100

この値を用いて被験者の感情状態を出力します。例えば次のように出力します。

もし 130<crLIE<170 ならば    “Exaggeration”(誇張)

もしcrLIE=>170ならば           “LIE”(嘘)

もしcrLIE<60ならば               “Truth”(真実)

もしSPJ差分>0.2ならば         “Confusion/Not sure”(混乱/不確か)

もしcrEXCITE>160ならば       “Excitement”(興奮)

特許本文では上記の方法は感情検出の一例であって特徴パラメーターは上記の4つの場合のみでなく3つの場合も、もっと多くのパラメーターを用いる場合もあり、アプリケーションに依存すると述べています。上記がこの特許で述べている感情検出の方法の概要です。

 

 4.特許請求項の内容

特許は、学術論文とは異なり、Thorn(棘)とPlateau(平坦)により感情検出が何故できるのかについては述べられていません。そのやり方のみが記載されています。このやり方はネメシスコ社の特許権であり、他者が使用したら特許侵害に当たると主張していることになります。具体的には次の16個の項目について特許権を主張しています。

1) 感情状態を音声試料のイントネーション情報から検出する方法であり、音声の中に含まれるThornの数とPlateauの長さの変化に関する情報から被験者の興奮レベルを検出して出力する方法。

2) 音声試料が電話回線で提供される場合の請求項1)による方法。

3) 出力が嘘検出レポートを含む場合の請求項1)による方法。

4) イントネーション情報が多次元イントネーション情報を含む場合の請求項1)による方法。

5) 多次元情報に少なくても3次元情報を含む場合の請求項4)による方法。

6) 多次元情報に少なくとも4次元情報を含む場合の請求項5)による方法。

7) 予め決められた時間間隔中のThornの数からなるThornに関する情報の場合の請求項1)による方法。

8) Thornの時間的な分布からなるThornに関する情報の場合の請求項7)による方法。

9) Plateauに関する情報を含むイントネーション情報の場合の請求項1)による方法。

10) 予め決められた時間間隔中のPlateauの数からなるPlateauに関する情報の場合の請求項9)による方法。

11) Plateau長に関する情報が予め決められた時間間隔に対する平均Plateau長からなる場合の請求項1)による方法。

12) Plateau長に関する情報が予め決められた時間間隔に対するPlateau長の標準誤差からなる場合の請求項1)による方法。

13) 音声試料がある周期をもつ主要波からなり、その受信段階にPlateauの発生率を決定するため音声試料を解析して各平坦波は局所的低周波数波として主要波に重畳していることを示し、この発生率に基づき適切な出力を生成する場合の請求項1)による方法。

14) 請求項1)による方法において:
個人から発せられた音声試料の複数の特性を受信段階で定量化し、この定量化された複数の特性から嘘検出の出力を行う方法。

15) 請求項1)による方法において:
受信段階で、対象者が感情的に中立である期間(第一期間)中の複数の感情に関連したパラメーターのモニタリングを行って、対象者の安静時の多次元的感情の特性範囲で感情に関するパラメーター領域の関数を定義し;対象者の感情を検出すべき期間(第二期間)中の対象者の感情に関するパラメーター値を上記の特性領域を考慮して獲得する生成段階からなる方法。

16) 個人の音声試料を受信してイントネーション情報を抽出し、このイントネーション情報に基づきその個人の感情状態をThornとPlateauを使って個人の感情状態を検出する方法。

以上の16個が特許請求項目です。特許範囲を広く設定するために16個にもなりますが、要は、棘波と平坦波を用いた方法で感情と嘘を検出する装置であると述べています。

 5.まとめ

人間の感情を声から検出する方法はいろいろありますが、音声波形の棘波と平坦波を用いてイントネーション情報を抽出して検出する方法はネメシスコ社が特許を有しており特許使用許諾権を得ていない他社はこの方法を用いることは出来ません。抽出したイントネーション情報の更なる処理方法と様々な感情要素に対する値の出力方法はLVA(Layered Voice Analysis 層別音声解析)としてまとめられ、ネメシスコ社のホームページに公開されています。また当社のブログNo.1No.2でも解説しておりますこちらも参考にしていただければ幸いです。

以上

*4.においては英文の特許を訳しており分かりにくい表現が含まれますがご容赦下さい。