WO2000049834A1

WO2000049834A1 - Dispositif de conversion de la parole et procede correspondant

Info

Publication number: WO2000049834A1
Application number: PCT/JP2000/000872
Authority: WO
Inventors: Toshihiko Oba
Original assignee: Yugen Kaisha Gm & M
Priority date: 1999-02-16
Filing date: 2000-02-16
Publication date: 2000-08-24
Also published as: AU2571900A; EP1083769B1; EP1083769A1; ATE471039T1; DE60044521D1; EP1083769A4; JP4439740B2; CA2328953A1; US7676372B1

Description

明細書音声変換装置及び方法技術分野本発明は、マイク口ホン等により検出した音声を聴力障害者が理解しやすい形式に加工変換して提示したり、音声言語障害を持つ者より発せられた音声や音声言語障害を是正するために用いる補助的装置や手段（例：喉頭摘出者の代用発声法（speech production su bstitutes) ) により発せられた音声を加工変換して出力したりする音声変換装置及び方法に関する. ₌ 背景技術従来から補聴器には、気導方式と、骨導方式があり、また処理方式としてアナログ補聴器（リニアタイプ、ノンリニアタイプ（K一アンプ）、コンプレツシヨンタイプ等）とディジタル補聴器がある ₌ 補聴器の種類は、箱形、耳かけ型、 CROS (Contra-lateral Routing of Signal) 型、耳穴形、 bone- anchored型等がある。小寺の報告により補聴器には集団使用の大型（卓上訓練用、集団訓練用）、個人的使用の小型のものがある（参照 Kodera K,図説耳鼻咽喉科 new a pproach 1 Medical view, 39, 1996) _:

ディジタル補聴器は、マイクロホンで検出した音声を先ず A/D (a nalog/digital) 変換によりディジタルデータを生成し、例えばフ一リェ変換により入力されたディジタルデータを周波数スベタトルに解し、各周波数帯域毎に音声の感覚的な大きさに基づいた増幅度の算出を行い、ディジタルデータをディジタルフィルターに通過させて D/A変換を行って再び音声を使用者の耳に出力するように構成されている。これにより、ディジタル補聴器は、話し手の音声を雑音の少ない状態で使用者に聞かせていた。

また、従来、例えば喉頭摘出による音声障害者は、声帯振動による発声機構を失い、音声生成が困難になる。

喉頭摘出者の代用発声法には、（ 1 ) 人工材料（例：ゴム膜（笛式人工喉頭）、（2 ) ブザー（例：電気式人工喉頭）、（ 3 ) 下咽頭 ·食道粘膜（例：食道発声、気管食道瘻発声、ボイスブロステーシス（voice prostheses) 使用の気管食道瘻発声）、 (4 ) 口唇の筋電図、（5 ) 発声発話訓練装置（例 CISTA)、 ( 6 ) バラトグラフ (palatograph) 、（ 7 ) 口腔内振動子等によるものがある ₌

しかし、上述したディジタル補聴器では、各周波数帯域毎にディジタルデータを増幅させる処理を行っているだけなので、マイクロホンにより周囲の音を無作為に収音し、雑音をそのまま再生して使用者の不快感が残り、アナログ補聴器と比べても、種々の聴力検査において大幅な改善はなかった。また、従来のディジタル補聴器では、難聴者の身体状態、利用状態及び使用目的に応じて検出した音声に対する処理を適応させることはなされていなかった：

また、代用発声法は、喉頭摘出前の声帯振動によるものではなく、生成する音声の音質が悪く、本来正常であった本人が発していた声とはかけ離れているという問題点が挙げられる。発明の開示本発明の目的は、使用者の身体状態、利用状態及び使用目的に応じて音声認識の結果を提示するとともに、ノイズが少ない状態で認識結果を提示することができる音声変換装置及び方法を提供することにある。

本発明の他の目的は、喉頭摘出、舌口腔底切除、構音障害（art i cu l ati on d i sorder) 等による音声言語障害者が本来自身がもつ、或いは自在に変換させて自然な音声での発声を可能とするとともに、外部の音声を使用者に出力して自然な会話を行わせることができる音声変換装置及び方法を提供することにある。

上述したような目的を達成するため、本発明に係る音声変換装置は、音声を検出して音声信号を生成する音響電気変換手段と、音響電気変換手段からの音声信号を用いて音声認識処理を行う認識手段と、認識手段からの認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段と、認識手段により認識された結果及び又は認識結果を変換手段により加工変換した認識結果を出力させる制御信号を生成する出力制御手段と、出力制御手段で生成された制御信号に基づいて認識手段により認識され変換手段により加工変換された認識結果を出力して認識結果を使用者に提示する出力手段とを備えることを特徴とする：

上述の課題を解決する本発明に係る音声変換方法は、音声を検出して音声信号を生成し、音響電気変換手段からの音声信号を用いて音声認識処理を行い、認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換し、認識結果及び Z又は認識結果を加工変換した認識結果を出力させる制御信号を生成し、制御信号に基づい加工変換した認識結果を出力して認識結果を使用者に提示することを特徴とする。

本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例の説明から一層明らかにされるであろう。図面の簡単な説明図 1は、本発明を適用した補聴器の外観の一例を示す斜視図である。

図 2は、本発明を適用した補聴器の構成を示すプロック図である。図 3は、本発明を適用した補聴器の表示部で認識結果及び加工変換結果を表示する一例を説明するための図である。

図 4は、本発明を適用した補聴器の表示部で加工変換結果を表示する一例を説明するための図である：

図 5は、本発明を適用した補聴器の表示部で認識結果及び加工変換結果を表示する他の一例を説明するための図である。

図 6 Aは所定の音量でマイク口ホンに音声が入力されたときに表示部に表示する図柄を示す図であり、図 6 Bは上記所定の容量よりも小さい音量でマイク口ホンに音声が入力されたときに表示部に表示する図柄を示す図である。

図 7は、本発明を適用した補聴器でオーダメント · リアリティ (Augument ed Real i ty : AR) を作るための構成を示すブロック図である。発明を実施するための最良の形態以下、本発明の実施の形態について図面を参照しながら詳細に説明する。

本発明は、例えば図 1及び図 2に示すように構成された補聴器 1 に適用される。この補聴器 1は、図 1 に示すように、ヘッドマウントディスプレイ（head- mount ed di sp lay : HMD) 2 と、音声認識、音声情報の生成等を行うコンピュータ部 3 との間を光ファイバ一ケ一ブル 4で接続してなる携帯型のものである。また、コンピュータ部 3は、例えば使用者の腰部に装着されるような支持部 5に付属して配設され、当該支持部 5に付属したバッテリ 6からの電力供給により駆動するとともに、 H M D 2を駆動させる。

H M D 2は、使用者の目前に配置されるディスプレイ部 7 と、使用者からの音声を検出する使用者用マイクロホン 8 と、使用者に音声を出力する音声出力部 9 と、使用者の頭部に上述の各部を配置させるように支持する支持部 5 と、外部からの音声等を検出する外部用マイクロホン 1 1 とを備える：

デイスプレイ部 7は、使用者の目前に配されることで例えば使用者用マイクロホン 8及び/又は後述の外部用マイク口ホン 1 1で検出した音声の意味内容等を表示する：なお、このディスプレイ部 7 は、コンピュータ部 3からの命令に応じて、上述の音声の意味内容のみならず、他の情報を表示しても良い。

使用者用マイクロホン 8は、使用者の口元付近に配設され、使用者が発した音声を検出する。そして、この使用者用マイクロホン 8 は、使用者からの音声を電気信号に変換してコンピュータ部 3に出力する。

夕] ^部用マイクロホン 1 1は、丸板状に形成された音声出力部 9の側面に設けられる。この外部用マイクロホン 1 1は、外部からの音声を検出して電気信号に変換してコンピュータ部 3に出力する。

この使用者用マイクロホン 8及び外部用マイクロホン 1 1は、配設する位置を問わず、使用者の操作に応じて、種々のマイク（音圧マイクロフォン (pressure microphone) 、音圧頃度マイクロフォン

(pressuer gradient microphone) 、ノヽフメトリックマイクロフォン、レーザドッブラマイクロフォン、骨導マイク、気導音と骨導音を拾い上げるマイクをもつ超小型送受話一体ュニットのマイク（日本電信電話製）、無指向性マイク、単一指向性（超指向性等）マイク、双指向性マイク、ダイナミックマイク、コンデンサ一マイク

(エレクトレットマイク）、ズームマイク、ステレオマイク、 M S ステレオマイク、ワイヤレスマイク）、セラミックマイク、マグネティックマイク）や音響信号処理技術（音響エコーキャンセラー

(acoustic ecno cancellerノ ) 、マづクロフオンアレイ (microph one array; ) ¾r用レヽてもよレヽ _c

また、イヤホンとしては、マグネティックイヤホンが使用可能である ₌ マイクとイヤホンは、拡声器、補聴器等、マイクは人工中耳

• 内耳、聴性脳幹インブラント、タクタイルエイド、 bone 'conduct ion ultrasound system等で従来用いられているものを使用しても良い ₌ これらのマイクの収音技術として、エコーキャンセラ等を用いても良い:

また、これらのマイクロホン 8， 1 1は、従来より採用されている利得調整器と音声調整器と出力制御装置（maximam output power contro l式、 automat i c recru i tment cont ro l compres si on式等) を適 j|したものが使用可能である。

更に、使用者用マイクロホン 8及び外部用マイクロホン 1 1は、図 1 に示すように、別個に設ける一例のみならず、一体に構成されたものであっても良い。

支持部 5は、例えば形状記憶合金等の弾性材料等からなり、使用者の頭部に固定可能とすることで、上述のディスプレイ部 7，使用者用マイクロホン 8，音声出力部 9を所定の位置に配設可能とする。なお、この図 1に示した支持部 5は、使用者の額から後頭部に亘って支持部材を配設することでディスプレイ部 7等を所定位置に配設するものの一例について説明したが、所謂へッドホン型の支持部であっても良いことは勿論であり、音声出力部 9を両耳について設けても良い。

コンピュータ部 3は、例えば使用者の腰部に装着される支持部 5 に付属されてなる。このコンピュータ部 3は、図 2に示すように、例えばマイクロホン 8， 1 1で検出して生成した電気信号が入力される。このコンピュータ部 3は、電気信号を処理するためのプログラムを格納した記録媒体、この記録媒体に格納されたプログラムに従って音声認識、音声情報の生成処理を行う C P U ( Central Proc ess i ng Uni t ) 等を備えてなる。なお、このコンピュータ部 3は、腰部のみならず、頭部の H M D 2 と一体化しても良い c

コンピュータ部 3は、使用者用マイク口ホン 8及び Z又は外部用マイクロホン i 1で検出した音声から生成した電気信号に基づいて、記録媒体に格納されたブログラムを起動することで、 C P Uにより音声認識処理を行うことで、認識結果を得る：これにより、コンビユータ部 3は、 C P Uにより、使用者用マイクロホン 8及び/又は外用マイクロホン 1 1で検出した音声の内容を得る。

次に本発明を適用した補聴器 1 の電気的な構成について図 2を用いて説明する。この補聴器 1は、音声を検出して音声信号を生成する上述のマイクロホン 8 ， 1 1 に相当するマイクロホン 2 1 と、マイク口ホン 2 1で生成された音声信号が入力され音声認識処理を行う上述のコンピュータ部 3に含まれる信号処理部 2 2、信号処理部

2 2からの認識結果に基づいて音声情報を生成する上述のコンピュータ部 3に含まれる音声情報生成部 2 3 と、音声データが記憶され信号処理部 2 2及び音声情報生成部 2 3にその内容が読み込まれる上述のコンピュータ部 3に含まれる記憶部 2 4と、音声情報生成部

2 3からの音声情報を用いて音声を出力する上述の音声出力部 9に相当するスピーカ部 2 5と、音声情報生成部 2 3からの音声情報を用いて当該音声情報が示す內容を表示する上述のディスプレイ部 7 に相当する表示部 2 6とを備える。

マイクロホン 2 1は、例えば喉頭摘出者の代用発声法を用いて発せられた音声又は外部からの音声を検出して、当該音声に基づく音声信号を生成する。そして、このマイクロホン 2 1は、生成した音声信号を信号処理部 2 2に出力する。

また、このマイクロホン 2 1は、使用者の口元付近に配設され、使用者が発した音声を検出する。また、このマイクロホン 2 1は、外部からの音声を検出して音声信号を生成する。なお、以下の説明においては、使用者の音声を検出するマイクロホンを上述と同様に使用者用マイクロホン 8 と呼び、外部からの音声を検出するマイク口ホンを上述と同様に外部用マイクロホン 1 1 と呼び、双方を総称するときには単にマイクロホン 2 1 と呼ぶ。

信号処理部 2 2は、マイクロホン 2 1からの音声信号を用いて音声認識処理を行う。この信号処理部 2 2は、例えば内部に備えられたメモリに格納した音声認識処理を行うためのプログラムに従った処理を行うことにより音声認識処理を実行する。具体的には、この信号処理部 2 2は、使用者の音声をサンプリングして生成し記憶部 2 4に格納された音声データを参照し、マイクロホン 2 1からの音声信号を言語として認識する処理を行う。この結果、この信号処理部 2 2は、マイクロホン 2 1からの音声信号に応じて認識結果を生成する。

この信号処理部 2 2は、例えば認識対象音声による分類と対象話者による分類の音声認識処理があり、認識対象音声による分類の音声認識処理では単語音声認識 (isolated word recognition) と連続音户 S忍 δ或 (continuous speech recognit ion; ¾ め ₀ ま 7こ、百号処理部 2 2は、連続音声認識には連続単語音声認識（continuous wor d recognit ion と文音尸認識 sentence speech recognit ion) 、会舌音声認、識 (conversational speech recognition) 、音尸理角?

(speech understanding) がある：また対象話者による分類では不特疋話者型 (.speaker independent) 、特定話者型 (speaker depen dent) 、話者適応型（speaker adaptive) 等がある。この信号処理部 2 2が行う音声認識手法としては、ダイナミックブログラミングマッチイング (Dynamic Programming matching) 、音声の特徴、隠れマノレコフモデル（Hidden Markov model :HMM) によるものがある ₌ また、信号処理部 2 2は、入力した音声を用いて話者認識（spea Ker recognition) 、古者 S或另り speaker identif icat ion、舌者照合 W

10 speaker ver i f i cat ion) を行う。このとき、信号処理部 2 2は、使用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を用いて話者認識結果を生成して音声情報生成部 2 3に出力する。また、信号処理部 2 2は、話者による変動が小さな特徴量を用いる方法、マルチテンプレート法、統計的手法を用いて不特定話者認識を行う。また、話者適応には、個人差の正規化法、話者間の音声データの対応関係によるもの、モデルパラメータの更新によるもの、話者選択によるものがある _D この信号処理部 2 2では、以上の音声認識を使用者の身体状態、利用.状態及び使用目的に応じて行う。

ここで、使用者の身体状態とは使用者の難聴や言語障害の程度等を意味し、利用状態とは使用者が補聴器 1 を使用する環境（室内、野外、騒音下）等を意味し、使用目的とは使用者が補聴器 1 を利用するときの目的、即ち認識の向上させることや、使用者が理解しやすいようにすること等であって、例えば普段話す人との対話や、不特定多数との対話や、音楽（オペラ、演歌）の観覧、講演をきくことや、言語障害者との対話である。

また、この信号処理部 2 2は、マイクロホン 2 1に入力した音声を記憶し、学習する機能を有する。具体的には、信号処理部 2 2は、マイクロホン 2 1で検出した音声の波形データを保持しておき、後の音声認識処理に用いる。これにより、信号処理部 2 2は、更に音声認識を向上させる。更に、この信号処理部 2 2は、学習機能を備えることで出力する結果を正確にすることができる。

記憶部 2 4には、信号処理部 2 2が入力された音声を認識するときに、入力された音声を検出することで生成した音声波形と比較される音声モデルを示すデータが格納されている。また、記憶部 2 4には、例えば喉頭摘出前の声帯振動による発声機ネ ^を持つ使用者の音声や、出力することを希望する音声を予めサンプリングして得たデータが音声データとして格納されている。更に、記憶部 2 4には、認識結果及び Z又は加工変換して得た認識結果に基づいて音声情報生成部 2 3により読み出される画像が格納されている- この記憶部 2 4に格納される画像は、認識結果を象徴する図柄を示す画像であって、使用者が直感的に認識結果を理解することができるような図柄を示す画像である。

また、記憶部 2 4に記録されるデータとしては、画像提示する物の画像の種類として絵、記号、文字、音符、写真、動画、ァュメ一シヨン、イラスト、音声スペクトルグラムパターン、色等がある。音声情報生成部 2 3は、信号処理部 2 2からの認識結果及び記憶部 2 4に格納された使用者の音声を示す音声データを用いて、音声情報を生成する。このとき音声情報生成部 2 3は、認識結果に応じて、記憶部 2 4に格納された音声データを組み合わせるとともに、認識結果を加工変換して音声情報を生成する：このとき、音声情報生成部 2 3は、内蔵した C P U、音声情報生成プログラムを用いて音声情報を生成する。

また、この音声情報生成部 2 3は、認識結果を用いて音声から音声分析し、当該音声分析した音声の内容に応じて、音声データを再構成するという処理を行うことで、音声を示す音声情報を生成する。そして、音声情報生成部 2 3は、生成した音声情報をスピーカ部 2 5及び表示部 2 6に出力する. ₌

更に、音声情報生成部 2 3は、信号処理部 2 2からの認識結果を、使用者の身体状態、利用状態及び使用目的に応じて加工、変換、合成等をして音声情報を生成する処理を行う ₌ 更に、この音声情報生成 2 3は、マイクロホン 2 1で検出された音声を使用者に提示するための処理を認識結果及び Z又は加工等をして得た認識結果について行う。

更にまた、音声情報生成部 2 3は、認識結果から生成した音声情報を修飾して新たな音声情報を生成しても良い。このとき、音声情報生成部 2 3は、使用者の身体状態、利用状態及び使用目的に基づいて、更に使用者が理解し易い言葉を付け加えることで、使用者の音声の認識を更に向上させる。このような処理をする音声情報生成部 2 3は、例えばマイクロホン 2 1 に「ビックマック」と入力されたときには、例えば「マクドナルドのビックマック（登録商標）」を示す音声情報を生成する。

更にまた、この音声情報生成部 2 3は、音声情報を表示部 2 6に出力するときに音声の意味内容を画像として表示部 2 6に出力する。このとき、音声情報生成部 2 3は、例えば使用者又は使用者の話者及び外部からの音声が入力されて信号処理部 2 2からの認識結果として物体を示す認識結果が入力されたときには、当該物体を示す画像データを記憶部 2 4から読み出して表示部 2 6に出力して表示させる処理を行う。

更にまた、この音声情報生成部 2 3は、信号処理部 2 2からの認識結果に応じて、以前にスピーカ部 2 5又は表示部 2 6に出力した音声情報を再度出力する。音声情報生成部 2 3は、音声情報を出力した後に、使用者又は使用者に対する話者がもう一度聞き直したいことに応じて発した音声を示す認識結果が入力されたと判定したときには、スピー力部 2 5又は表示部 2 6に出力した音声情報を再度出力する処理を行う。更にこの音声情報生成部 2 3では、繰り返して何回でも音声情報を出力しても良い。

また、音声情報生成部 2 3は、例えば使用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を用いた話者認識結果に基づいて、以前にスピー力部 2 5又は表示部 2 6に出力した音声情報を再度出力しても良い。更に、音声情報生成部 2 3は、人工知能の機能を用いて音声対話を行うことで、スピーカ部 2 5又は表示部 2 6に出力した音声情報を再度出力しても良い。

更にまた、音声情報生成部 2 3は、再度出力する処理を行うか否かを操作入力部 2 8からの操作入力命令に応じて切り換えても良い。すなわち、使用者が再度出力する処理を行うか否かの切換を操作入力部 2 8を操作することで決定し、操作入力部 2 8をスィッチとして用いる：

また、この音声情報生成部 2 3は、再度音声情報を出力するとき、以前に出力した音声情報を再度出力するか、以前に出力した音声情報とは異なる音声情報を出力するかを、信号処理部 2 2を介して入力される操作入力部 2 8からの操作入力信号に応じて選択する- 表示部 2 6は、音声情報生成部 2 3で生成した音声情報が示す音声、カメラ機構 2 9で撮像した画像等を表示する。

操作入力部 2 8は、使用者に操作されることで、操作入力信号を生成する。この操作入力部 2 8 としては、例えば、スィッチ、キーボード、マウス、インターネットノッド（RF wire l e ss式）、ウェアブル操作インターフェース（プロトタイプ：手指の姿勢、動作計測によるポインティング入力、ジエスチヤ入力（ォリンパス））がある。このような補聴器 1は、マイクロホン 2 1で検出した音声について信号処理部 2 2で音声認識処理をして、認識結果に基づき音声情報生成部.2 3でプログラムを起動することで使用者に応じた処理を行うことができる。これにより、補聴器 1は、スピー力部 2 5にマイク口ホン 2 1からの音声を出力するとともに、表示部 2 6に表示するので、音声に対する使用者の認識を向上させることができる。

これは、 MuGurk効果（視覚聴覚同時に矛盾する音韻情報を提示した場合に異聴が生ずる：参照 MuGurk H and MacDonald J: Hearing lips and seeing voice, Nature 264, 746-8, 1976) 、 Kuhlの報告（乳児の聴覚からの音声情報と視覚からの口形の情報との対応関係の獲得：参照 Kuhl PK et al. Human processing of audi tory-vi sual information in speech percept ion. ICSLP' 94 SI 1. , Yokohama, 1 994) 、腹話術効果（視覚が音源方向の知覚に影響を与える）、及び人間は無意識のうちに音源かどうかを学習し、区別する等の報告は人間のコミュニケ一ションが本来マルチモーダルなものであるとする仮説を支持するものである（参照 Saitou H and Mori T:視覚認知と聴覚認、知 Ohmsha, 119—20， 1999) 。

また成人の難聴は年齢とともに内耳障害、語音弁別能の低下、聴中枢の障害、誤聴が増加する。難聴（100dB以上）では読話が中心で聴覚が補助的となり、補聴器を使用しない聴覚障害者が多い。また高度難聴者に対して補聴器の最大出力を高くすると難聴が進行することがある。人工中耳 ' 内耳、聴性脳幹インプラントなどの手術でも、症例により期待したほどの聴覚の補充ができていないとの報告があり、音は聞こえるが話の内容がわからないとのクレームがかなりある。また、読話、手話は成人後の修得は難しい：聴覚とは末梢聴器の低次機能だけでなく、大脳の知覚、認知といつた高次機能をも含めた包括的な概念であり、聴力は純音聴力検査で把握できる聴覚の感度面（auditory acuity) であるとされる。補聴器を装用する最大の目的が音声言語コミュニケ一ションに役立てることにあると仮定すると、相手の言ったことの認知及び理解の程度が重要である。

従来の補聴器、人工内耳等は聴力を補うことを主な目的としたが、補聴器 1は視覚による認知という概念を付け加えたことが、聴覚を補充するものと考えてもよい。また、画面表示と音声によるフィードバックが聴覚障害者の音声認識を改善するという報告もある（参照 Yanagida M, Aging of speech listening ability. Tech Repo rt of IEICE, SP96-36 (1996-07) , 25-32, 1996) _c

以上により聴覚の認識は視覚と密接な関係にあり、視覚を使うことにより音声内容の認識が高まり、音声を最大出力にしなくても音声内容の認識が可能であり、患者の満足度が高くなると思われる。また聴覚障害児における聴覚学習においても補聴器 1は有効である- よって、表示部 2 6に認識結果等を表示することで音声情報を補足し、音声に対する使用者の認識を向上させる。この補聴器 1では、音声のみならず、表示部 2 6に表示する画像を通じて話者に音声の意味内容を伝達し、対話することができる：

更に、この補聴器 1によれば、使用者用マイクロホン 8及び/又は外部用マイクロホン 1 1で検出した音声を認識した結果に応じて表示部 2 6に表示する音声の意味内容及びスピー力部 2 5から出力する音声の内容を変更させることができるので、更に音声に対する使用者の認識を向上させることができる。従って、この補聴器 1 によれば、音声情報生成部 2 3により音声認識処理を変更するプログラムを実行することにより、身体状態（難聴の程度等）、利用状態及び使用目的に応じて認識処理を変更することで、使用者が理解しやすい音声の意味的な情報を表示することで更に認識を向上させることができる。

スピー力部 2 5は、音声情報生成部 2 3で生成した音声を出力する：このスピーカ部 2 5としては、例えば使用者から話し手に対して音声を出力するものであっても良く、更には、使用者が発した音声を使用者の耳に対して発声するように音声を出力するものであつても良く、更には話し相手から使用者（又は話し相手）に対して出力するものであっても良い。

また、使用者の耳に対して発声するように音声を出力するスピ一力部 2 5は、スピ一力ュニットの変換方式としてダイナミック型や静電型（コンデンサ型、エレクト口スタティック型）によるものでも良く、形状としてはヘッドフォン（オープンエア型、クローズド型、カナルタイプ等のイン . ザ . ィヤー型等）によるものでも良い _c また、スピーカ部 2 5は、従来の補聴器、拡声器、集音器のスビ一力によるものでも良く、磁気ループを利用したものでも良く、更に指を使ったマイク · スピー力 · システム（W i s p e r (protot yp e： NTT Docomo) ) によるものでも良い。要するに、使用者から話者に対して音声を出力するスピーカ部 2 5は従来から用いられているスビーカ装置でよい：

また、スピーカ部 2 5は、音声情報に基づいて出力する音声と逆位相の音を出力するようにしても良い。これにより、スピーカ部 2 5から出力する音声に含まれる雑音成分を除去し、使用者及び Z又は使用者に対する話者に雑音の少ない音声を出力する。

た、この補聴器 1は、外部の通信ネットワークと接続された通信回路 2 7を備えている。この通信回路 2 7は、通信ネットワーク

(電話回線 ( I S DN, AD S L, x D S L) 、 FAX, t e l e _x、移動体通信網（CDMA、 WCDM、 G SM、 PH S、ページャ網（DARC (FM文字多重放送）、 h i g h s p e e d p a g e r、 FM p a g e r ) 、 I MT 2 0 0 0 , P C S、 MMAC、

I R I D I UM、サービス網（ i — m o d e ： NTT Docomo) ) 、ィンターネット網（A S P) 、 LAN、無線通信網（AMZFM方式、テレビジョン通信、 Bluetooth, 赤外線 IrDA、超音波、アマチュア無線、有線網（例、大阪有線放送等）、衛星通信（例 B S、 C S) 、光通信、ケーブル等）を介して例えば音声言語障害者から発せられた音声や外部からの音声が入力される- この通信回路 2 7は、音声を示すデータを信号処理部 2 2に入力する。また、この通信回路 2

7は、信号処理部 2 2で信号処理を施した信号、音声情報生成部 2

3で生成した音声情報等を外部のネットワークに出力するとともに、外部のネットワークから信号処理を施した情報や、補聴器 1の内部の処理を変更、制御する内容の情報が入力される。

また、この通信回路 2 7は、信号処理部 2 2、音声情報生成部 2

3を介して受信したテレビ放送（デジタル放送）、文字放送、文字ラジオ等を表示部 2 6で表示させても良い。このとき、通信回路 2

7は、文字放送等を受信するためのチューナ機能を備え、使用者の所望のデータを受信する _c このように構成された補聴器 1は、例えば喉頭摘出者の電気式人ェ喉頭を使って発声された音声がマイクロホン 2 1 に入力された場合であっても、信号処理部 2 2で音声認識し、記憶部 2 4に格納された喉頭摘出前にサンプリングした音声を示す音声データを用いて音声情報生成部 2 3 で出力する音声を示す音声情報を生成するので、スピーカ部 2 5から喉頭摘出前の使用者の音声に近似した音声を出力することができる。

なお、上述した本発明を適用した補聴器 1の説明においては、マイク口ホン 2 1で検出される喉頭摘出者の音声である一例について説明したが、聴力障害による言語障害の一つである構音障害者からの音声や人工呼吸を受けている人の声を検出したときであっても良い。このとき、補聴器 1は、言語障害者の音声を音声データとして記憶部 2 4に記憶しておき、当該発声者が発声したことに応じて記憶部 2 4に格納された発声者の音声を示す音声データを参照して信号処理部 2 2で音声認識処理を行い、音声情報生成部 2 3で認識結果に応じて音声データを組み合わせることで音声情報を生成する処理を行うことにより、スピー力部 2 5から音声言語障害のない音声を出力するとともに、表示部 2 6により音声情報に基づいた音声内容を表示することができる。

したがつてこの補聴器 1によれば、例えば喉頭摘出者が代用発声法により発生した音声を表示部 2 6に表示することで不自然な音声を訂正させることができる。

更に、補聴器 1は、例えば聴力障害による構音障害を持つ者は発声のためのフィ一ドバックが得られず、「きょうは（今日は）」という音声が「きょんわあ」となってしまうのを上述した処理を行うことにより正常な「きょうは（今日は）」という音声に訂正してスピー力部 2 5から出力することができる。更に、この補聴器 1は、表示部 2 6を備えているので、発声者の音声をスピーカ部 _{2 5}から正常な音声にして出力するとともに、発声者の音声内容を表示することにより音声障害者や難聴者の言語訓練学習にとって好適なシステムを提供することができる。

つぎに、上述の音声情報生成部 2 3が信号処理部 2 2からの認識結果を加工、変換して音声情報を生成する処理、音声データを組み合わせる処理で適用することができる種々の例について述べる。なお、変換処理等の種々の例は、以下に述べる例に限定するものではない。

音声情報生成部 2 3は、信号処理部 2 2からの認識結果を変換するとき、人工知能技術を用いて認識結果を加工変換して音声情報を生成しても良い。音声情報生成部 2 3は、例えば音声対話システムを用いる。ここで、聴力低下した老人は相手話者の言ったことを再度聞き直すことがあるが、このシステムを用いて認識結果を加工変換することにより、補聴器 1 と使用者とが対話して以前に記憶した相手話者の言ったことの情報を得て、使用者の音声認識を向上させることができ、聞き直す手間を省略することができる。

このようなシステムは、マルチモーダル対話システムである表情つき音声対話システムを用いることで実現可能である。このマルチモーダル対話システムでは、ポインティングデバイスとタブレツトを利用する入力技術である直接操作 ·ベンジエスチヤ技術、テキスト入力技術、音声認識等の音声入出力技術、視覚や聴覚や触覚や力覚を利用したバーチャルリアリティ（Virtual Real i t y : VR) 構成技術、ノンバーバルモダリティ技術の技術要素をモダリティとし組み合わせて用いる。このとき、音声情報生成部 2 3は、言語情報を補足する手段、対話の文脈情報（或いはその補足手段）、使用者の認知的負担或いは心理的抵抗感を軽減する手段として各モダリティを用いる。なお、ノンバーバノレインターフエ一スとしてジェスチャー

(身振り）インターフェースを用いてもよい。その場合ジエスチヤーィンターフェースの計測として装着型センサによるジェスチャー計測にはジェスチャートラッキングが必要であり手袋型デバイス、磁気や光学的位置計測を用い、ジェスチャーの非接触計測にはマー力を立体解析する映像や 3 D再構成によるものを用いてもよい。なお、このマルチモーダル対話システムの詳細は以下の文献に記載されてレヽる (Nagao K and Takeuchi A, Speech dialogue with fa cial displays: Multimodal human -computer conversation. Proc.3 2nd Ann Meeting of the Association for Computational Linguis tics, 102-9, Morgan Kauf mann Publ ishers, 1994； Takeuchi A and N agao K, Communicative facial displays as a new conversational modal ity. Proc ACM/IFIP Conf on Human Factors in Computing S ystems (INTERCHI' 93) ， 187-93, ACM Press, 1993) _c

このような人工知能機能を用いた音声対話システムとしては、マイクホン 2 1で検出した音声を、信号処理部 2 2で A/D変換、音響分析、べクトル量子化の後、音声認識モジュールによって、上位スコアをもつ単語レベルの最良仮説を生成するシステムが使用可能である。ここで、音声情報生成部 2 3は、 HMMに基づく音韻モデルを用いて、ベクトル量子コードから音素を推定し、単語列を生成する。音声情報生成部 2 3は、生成した単語列を、構文 ·意味解析モジュールにより意味表現に変換する：このとき、音声情報生成部

2 3は、単一化文法を用いて構文解析を行い、次にフレーム型知識ベースと事例ベース（例文を解析して得られた文パターン）を用いて曖昧さの解消を行う ₌ 発話の意味内容の決定後、プラン認識モジユールにより使用者の意図を認識する。これは対話の進行に従い動的に修正 .拡張されていく使用者の信念モデルと対話のゴールに関するプランに基づいている。意図を認識する課程で、主題の管理や、代名詞の照応解消、省略の補完などを行う。そして使用者の意図に基づいて協調的な応答を生成するモジュールが起動する ₌ このモジユールはあらかじめ用意されたテンプレートの発話パターンに領域知識により得られた応答に関する情報を埋め込むことにより発話を生成する。この応答は音声合成モジュールにより音声となる。なお、この信号処理部 2 2及び音声情報生成部 2 3が行う処理としては、例えば以下に示す文献に記載された処理を行うことでも実現可能である (Nagao N, A preferential constraint satisfaction techniq ue for natural language analysis. Proc 10th European Conf on

Artificial Intelligence, 523-7, John Wi ley&Sons, 1992 ; Tanaka H, Natural language processing and its applications, 330-δ, 199 9, IEICE, Corona Publishing Co.； Nagao K, Abduction and dynami c preference in plan-based dialogue understanding. Proc 13th Int joint Conf on Artificial Intelligence, 1186-92, Morgan Kau f mann Publ ishers, 1993) ;

また、音声情報生成部 2 3は、人工知能機能を用いて行う処理として、システムの擬人化を行い、音声認識、構文 '意味解析、ブラン認識より表情バラメータ調節、表情アニメーションを表示部 2 6 を用いて行うことにより、視覚的手段を用いて音声対話に対して使用者の認知的負担、心理的抵抗感を軽減する：なお、この音声情報生成部 2 3が行う処理としては、以下に示す文献に記載された FACS (Facial Action Coding System) 力ある (参照 Ekman P and rri esen WV, Facial Action Coding System. Consulting Psychologist s Press Palo Alto, Calif, 1978) 。

更にまた、音声情報生成部 2 3は、音声対話コンピュータシステム（参照 Nakano M et al，柔軟な話者交代を行う音声対話システム DUG-1, Proc of 5th Ann meeting of NLP, 161-4, 1999) として、話し言葉を理角？する逐次理角？方式 (Incremental Utterance Understand mg (参' akano M， Understanding unsegmented user uttera nces in real-time spoken dialogue systems. Proc of the 37th A nn meeting of the association for computational linguistics, 200-7) と内容の逐次変更が可能な逐次生成方式（Incremental Utt erance Production; (参照 Dohsaka K and Shimazu A, A comput ational mode丄 of incremental utterance production in task - or iented dialogues. Proc of the 16th Int Conf on Computational Linguistics, 304 - 9, 1996 ； Dohsaka K and Shimazu A, System architecture for spoken utterance production in col laborat iv e dialogue. Working Notes of I JCAI 1997 Workshop on Col labor ation, Cooperation and Conflict in Dialogue Systems, 1997； Dohsaka K et al,複数の対話ドメインにおける協調的対話原則の分析 Corpus analysis of collaborative principles in different dialogue domains, IEICE Tech Report NLC- 97- 58, 25 - 32, 1998) による音声と画像を用いる人工知能システムである。ここで、音声情報生成部 2 3は、理解と応答のプロセスが平行動作する。また、音声情報生成部 2 3は、 ISTARブロトコール（参照 Hirasawa J, Implem entation of coordinative nodding behavior on spoken dialogue systems, ICSLP- 98, 2347- 50, 1998) を用いて音声認識と同時に単語候補を言語処理部に逐次的に送る。

すなわち、音声対話システム DUG- 1 (日本電信電話製）で用いている技術を用いることにより、補聴器 1では、例えば所定のデータ量 (文節）ごとに使用者及び Z又外部からの音声を音声認識するとともに、音声情報を生成する処理を行う。音声情報生成部 2 3では、使用者及び Z又は外部からの音声に応じて、音声認識処理、音声情報認識処理を随時中止、開始することができ、効率的な処理を行うことができる。更に、この補聴器 1では、使用者の音声に応じて、音声認識処理、音声情報生成処理を制御することができるので、柔軟に話者の交替を実現することができる。すなわち、音声情報を生成している最中に使用者及び又は外部からの音声を検出することで処理を変更し、使用者に提示する音声情報の内容を変更等の処理を行うことができる。

更にまた、音声情報生成部 2 3は、キーワードスポティングを用いて使用者の自由な発話を理解する処理を行っても良い（参照 Tak abayashi Y,音声自由メ寸話シスアム Spontaeous speech dialogue TOSBURG II 一使用者中心のマルチモーダルインターフェースの実現に向けて -towars the user-centered mul t i model interface-. IEICE trans volJ77— D— II No 8 1417 - 28， 1994) 。

この音声情報生成部 2 3は、例えばイントネーション、ストレス、アクセント等の処理を行うように変換処理を行って音声情報を出力しても良い。このとき、音声情報生成部 2 3は、必要に応じて、特定の発音についてはイントネーション、ストレス、アクセントの強弱を変化させるように音声情報を変換して出力するようにする。韻律制御方式として単語及び文韻律データベースを用いてもよい (参照 Nukaga N et al 単語および文韻律データベースを用いた韻律制御方式の検寸 On the control of prosody using word and se ntence prosody database. The 1998 meeting of the AS J society of Japan 227-8, 1998) 。

音声情報生成部 2 3は、音声データを合成するとき、どのような内容の音声でも合成するときには規則による音声合成、滑らかな音声を合成するために可変長単位を用いた音声合成、自然な音声を合成するための韻律制御、また音声の個人性付与のために音質変換を行って音声情報を生成しても良い（参照自動翻訳電話 ATR国際電気通信基礎技術研究所編， 177- 209， 19'94 Ohmsha) 。

また、ボコーダ（vocoder) (例：音声分析変換合成法 STRAIGHT ( speech transformation and representation based on adaptive interpolation of weighted spectrogram参照 Maeda N et a丄, Vo ice Conversion with STRAIGHT. TECH REPORT OF IEICE, EA98-9, 3 1-6， 1998) を用いても高品質の音声を合成することが可能である- 更に、この音声情報生成部 2 3は、文字情報から音声を作り出す音声合成（text to speech synthesis) を用いることにより話の内容に関する情報（音韻性情報）や音の高さや大きさに関する情報 (韻律情報）を聴力障害者の難聴の特性に合わせてその人の最も聞き易い音の高さに調整することも可能であり、他に話速変換技術 (voice speed convertingノ、周波数 £h縮 (frequency compress) 処理等の音声特徴量の変換処理を行う。また出力する音声の帯域を調整する帯域拡張（frequency band expansion) 処理や、音声強調 (speech enhancement) 処理等を音声情報に施す。帯域拡張処理、音声強調処理としては、例えば以下の文献に記載されている技術を用いることで実現可能である（Abe M, Speech Modification Metho ds for ^unaamental Frequency, Duration and Speaker Individua lity. TECH REPORT OF IEICE, SP93— 137, 69— 75, 1994) 。なお、上述したように、信号処理部 2 2及び音声情報生成部 2 3で音声認識処理をして認識結果を加工変換する場合のみならず、上述の処理のみを行ってスピーカ部 2 5に出力しても良い。また、この補聴器 1では、認識結果及び Z又は上述の処理のみを行った結果を同時に又は時間差を付けて出力しても良い。また、この補聴器 1では、認識結果及び/又は上述の処理のみを行った結果をスピーカ部 2 5又は表示部 2 6の左右のチャンネルで異なる内容を出力しても良い。

更にまた、音声情報生成部 2 3は、認識結果を用いて音声から言語を理解し、当該理解した言語を用いて音声データから音声情報を構成するという処理を行うのみならず、他の処理を認識結果に基づいて理解した言語を必要に応じて加工変換する処理を行っても良い- すなわち、この音声情報生成部 2 3は、音声情報を構成するとともに、音声情報としてスピーカ部 2 5に出力するときの速度を変化させる話速変換処理（例：ピッチ区間の分割 ·延長により有声区間を延長、無声区間は加工せず、無音区間の短縮）を行っても良い。すなわち、この話速変換処理は、使用者の状態に応じて適当な話速を選択することによりなされる。

更にまた、この音声情報生成部 2 3は、認識結果に応じて、例えば日本語（Japanese) の音声情報を英語（English) の音声情報に変換して出力するような翻訳処理を行って出力しても良く、通信機能と合わせて自動翻訳電話にも応用可能である- 更には音声情報生成部 2 3は自動要約 (automatic abstracting) を行レヽ、「United St ates of Americaj を「USA」と要約するように変換して音声情報を出力しても良い。

音声情報生成部 2 3が行う他の自動要約処理としては、例えば文章内から要約に役立ちそうな手がかり表現を拾い出し、それらをもとに読解可能な文表現を生成する生成派の処理（参照 McKeown K and Radev DR, Generating Summaries of Multiple News Articles.

In Proc of 14th Ann Int ACM SIGIR Conf on Res and Developme nt in Information Retrieval, 68-73, 1995； Hovy E, Automated Di scourse Generation using Discourse Structure Relations, Arti ficial Intelligence, 63, 341-85, 1993) 、要約を「切り抜き」と考えて処理し客観的評価が可能となるように問題を設定しようという立場の抽出派の処理がある（参照 Kupiec J et al, A Trainable D ocument Summarizer. In Proc of 14th Ann Int ACM SIGIR Conf on

Res and Development in Information Retrieval, 68-73, 1995； M like S et al, A Full— text Retrieval System with a Dynamic Ab struct Generation Function. Proc of 17th Ann Int ACM SIGIR Co nference on Res and Development in Information Retrieval, 152 一 9, 199 ； Edmundson HP, New Method in Automatic Abstract ing. J of ACM 16, 264-85, 1969) 。更に、この音声情報生成部 2 3は、例 . ia^Part ial Matching Methodと Incremental Reference Interval- Free連続 DPを用いて重要キ一ワードの抽出を行レ、、 Incremental Pa th Methodを用いて単語認識を行うことが可能である（参照 Nakaz awa M et al. Text summary generation system from spontaneous speech, The 1998 meeting of ASJ 1-6-1, 1-2, 1998) 。

にまた、この音声情報生成部 2 3は、認識結果に応じて、特定の音素、母音、子音、アクセント等において、消去したり、音声を出力することに代えてブザー音、あくび音、せき音、単調な音等を音声情報とともに出力するように制御しても良い。このとき音声情報生成部 2 3は、例えば以下の文献に記載されている手法を実現した処理を音声情報について行う（参照 Warren R , Perceptual Res t orat ion oi Missing Speech Sounds. Science vol ID , ό92, 1970； W arren RM and Obusek CJ, Speech perception and phonemic resto rat ion. Percept ion and psychophysics vol9, 358, 1971) 。

更にまた、音声情報生成部 2 3は、認識結果を用いてホーン調 (管共鳴を用いた重低音を再生する技術により出力される音質：集音管により約 2 0 0 0 H _Z以下の帯域の音声を増幅させ、利得が約 1 5 d B ) となるように音質を変換させて音声情報を出力しても良い。この音声情報生成部 2 3は、例えば US PATENT 4628528により公知となされてレヽるアコ一スティックウエーブ · ガイド（Acoustic Wave Guide) 技術を用いて出力される音質に近似した音に変換して音声情報を出力してもよく、アコ一スティックウェーブ · ガイド技術に基づきスピーカからの音を管に通して出してもよい（例 w a v e r a d i o ( B O S E ) ) 。ここで、音声情報生成部 2 3は、例えば低音のみを通過させるフィルタ一処理を行って音声情報を出力する処理を行っても良く、例えば SUVAG (Systeme Universel Verbo-t onal d' Audition- Guberina) を用いることにより、所定の周波数帯域の音声のみを通過させる種々のフィルタ処理を行って音声情報を出力する処理を行っても良い。更にまた、この音声情報生成部 2 3は、例えばマイクロホン 2 1 に音楽が入力されたと判断したときには、色を表示するように処理を行っても良レ、し、ソング頼太や XG works v. 3. 0 (ヤマハ）のボイストウスコア R等の機能で実現されている音声情報を変換して表示部 2 6に音符を表示してもよい。また、この音声情報生成部 2 3は、音声のリズムなどが分かるために変換した音声のリズムを信号が点滅するように音声情報を変換して表示部 2 6に表示しても良いし、音声を色彩表示ゃスぺクトルグラムパターンによる表示をしてもよい。 .

更にまた、この音声情報生成部 2 3は、例えば警報等の発信音がマイクロホン 2 1に入力されたと判断したときには、音声情報を変换することで表示部 2 6に警報等がマイクロホン 2 1 で検出された旨の表示を行ったり、スピーカ部 2 5に警報の内容を知らせるような内容を出力しても良い。

この音声情報生成部 2 3は、例えば非常ベルや救急車や津波のサィレンを聞いたら表示するだけでなく大音量で「火事ですよ」「救急車ですよ」「津波が襲ってきますよ」とスピーカ部 2 5から出力するとともに、表示部 2 6に火事や救急車や津波を示す画像を表示する。

これにより、音声情報生成部 2 3は、難聴者に非常事態を音声及び画像を以て伝えることができ、生死に関わる最悪の事態を避けることができる。

更に具体的には、音声情報生成部 2 3は、図 3に示すように、信号処理部 2 2での認識結果として「ビーポーピーボー（救急車のサィレン）」と表示し、認識結果を変換した加工変換結果として「救急車」と表示し、更なる加工変換結果として記憶部 2 4に格納されている救急車種々の図柄の中で、緊急性を示すシグナルを出しながら走っている救急車を示す図柄（又は走っている動画）を読み出して表示させる。他の一例としては、音声情報生成部 2 3は、例えば津波による警報がマイクロホン 2 1に入力されたときには、信号処理部 2 2での音声認識結果として「ウイィーン（津波に対して）」と表示し、認識結果を変換した加工変換結果として「津波」と表示し、更なる加工変換結果として緊急性を示す沿岸の家を飲み込む津波の図柄（又は津波が迫りながら家を飲み込む動画）を記憶部 2 4 から読み出して表示させる。また、この音声情報生成部 2 3は、記憶部 2 4の記憶容量の削減を図るために、図 4に示すように簡略化した絵柄を表示部 2 6に表示させても良い。

これにより、音声情報生成部 2 3では、音声により救急車や津波と入力されたことによる単純なこれらの画像ではなく、緊急時を表す音声が入力されたことにより、緊急性を示す画像を表示させる _c. また、更に他の例としては、学校で 2時限（コンビュ一タテクノ口ジ一の授業）のチャイムの鐘の音がマイクロホン 2 1 に入力されたことに応じ、音声情報生成部 2 3は、図 5に示すように、認識結果として「キンコーン」と表示し、認識結果の加工変換結果として「鐘」の画像を表示する- 更に、音声情報生成部 2 3は、時計機能と予め入力されていた時間割のプログラムと対応させて、「 2時限コンピュータテクノロジ一」と表示するとともに、授業（コンビュ一タテクノロジー）を表す画像（パーソナルコンピュータ）を表示させる。

従って、このような音声情報生成部 2 3を備えた補聴器 1では、音声を用いて認識結果、加工変換結果を表示部 2 6に表示するとともに、音声と予め設定された情報を用いて他の情報をユーザに提示することができる。

また、音声情報生成部 2 3では、信号処理部 2 2での認識結果の意味内容及び認識結果の他のパラメータを用いて認識結果を加工変換しても良い：この音声情報生成部 2 3 は、例えば、マイクロホン 2 1 で検出した音声の音量、音の周波数特性に応じて異なる加工変換処理を行って異なる画像を記憶部 2 4から読み出すことで、異なる加工変換結果を表示部 2 6に提示しても良い。これにより、補聴器 1では、利用者に更に詳細な音声認識結果を提示することができ、利用者の音声の認識を更に向上させることができる。また、この音声情報生成部 2 3では、例えばマイクロホン 2 1に入力される救急車のサイレンの音量に応じて、異なる大きさの図柄を表示する。例えば、音声情報生成部 2 3は、サイレンの音量が所定値以上であると判定したときには図 6 Aに示すような大きさで救急車の図柄を表示し、サイレンの音量が所定値以下であると判定したときには図 6 Bに示すように図 6 Aに示す図柄よりも小さく表示する。これにより、補聴器 1では、救急車が使用者に近づいて徐々にサイレンの音量が大きくなるに従って図柄を大きくして、利用者の外部の音声に対する認識を向上させることができる。

音声の音量等、音声に含まれる情報 · 非言語情報（例：強調表現、感情表現）を画像（例：手話）にて表現することが可能であり、実現例として、以下があげられる。音声を音声認識処理して単語情報に変換し、音声特徴量（ピッチ情報等）も検出する。次に非言語情報抽出処理をして単語情報と音声特徴量から、非言語情報の個所と種類を検出する: 上記の情報は情報変換処理に送られる。単語情報は日本語'手話見出し変換処理において手話見出しに変換され、非言語情報変換処理では、非言語情報の表現個所と種類に応じて手話の非言語情報表現ルールが検索される。最終的に、手話アニメ生成処理にて導出された手話見出し情報及び手話の非言語情報を用いて手話アニメーションが生成される（参照 Ando H et al 音声'手話変換システムのための音声強調表現特徴量の抽出 Analysis of speech prominence characteristics for translating speech dialog to sign language. The 1999 meeting of the ASJ society of Japan 377-8, 1999) ₌

このように、音声情報生成部 2 3では、マイクロホン 2 1で検出した音声を用いて、音声のみならず、他の機能も用いることにより音声情報を加工変換して、様々な形態で利用者に提示することができる。

更にまた、音声情報生成部 2 3は、過去に行った変換合成処理について記憶する機能を備えていても良い。これにより、音声情報生成部 2 3は、過去に行つた変換合成処理の改良を自動的に行う学習処理を行うことができ、変換合成処理の処理効率を向上させることができる。

更にまた、この信号処理部 2 2及び音声情報生成部 2 3は、話し手の音声のみについての認識結果を生成して音声情報を生成し、スピー力部 2 5及び/又は表示部 2 6に提示することで使用者に知らせる一例のみならず、例えば特定の雑音に対してのみ音声認識を行つても良い。要するに、信号処理部 2 2及び音声情報生成部 2 3は、入力した音について音声認識処理を行って、認識結果を使用者の身体状態、利用状態及び使用目的に応じて変換することで使用者が理解し易い表現で音声情報を生成して出力する処理を行う。

更にまた、上述した本発明を適用した補聴器 1の説明おいては、記憶部 2 4に予めサンプリングして格納した音声データを音声情報生成部 2 3により組み合わせることにより音声情報を生成して出力するものの一例について説明したが、音声情報生成部 2 3は、記憶部 2 4に記憶された音声データを組み合わせて音声情報を生成するときに格納された音声データに変換処理を施す音声データ変換部を備えていても良い：このような音声データ変換部を備えた補聴器 1 は、例えばスピー力部 2 5から出力する音声の音質を変化させることができる。

更にまた、上述した本発明を適用した補聴器 1の説明おいては、例えば喉頭摘出前の使用者の音声を予めサンプリングすることにより得た音声データを記憶部 2 4に格納するものの一例について説明したが、記憶部 2 4には、一つの音声データのみならず複数の音声データを予めサンプリングして格納しても良い。すなわち記憶部 2 4には、例えば喉頭摘出前の音声を予めサンプリングした音声デ一タ、及び前記喉頭摘出前の音声に近似した音声データを格納しても良く、更には全く異なる音質の音声データを格納しても良く、更にまた、喉頭摘出前の音声データを生成し易い音声データを格納しても良い。このように複数の音声データが記憶部 2 4に格納されているとき、音声情報生成部 2 3は、各音声データの関係を例えば関係式等を用いて関連づけを行って選択的に音声データを用いて音声情報を生成しても良い。

また、上述の補聴器 1は、サンプリングして記憶部 2 4に格納した音声データを合成することで音声情報を生成して出力する一例について説明したが、記憶部 2 4に記憶されている音声データを合成することで生成した音声情報に、音声情報生成部 2 3によりボコーダ処理（例： STRAIGHT) を施すことにより、サンプリングして記憶されている音声データが示す音声とは異なる音質の音声に変換して出力しても良い。

更にまた、信号処理部 2 2は、話者認識（speaker recognition) 処理を入力される音声について行って各話者に対応した認識結果を生成しても良い。そして、この信号処理部 2 2では、各話者に関する情報を認識結果とともにスピー力部 2 5や表示部 2 6に出力することで使用者に提示しても良い。

補聴器 1 で話者認識を行うときには、ベタトル量子化によるものでも良レヽ (参照 Soong FK and Rosenberg AE, On the use of inst antaneous and transition spectral information in speaker rec ognition. Proc of ICASSP' 86, 877-80, 1986) 。このべクトノレ量子化を利用した話者認識では、準備段階の処理として登録話者用の学習用音声データからスベタトルの特徴を表すパラメータを抽出して、これらをクラスタリングすることによりコードブックを作成する。べクトル量子化による方法は話者の特徴が作成された符号帳に反映されていると考える手法である。認識時には入力された音声と全ての登録話者のコードブックを用いてべクトル量子化を行い、入力音声全体に対して量子化ひずみ（スベタトルの誤差）を計算する, ₌ この結果を用いて話者の識別や照合の判定を行う。

また、補聴器 1で話者認識を行うときには、 H MMによる方法でめっても艮レヽ (参照 Zheng YC and Yuan BZ, Text-dependent speaK er identification using circular hidden Markov models. Proc o f ICASSP' 88, 580-2, 1988) 。この方法では、準備段階の処理として登録話者の学習用音声データから HMMを作成する。 HMMを用いる方法では話者の特徴は状態間の遷移確率とシンボルの出力確率に反映されると考える。話者認識の段階では入力音声を用いて全ての登録話者の HMMによる尤度を計算して判定を行う - HMMの構造として lefl：〜 to〜rightモデルに対してェルゴディックな HMMを用いてもよレヽ _c

更にまた、補聴器 1では、 ATR- MATRIX システム（ATR音声翻訳通信研究所製：参照 Takezawa T et al, ATR - MATRIX: A spontaneou s speech translation system between English and Japanese. AT R J2, 29-33, Junel999) で用いられている音声認識処理（ATRSPREC) 、音声合成処理（CHATR) 、言語翻訳処理（TDMT) を行うことで、マイクロホン 2 1で入力した音声を翻訳して出力することができる。

音声認識処理（ATRSPREC) では、大語彙連続音声認識を行い（ma ny-word continuous speech recognition in real time) 、音声認識ツールを用いて音声認識に必要な音響モデルと言語モデルの構築、及び信号処理から探索までの工程を処理する。この音声認識処理では、行った処理をツール群として完結し（complete group of tool s) 、ツール同士の組み合わせることが容易で（easy integration of tools) 及び HT Kとの互換性確保（compatible with HTK) を行う。また、この音声認識を行うとき、不特定話者の音声認識を行つても良い。

音声認識処理（ATRSPREC) は基本的な音声認識処理の流れとして以下の（a ) 〜（d ) に示すようなツール群を提供する。なお、音声認識処理（ATRSPREC) は UNI X環境（0SF 1，HP_UX) で動作する。

_( a ) 信号処理：人間が発声した音声の波形信号を特徴べクトルと呼ばれる音声認識処理に必要な情報を抽出した特徴量に変換する。

( b ) 音響モデル構築：特徴べクトル発声内容の関係をパラメ一タ推定の形でモデル化する。このとき、話者適応をしてもよい（標準話者の HMnetと少量の音声サンプルを用いて特定の話者に適応した HMnetの作成（ML推定法、 MAP推定法、 VES, MAP- VFS) ) 。

( c ) 言語モデル構築：単語や文法的制約といった言語情報をモデル化する-

( d ) 探索：発声した内容の推定を音響モデル、言語モデルを用いて行う

言語翻訳処理（TDMT：協調融合翻訳方式）は用例翻訳と依存構造解析とを協調的に駆動させて、句から節、さらに文へと段階的に翻訳処理を進める。

言語翻訳処理（TDMT) では、文の構造を判断する処理、対話用例を用いた対話特有のくだけた表現などの多様な表現を扱って言語翻訳を行う。また、この言語翻訳では、マイクロホン 2 1がー部聞き取れなかった部分があっても、翻訳できる部分はなるべく翻訳する部分翻訳処理を行い、一文全体を正確に翻訳できない場合でも、話し手が伝えたい內容をかなりの程度相手に伝える。

音声合成処理（CHATR) では、あらかじめデータベース化された多量の音声単位から、出力したい文に最も適した単位を選択してつなぎあわせ、音声を合成する。このため、滑らかな音声が出力することができる, ₌ この音声合成では、話し手の声に最も近い音声データを用いて話し手の声に似た声で合成することができる。また、この音声合成を行うときには、音声情報生成部 2 3は、入力された音声から話し手の性別を判断し、それに応じた声で音声合成を行っても良い。

音声合成処理（CHATR) は以下にて構成される。韻律知識ベースを基に、合成したい音素系列の韻律パラメータを音素ごとに予測する。計算された韻律パラメータを基に最適な韻律情報を持つ音声単位を選択し、音声波形情報ファイルへのインデックスを求める ₃ 選択された音声単位を一つずつ音声波形ファイル内から切り出して接続する。生成された音声波形を出力する：

また、音声認識処理、言語翻訳処理及び音声合成処理を行うときには、通信回路 2 7を介して携帯電話等の通信機器と接続して双方向の対話可能である c

音声認識処理、言語翻訳処理、音声合成処理、を行う補聴器 1では、例えば日英双方向の音声翻訳システムの利用、ほぼリアルタイムの認識、翻訳、合成、話し始めの指示をシステムに与える必要がなく、全二重の対話が可能自然な発話に対して質の高い認識、翻訳、合成が可能となる。例えば、「あの一」、「え一と」といった言葉や、多少くだけた表現の音声がマイクロホン 2 1 に入力されても音声認識処理、言語翻訳処理及び音声合成処理が可能となる。

更にまた、音声情報生成部 2 3は、音声認識（ATRSPREC) において、信号処理部 2 2からの認識結果に基づいて文の構造を判断するだけでなく、対話用例を用いることにより、対話特有のくだけた表現などの多様な表現に対応した音声情報を生成する。また、音声情報生成部 2 3は、マイクロホン 2 1で会話中の一部が聞き取れなかつた部分があっても、音声情報を生成することができる部分はなるベく音声情報を生成する。これにより、音声情報生成部 2 3は、一文全体の音声情報を正確に生成できない場合でも、話し手が伝えたい内容をかなりの程度相手に伝える。このとき、音声情報生成部 2 3は、翻訳処理（部分翻訳機能）を行って音声情報を生成しても良い ₀

また、音声情報生成部 2 3は、音声合成（CHATR) において、予めデータベース化して記憶された多量の音声単位の音声データから、出力したい文に最も適した単位を選択してつなぎあわせ、音声を合成して音声情報を生成する。これにより、音声情報生成部 2 3は、滑らかな音声を出力するための音声情報を生成する。また、音声情報生成部 2 3は、話し手の声に最も近い音声データを用いて話し手の声に似た声で合成処理を行っても良く、入力された音声から話し手が男性か女性かを判断し、それに応じた声で音声合成を行って音声情報を生成しても良い。

更にまた、音声情報生成部 2 3は、マイクロホン 2 1からの音声から、特定の音源の音のみを抽出してスピーカ部 2 5及び Z又は表示部 2 6に出力しても良い ₌. これにより、補聴器 1は、カクテルパ一ティ現象（複数の音源からの音の混合の中から、特定の音源の音のみを抽出してきく）を人工的に作ることができる。

更にまた、音声情報生成部 2 3は、音韻的に近い例を用いて誤りを含んだ認識結果を訂正する手法を用いて聞き間違いを修正して音声情報を生成しても良い（参照 Ishikawa K， Sumida E, A comput er recovering its own misheard—Guessing the original sentenc e form a recognition result based on familiar expressions— ATR J 37, 10-11, 1999) 。このとき、音声情報生成部 2 3は、使用者の身体状態、利用状態及び使用目的応じて処理を行って、使用者にとってわかりやすい形態に加工変換する。

なお、上述した補聴器 1の説明においては、マイクロホン 2 1で検出した音声について音声認識処理、音声生成処理を行う一例について説明したが、使用者等により操作される操作入力部 2 8を備え当該操作入力部 2 8に入力されたデータを音声及び/又は画像とするように信号処理部 2 2により変換しても良い。また、この操作入力部 2 8は、例えば使用者の指に装着され、指の動きを検出することでデータを生成して信号処理部 ₂ 2に出力するものであっても良い。

また、この補聴器 1は、例えば使用者が液晶画面等をベンにより接触させることで文字及び/又は画像を描き、その軌跡を取り込むことによる画像に基づいて文字及び/又は画像データを生成する文字及び/又は画像データ生成機構を備えていても良い。補聴器 1は、生成した文字及び/又は画像データを信号処理部 2 2及び音声情報生成部 2 3により認識 · 変換等の処理を行って出力する。

更に、上述の補聴器 1 は、マイクロホン 2 1等からの音声を用いて信号処理部 2 2により音声認識処理を行う一例に限らず、例えば使用者及び/又は使用者以外の人が装着する鼻音センサ、呼気流センサ、頸部振動センサ、骨振動体（例マウスピースタイプ）からの検出信号及びマイクロホン 2 1等からの信号を用いて音声認識処理を行っても良い- このように、補聴器 1は、マイクロホン 2 1のみならず各センサを用いることにより、信号処理部 2 2による認識率を更に向上させることができる c

更に、この補聴器 1は、例えば自動焦点機能やズーム機能を搭載したデジタルカメラにより動画像や静止画像等を撮像するカメラ機構 2 9を図 2に示すように備え、表示部 2 6に表示するものであつても良い：このカメラ機構 2 9は例えば図 1のディスプレイ部 7 と一体に搭載されても良い。また、カメラ機構 2 9 としては、デジタルカメラを用いても良い。

また、この補聴器 1に備えられたカメラ機構 2 9は、撮像した画像を使用者の身体状態（視力や乱視等の目の状態）、利用状態及び使用目的に応じて歪ませたり拡大させたりする画像変換処理を施して表示部 2 6に表示する眼鏡機能を備えていても良い. ₌

このような補聴器 1は、例えば力メラ機構 2 9から C P U等からなる信号処理回路を経由して表示部 2 6に撮像した画像を表示する。この補聴器 1は、このようなカメラ機構 2 9により例えば話者を撮像した画像を使用者に提示することで、使用者の認識を向上させる。また、この補聴器 1は、撮像した画像を通信回路 2 7を介して外部のネットワークに出力しても良く、更には外部のネットワークからカメラ機構 2 9で撮像した画像を入力して通信回路 2 7及び信号処理回路等を介して表示部 2 6に表示しても良い。

更に、この補聴器 1では、話者を撮像した画像を用いて信号処理部 2 2で顔面認識処理、物体認識処理を行って音声情報生成部 2 3 を介して表示部 2 6に表示しても良い。これにより、補聴器 1では、撮像対象者の口唇、顔の表情、全体の雰囲気等を使用者に提示して、使用者の音声認識を向上させる：

撮像機能を用いた顔の認識において顔の個人性特徴を抽出して個人認識をおこなうものとして、以下の方法があるがこれらに限られるものではない。濃淡画像のマツチングにより識別するための特徴表現の一つとしてパターンをモザイク化し、各ブロック内の画素の平均濃度をブ口ックの代表値とすることで濃淡画像を低次元べクトルに情報圧縮して表現する方法で M特徴といわれている方法である。また、 K I特徴という濃淡顔画像の特徴表現で、 Karhunen- Loeve (K L) 展開を顔画像の標本集合に適応して求められる直交基底画像を固有顔とよび、任意の顔画像をこの固有顔を用いて展開した係数から構成される低次元の特徴べクトルで記述する方法である。更に、顔画像集合の L展開による次元圧縮に基づく K I特徴によるもの照合バタ一ンをまずフーリエスベタトルに変換し K I特徴の場合と同様に標本集合を K L展開することで次元圧縮を行って得られる低次元の特徴スぺクトルである K F特徴による識別を行う方法がある。以上の方法によるものが顔画像認識に用いることが可能であり、それらを用いて顔の認識を行うことは対話者が誰であるかという個人識別情報をコンピュータに与えることになり、使用者にとって対話者に対する情報が得られ、音声情報に対する認識が増す：なお、このような処理は以下の文献に記載されている（Kosugi S，ニューラルネットを用いた顔画像の識別と特徴抽出情処学 CV研報， 73-2, 1991-07; T urk MA and Pent land AP, race ： recognition using eigeniace. Proc

CVPR, 586-91, 1991-06; Akamatsu S et al, Robust face intif icat ion by pattern matching Based on KL expansion of the Fourier

Spectrum. IEICE trans vol J76DII No7, 1363-73, 1993; Edwards G J et al, Learning to identify and track faces in image segue nces, Proc of FG ' 98, 260-5, 1998) _c

この補聴器 1では、物体認識を行うときには、物体を示すパターンをモザイク化しておき、実際に撮像した画像とマッチングを取ることにより物体の識別を行う。そして、この補聴器 1では、マッチングがとれた物体の動きべクトルを検出することで、物体の追尾を行う。これにより、物体から発せられる音声から生成される音声情報に対する認識が増す：この物体認識処理は Ubiquitous Talker

(Sony CSL製）で用いられている技術を採用することができる（参 agao K and Rekimoto J, Ubiquitous Talker： SpoKen language interaction with real world objects. Proc 14th I JCAI-95, 128 4 - 90， 1995) _c

更に、この補聴器 1は、静止画撮像用デジタルカメラのようにシャッターを押すことで静止画を撮像しても良い。更に、カメラ機構 2 9は、動画像を生成して信号処理部 2 2に出力しても良い。このカメラ機構 2 9により動画像を撮像するときの信号方式としては、例えば M P E G (Moving Picture Experts Group) 方式などを用レヽる。更にまた、この補聴器 1 に備えられるカメラ機構 2 9は、 3 D画像を撮像することで、話者や話者の口唇を撮像して表示部 2 6に表示させることで更に使用者の認識を向上させることができる。

このような補聴器 1 は、使用者自身の発した音声や相手の発した音声等及び Z又はその場の情景を撮像した画像を記録し再生することで、言語学習にて復習が可能となり言語学習に役立てることがでさる：

また、この補聴器 1 によれば、画像を拡大処理等して表示部 2 6 に表示することで相手を確認し全体の雰囲気をつかめ音声聴取の正確さが向上し、更に読唇（lip reading) を行うことが可能となり認識を上昇させる。更にまた、この補聴器 1は、例えばスィッチ機構が設けられており、マイクロホン 2 1で検出した音声をスピーカ部 2 5により出力するカカメラ機構 2 9により撮像した画等像を表示部 2 6により出力するか、又は音声及び画像の双方を出力するかを使用者により制御可能としても良い。このときスィッチ機構は、使用者に操作されることで、音声情報生成部 2 3から出力を制御する。

また例として、スィッチ機構は、使用者及び Z又は使用者以外の音声を検出して、例えば「音声」という音声を検出したときにはマイク口ホン 2 1で検出した音声をスピーカ部 2 5により出力するように切り換え、例えば「画像」という音声を検出したときにはカメラ機構 2 9により撮像した画等像を表示部 2 6により出力するように切り換え、「音声、画像」という音声を検出したときには音声及び画像の双方を出力するするように切り換えても良く、以上のような音声認識を用いたスィツチ制御機構を備えていても良い。また、ジェスチャーインターフェースを用いることで、ジェスチャー認識によるスィツチ制御システムとしても良レ、 ₌

更にまた、このスィッチ機構は、カメラ機構 2 9のズーム状態等のパラメータを切り換えることでカメラ機構 2 9で画像を撮像するときの状態を切り換える機能を備えていても良い。

つぎに、この補聴器 1において、音声情報生成部 2 3により作成した音声情報を出力する機構の種々の例について説明する。なお、本発明は、以下に説明する出力する機構に限られることはないことは勿論である ₌

すなわち、この補聴器 1において、音声情報を出力する機構としてはスビーカ部 2 5や表示部 2 6に限らず、例えば骨導や皮膚刺激を利用したものであっても良い。この音声情報を出力する機構は、例えば小型磁石を鼓膜等に装着し、磁石を振動させるものであっても良い- このような補聴器 1は、例えば利用者の骨（側頭骨）に振動を与える骨導補聴器の骨導バイブレータシステムの振動板として圧挺板 (参照 Sugiuch i T, 骨導補聴器の適応と効果 JOHNS Vol l l No9， 130 4， 1995)を備え、音声情報生成部 2 3により変換することにより得た信号を前記圧挺板に出力するようにしたものや、皮膚刺激を用いたタクタイルエイド（Tact i l e Ai d) 等の触覚による補償技術を利用したものであっても良く、これらの骨振動や皮膚刺激等を用いた技術を利用することで、音声情報生成部 2 3からの信号を使用者に伝達することができる：皮膚刺激を利用した補聴器 1 においては、音声情報生成部 2 3からの音声情報が入力されるタクタイルエイド用振動子アレイが備えられており、タクタイルエイドと当該振動子ァレィを介してスピ一力部 2 5から出力する音声を出力しても良い。また、上述した補聴器 1の説明においては、音声情報を音声として出力するときの処理の一例について説明したが、これに限らず、例えば人工中耳により使用者に認識結果を提示するものであっても良い。すなわち、この補聴器 1は、音声情報を電気信号としてコィル、振動子を介して使用者に提示しても良い。

更には、この補聴器 1は、人工内耳機構を備え、人工内耳により使用者に認識結果を提示するものであっても良い：すなわち、この補聴器 1は、例えば埋め込み電極、スピーチプロセッサ等からなる人工内耳システムに音声情報を電気信号として供給して使用者に提示しても良い _c 更には、この補聴器 1は、蝸牛神経核（延髄にある聴神経の接合部）一に電極を接触させて当該電極を介して認識結果を使用者に供給する聴†生脳幹インプラント（Auditory Brainstem Implant ： A B I ) 機構を備え、 A B I により使用者に音声情報を提示するものであっても良い。すなわち、この補聴器 1は、例えば埋め込み電極、スピ一チプロセッサ等からなる A B I システムに音声情報を電気信号として供給して使用者に提示しても良い。

更にまた、この補聴器 1は、使用者の身体状態、利用状態及び使用目的に応じて、例えば超音波帯域の音声が認識可能な難聴者に対しては認識結果及び加工変換した認識結果を音声情報として超音波帯域の音声に変調 ·加工変換して出力しても良い。更にまた、この補聴器 1は、超音波出力機構 (bone conduction ultrasound： Hoso l H et al Activation of the auditory cortex by ultrasound. La ncet Febl4 351 (9101)496-7, 1998) を用いて超音波周波数帯域の信号を生成し、超音波振動子等を介して使用者に出力しても良い。更にまた、この補聴器 1は、骨伝導ユニット（耳珠を介しての骨導及び外耳道内壁を介しての気導）を使用して音声情報を使用者に提示しても良い（例聴覚障害者用ヘッドホンシステム -ライブホン- (日本電信電話製））。

更にまた、この補聴器 1は、スピーカ部 2 5、表示部 2 6等の複数の出力手段を備える一例について説明したが、これらの出力手段を組み合わせて用いても良く、更には各出力手段を単独で出力しても良い _c また、この補聴器 1では、マイクロホン 2 1に入力した音声の音圧レベルを変化させる従来の補聴器の機能を用いて音声を出力するとともに、上述した他の出力手段で認識結果を提示しても良レ、。

^こまた、この補聴器 1は、スピーカ部 2 5及び Z又は表示部 2 6から出力する出力結果を同時に或いは時間差を持たせて出力してするように音声情報生成部部 2 3で制御するスィツチ機構を備えていても良く、複数回に亘つて出力結果を出力するか一回に限って出力結果を出力するかを制御するスイツチ機構を備えていても良い。また、この補聴器 1 の説明においては、図 2に示したような一例について説明したが、入力された音声について上述した種々の加工変換処理を行って表示部 2 6に表示させる第 1 の処理を行う C P U と、入力された音声について上述した種々の加工変換処理を行ってスピーカ部 2 5に出力結果を出力するための第 2の処理を行う C P Uと、カメラ機構 2 9で撮像した画像を表示するための第 3の処理を行う C P Uとを備えたものであっても良い。

このような補聴器 1は、各処理を行う C P Uを独立に動作させて第 1 の処理又は第 2の処理を行わせて出力させても良く、更には各処理を行う C P Uを同時に動作させて第 1 の処理、第 2の処理、及び第 3の処理を行わせて出力させても良く、更には、第 1及び第 2 の処理、第 1及び第 3の処理又は第 2及び第 3の処理を行う C P U を同時に動作させて出力させても良い- 更にまた、補聴器 1は、使用者の身体状態、利用状態及び使用目的に応じて上述した種々の出力機構からの出力結果を同時に或いは時間差を持たせて出力してするように音声情報生成部 2 3で制御しても良い。

更に、この補聴器 1 は、複数の C P Uを有し、上述した複数の C P Uで行う第 1〜第 3処理のうち、少なくとも 1の処理をひとつの C P Uで行うとともに、残りの処理を他の C P Uで行っても良い ₌ 例えば、この補聴器 1において、ひとつの C P Uが入力された音声を文字データとして加工変換を行って表示部 2 6に出力する処理 (text to speech synthesis) をうとともに、又はひとつの C P Uが入力された音声に対して文字データとして加工変換を行って他 (D C P Uが入力された同じ音声に対して STRAIGHT処理を行つたりしてスピーカ部 2 5に出力する処理を行い、他の C P Uが入力された音声に対してボコーダ処理のうち、例えば STRAIGHTを用いた処理を行ってスピーカ部 2 5に出力する処理を行っても良い。すなわちこの補聴器 1は、スピーカ部 2 5に出力する信号と、表示部 2 6に出力信号とで異なる処理を異なる C P Uにより行うものであっても良レ、。

更に、この補聴器 1 においては、上述した種々の加工変換処理を行って上述の種々の出力機構に出力する処理を行う C P Uを有するとともに、加工変換処理を施さないでマイクロホン 2 1 に入力された音声を出力しても良い。

更に、この補聴器 1 においては、上述した種々の加工変換処理を行うための C P Uと、他の加工変換処理を行う C P Uとを別個に備えていても良い。

更に、この補聴器 1 においては、上述のように認識結果や加工変換した認識結果や撮像した画像等について音声情報生成部 2 3で変換する処理を行うとともに、従来の電気人工喉頭等を用いた代用発声法と同様に音声を検出して得た電気信号を増幅させて音質調整、利得調整や圧縮調整等を行いスピーカ部 2 5に出力するものであつても良い。なお、この補聴器 1 において、信号処理部 2 2及び音声情報生成部 2 3で行う処理を、例えばフ一リエ変換、ボコーダ処理（STRAIG HT等）の処理を組み合わせて適用することで、上述した処理を行つても良い。

また、本発明を適用した補聴器 1では、個人的に使用する小型のタイプの補聴器について説明したが、集団で用いる大型のもの（卓上訓練用補聴器や集団訓練用補聴器）にも用いてもよい。

視覚への提示手段として HMD、頭部結合型表示装置（Head- cou pled displayノ、人工目民 (visual prosthesis/ artificial eye; 1) あげられる。以下に例を示す（（ a ) 〜（！ n) ) 。

( a ) 双眼式 HMD (左右眼毎に視差画像を提示し立体視を可能とするもの、左右眼双方に同じ画像を提示し見かけ上の大画面を与えるもの）

( b ) 単眼式 HMD

( c ) シースルー型 HMD、主に A Rを実現するものとして Eye- through HMD (Puppet Eyes ： ATR)

( d ) 視覚補助や視覚強調機能付きディスプレイ

( e ) 眼鏡型の双眼望遠鏡（自動焦点機能付、バーチャルフィルター（Visual filter) を用いる）

( f ) 接眼部にコンタクトレンズを使用するシステム

( g ) 網膜投影型 (Virtual Retinal Display, Retinal project ion display, 網膜投影型の中間型）

、h ) 人工目艮 (visual prosthesis/artificial eye) 体外装着のカメラで周囲の情景をとらえ、画像処理（特徴抽出等）を施して画像データを作成し、体内埋め込みの ME N S (Micro-Electric al Mechanical system：電子回路を備えたマイクロマシン) へ無線 •有線で画像データと ME N S駆動用の電力を電送する- ME N S は送られてきたデータに基づいて神経信号に似た電気パルス信号をつくりだし、その信号を刺激電極を通じて脳神経系へ伝える。人工眼には ME N Sを埋め込む場所により hl〜h4に分けられる。 [hi]脳内刺激型人工眼（cortical implant：参照 Dobelle Wm H， Art if i cial vision for the blind by connecting a television camere to the visual cortex. ASAIO J 2000;46, 3-9 ) [h2]網膜刺激型人ェ目艮 (Sub or Epi *ret inal implant：参照 Rizzo JF et al. Deve lopment of an Epiret inal Electronic Visual Prosthesi sHarvard •Med MIT Res Program. inRet inal Degenerative Diseases and Experimental Theory Kluwer Academic Plenum Publishers, 463 · 7 01999) 、 [h2]視神経刺激型人工眼（optic nerve implant ：参照 Microsystems based visual prothesis MI VIP (Cat ho 1 i que Univ S ci Appiiquees Microelectonics Lab) 、 [h4jノヽィフ、、リッド型人工銷膜（hybrid retinal implant：細胞培養 +網膜刺激型人工眼 Nagoya Univ) 力 fcる。

( i ) 視線入力機能付き HMD (HAQ-200 (島津製作所製） ( j ) 頭部以外（耳、全身、首、肩、顔面、眼、腕、手、眼鏡等）にマウントするディスプレイ

( k) 立体ディスプレイ（投影式オブジェクト指向型ディスプレ Λ 参照 head-mounted projector： I inami M et al. , Head-moun ted projector ( I I) -implementation Proc 4th Ann Conf Of Vir tual Reality Society of Japan 59-62, 1999) 、リンク式の立体デイスプレイ） ( 1 ) 大画面ディスプレイ (spatial immnersi ve display) (例 omnimax、 CAVE (参照 Cruz-Neira C et al. Sur rounded-screen projection-based virtual reality: The design and imp丄 ementat ion of the CAVE, Proc of SIGGRAPH' 93, 135 - 42， 1993) 、 CAVE型立体映像表示装置（CABIN:参照 Hirose M et al. IEICE trans Vol J8 1DII No5, 888-96, 1998) 、小型超広視野ディスプレイ（投影デイスプレイ（例： C AV E)及び HMD 参照 Endo T et al. Ultra w ide field of view compact display. Proc 4th Ann Conf of Virt ual Reality Society of Japan, 55-58, 1999) 、ァ一チスクリーン）

(m) その他アプトン眼鏡（Upton eyeglass)のディスプレイシステム、サングラスの機能付きディスプレイ

特に大画面ディスプレイは大型補聴器として用いるときに使用してもよい。また、上述した補聴器 1では、音の再現方法としてバイノ —ラル方式を使用してもよい（ 3 D音響システムは Head-Related Tr ansfer Functionを用いた空間音源定位システムを用いる：例 Con vol votron & Acoustetron II (Crystal River Engineering) ；ダイナミック型ドライバュニットとエレクトレツトマイクロフォンを使用した補聴器 TE- H50 (Sony) ) 。実際と近い音場をつくったり、トランスオーラル方式（トラッキング機能付きのトランスオーラル方式が 3 D映像再現における C A V Eに対応する）を用いたりするものは主に大型の補聴器システムの場合に用いるのが好ましい。

更にまた、上述の HMD 2は、頭頂部に 3次元位置検出センサーを備えていても良い。このような HMD 2を備えた補聴器 1では、使用者の頭の動きに合わせてディスプレイ表示を変化させることが可能となる。強調現実感（Augmented real i ty : AR) を利用した補聴器 1では、使甩者の動作に関するセンサを備え、センサで検出した情報、マイクロホン 2 1で検出し音声情報生成部 2 3で生成した音声情報とを用いることで、 A Rを生成する。音声情報生成部 2 3は、種々のセンサシステムと V R形成システムを統合するシステムとディスプレィシステムによりなるバーチャルリアリティ（Virtual real i t y : V R ) システムとを協調的に用いることにより、実空間に V Rを適切に重畳することで、現実感を強調する A Rをつくることが可能となる。これにより補聴器 1では視覚ディスプレイを用いるときに、顔面部にある画像からの情報を、情報が来るたびに大幅に視線をはずすことなく、ただ画像が目の前にあるだけでなく、画像情報が、いかにもそこにあるように自然に受けいれるようになり自然な状態で視覚からの情報を受け取ることが可能となる。以上を実行するには以下のシステムがある。

このような補聴器 1は、図 7に示すように、 A Rを形成するためには、仮想環境映像生成のための 3 Dグラフィックァクセラレータを音声情報生成部 2 3の内部に搭載することでコンピュータグラフィッタスの立体視が可能な構成とし、更に無線通信システムを搭載する。この補聴器 1 に使用者の位置と姿勢の情報を取得するため、センサ 3 1 として頭部に小型ジャィ口センサ（データテック GU-301 1 ) を、使用者の腰に加速度センサ（データテック GU- 3012) を接続する。以上のセンサ 3 1からの情報を音声情報生成部 2 3で処理を行った後、使用者の右■左目に対応するスキャンコンバータ 3 2 a 、 3 2 bで処理をして表示部 2 6に映像が行くというシステムを用いることで可能となる (参照 Ban Y e t al , Manual -l es s operat i on with wearable augment ed reality system. Proc 3th Ann Conf of Victual Reality society of Japan, 313-4, 1998) 。

以下の方法でも AR実現可能である：カメラからの映像（video st ream from camera) よりマーカー ¾rサーチ (search for marker 、マ一力の 3 D位置 ·方向をみつけ（find marker 3D position and orientation) 、マーカを確認 dentify marikers 、小シシヨンとオブジェク卜のポジションを決め (position and orient object s) 、ビデオでの 3 Dォブジェクトを生成し（render 3D objects i n video frame) 、ビデオ映像を H M Dに出力する (video stream to the HMD) ： Integrating real and virtual worlds in share d space. ATR MIC Labs and HIT Lab, Univ of Washington) ) 。また、この補聴器 1では、センサ 3 1 に加えて状況認識システム (例： Ubiquitous Talker (Sony CSL) ) と V Rシステムを形成する他のシステムである以下の種々のセンサシステムと V R形成システムを統合するシステムとデイスアレイシステム、及び、この補聴器 1 とを協調的に用いることにより、 A Rを強化することも可能であり、マルチモダリティを用いて音声情報を補足可能となる _c

このような V R · AR等の空間を形成するには、先ず、使用者がセンサ 3 1に本人から情報を送り、その情報が V R形成システムを統合するシステムに送られ、ディスプレイシステムから使用者に情報が送られることで実現する。

センサ 3 1 (情報入力システム）として以下のデバイスがある：特に人体の動きの取り込みや、空間に作用するデバイスとして光学式 3次元位置センサ（ExpertVision HiRES & Face Tracker (Mo tionAnalysis) ) 、磁気式 3次元位置センサ（InsideTrack (Polhe mus) 、 3SPACE system (POLHEMUS) 、 Bird (Ascension Tech) ) 、機式 3 Dディジタイザ (MicroScribe 3D Extra (Immersion) ) 、磁気式 3 Dディジタイザ（Model350 (Polhemus) ) 、音波式 3 Dデインタイケ (Sonic Digitizer (Science Accessories) ) 、光ギ式 3 Dスキャナー（3D Laser Scanner (アステックス））、生体センサ（体内の電気で測る）サイバ一フィンガー（NTTヒューマンィンタフェース研究所）、手袋型デバイス（DetaGlove (VPL Res) ， Super Glove (日商工レクトロ二クス） Cyber Glove (Virtual Tec h) ) 、フォースフィ一ドノくック（Haptic Master (日商工レクト口二クス）、 PHANToM (SensAble Devices) ) 、 3 Dマウス (Space C ontroller (Logitech) ) 、視線センサ（眼球運動分析装置（ATR視聴覚機構研究所製））、体全体の動きの計測に関するシステム（Da teSuit (VPL Res) ) 、モーションキヤプチヤーシステム（HiRES (Motion Analysis) ) 、加速度センサ（三次元半導体加速度センサ (NEC製））、視線入力機能付き HMD、ポジショニングシステム (例 G P S ) を用いても良い。

また、 V R · ARを実現するためには、表示部 2 6のみならず、触覚を利用した触覚ディスプレイ、触圧ディスプレイ、カ覚デイスプレイ、嗅覚ディスプレイを用いても良い。触覚ディスプレイにより音声を触覚により伝え、聴覚だけでなく触覚をも加えることで音声の認識をあげことが可能となる。この触覚ディスプレイとしては、例えば振動子アレイ（ォプタコンや触覚マウス、タクチユアルボコ —ダ等）、触知ピンアレイ（ベ一パーレスブレイル等）などが使用可能である。他に water jet, air jet. PHANToM (SensAble Device s) 、 Haptic Master (日商工レクトロニクス）などがある。具体的には、補聴器 1 は、 V Rな空間で V Rキ一ボードを表示し、信号処理部 2 2及び音声情報生成部 2 3での処理を V Rキーボードまたは V Rスィッチにより制御する。これにより、わざわざキ一ボードを用意したり、スィッチまで手を伸ばしたりすることが無くなり、使用者の操作を楽にし、耳に装着するのみの補聴器と近い装用感を得ることができる。

前庭感覚ディスプレイとしては、ゥォッシュアゥトとゥォッシュバックにより狭い動作範囲の装置でも多様な加速度表現ができるシステム（例：モーションベット）が使用可能である。

前庭刺激による音像の知覚の誤りの報告（I shi da Y et al , 移動音像の知覚と平衡感覚の相互作用. 日本音響学会聴覚研究会 H-95 (63) 1-8， 1995)より前庭刺激がきこえに影響を与えることがわかり、前庭感覚ディスプレイも聴覚を補償するものと考えられる。

嗅覚ディスプレイとしては、文献「Hi ro se M e t al 嗅覚ディスブレイに関する研究日本機会学会第 7 5期通常総会講演会講演論文集， 433-4 ( 1998. 4)」、嗅覚センサーシステム（島津製作所製）で採用されている技術が使用可能である。

また、この補聴器 1では、音声 ·画像に関する以外のセンサによる情報を認識し画像に提示するシステム（例：手話通訳プロトタイプシステムを用いても良い _ώ この補聴器 1では、例えばデータグロ —ブ（VPL Res) よりの手話の入力情報を手話単語標準パターンに基づく手話単語認識処理にて認識し単語辞書文書化ルールに基づく文章変換部で処理された情報をディスプレイに表示する（日立）を用いてもよい。

V Rシステムを統合するシステムとしては、以下のものがあり、それら限定されることはないが、 C、 C + +のライブラリとして供給 Iれ、表示とそのデータベース、デバイス入力、干渉計算、ィべント管理等をサボ一トし、アプリケ一ションの部分は使用者がライブラリを使用してプログラミングするものや、ユーザプロダラミングを必要とせずデータベースゃィベント設定をアプリケーションッ —ルで行い、そのまま V Rシユミレ一ションを実行するシステム等を使用してもよい。またこの補聴器 1 に関する個々のシステム間を通信にて繋げてもよい。また、状況を高臨場感を保って伝送するのに広帯域の通信路を使用しても良い- また、補聴器 1では、 3 Dコンピュータグラフィックスの分野で用いられている以下の技術を用いてもよい ₌ 現実に起こり得ることを忠実に画像として提示し、非現実的な空間を作り、実際には不可能なことも画像として提示することがコンセプトとなる。この補聴器 1は、例えば複雑で精密なモデルを作るモデリング技術（ワイヤ一フレームモデリング、サーフエスモデリング、ソリッドモデリング、ベジエ曲線、 B—スプライン曲線、 N U R B S曲線、ブール演算（ブーリアン演算）、自由形状変形、自由形状モデリング、バーティクル、スイープ、フィレツト、ロフティング、メタボール等）、質感や陰影をつけリアルな物体を追求するためのレンダリング技術（シェーディング、テクスチユアマッピング、レンダリングアルゴリズム、モーションブラ一、アンチエリアシング、デプスキューイング）をする。また、補聴器

1は、作成したモデルを動かし、現実の世界をシミュレーションするためのアニメーション技術としてはキ一フレーム法、インバースキネマテイクス、モーフイング、シュリンクラップアニメーション、 αチャンネルを用いる。 3 Dコンピュータグラフィックスでは、以 oo 上のモデリング技術、レンダリング技術、アニメーション技術により能となる。サゥンドレンダリングとして以下に記載されている ¾ を用レヽてあ良レヽ（Takala T, Computer Graphics (Proc SIGGRA PH 1992) Vol26, No2, 211-20) 。

このような V Rシステムを統合するシステムとして、以下のシステム（Division Inc:VRランタイムソフトウェア [dVS]， V R空間構築ソフトウエア [dVISE], VR開発用ライブラリ [VC Toolkit] SENSE 8； WorldToolKit, WorldUp Superscape； VRT Solidray ; RealMaster モデルなしの V Rの生成（参照 Hirose M et al. A study of image editing tech for synthetic sensation. Proc I CAT' 94, 63-70, 19 94) ) がある。

また、補聴器 1は、表示部 2 6に表示して音声認識結果、加工変換結果を提示する場合のみならず、プリンタ装置と接続することで、音声認識結果、加工変換結果を印刷紙で提示しても良く、更に、利用者の音声の認識を向上させることができる。

また、本実施の形態では、 HMD 2 と、コンピュータ部 3 との間を光ファイバ一ケーブル 4で接続してなる携帯型の補聴器 1 について説明したが、 HMD 2とコンピュータ部 3 との間をワイヤレスとし、 HMD 2とコンビュ一タ部 3 との間を無線（Bluetooth 2. 4 GH z帯の電波を周波数ホッビングさせながら送受信）や赤外線を用いた信号伝送方式等により情報の送受信を行っても良い。

更に、この補聴器 1においては、 HMD 2とコンピュータ部 3 との間をワイヤレスとする場合のみならず、図 2に示した各部が行う機能毎に分割して複数の装置とし、各装置間をワイヤレスとしても良く、少なくともコンピュータ部 3を使用者に装着させずに HMD 2と情報の送受信を行っても良い: 更にまた、この補聴器 1 においては使用者の身体状態、利用状態、使用目的に応じて、図 2に示した各部が行う機能毎に分割して複数の装置とし、各装置間をワイャレスとしても良い ₃ これにより、補聴器 1は、使用者が装着する装置の重量、体積を軽減し、使用者の身体の自由度を向上させ、使用者の認識を更に向上させることができる。

また、補聴器 1では、通信回路 2 7を介して信号処理部 2 2及び音声情報生成部 2 3で行う処理の制御及びバ一ジョンアップ（例ウィルスソフト）、修理、オペレーションセンターとの連携（操作方法、クレーム処理等）等をしても良い。

すなわち、通信回路 2 7は、外部の信号処理サーバと接続され、マイクロホン 2 1、信号処理部 2 2又は音声情報生成部 2 3で生成した信号や音声情報を信号処理サーバ送信することで、信号処理サ —バで所定の信号処理が施された音声信号や音声情報を得ることができる。このような通信回路 2 7を備えた補聴器 1では、上述した信号処理部 2 2、音声情報生成部 2 3で行う認識処理や加工変換処理を外部の信号処理サーバに行わせることで、内部での処理内容を削減することができる。また、この補聴器 1によれば、外部の信号処理サーバで利用者の身体状態、使用状態及び使用目的に基づいて、信号処理部 2 2や音声情報生成部 2 3では行わない処理を実行させることにより、更に利用者の音声の認識を向上させることができる ₌ 更に、この補聴器 1では、信号処理部 2 2や音声情報生成部 2 3 で使用する記憶部 2 4に記憶された画像データを外部のサーバからダウンロードすることにより、記憶部 2 4に多量の画像データが格納されていなくても、様々な種類の画像を表示部 2 6に表示することができる。従って、このような通信回路 2 7を備えた補聴器 1によれば、認識結果を加工変換した結果を示す画像の種類を多くすることができ、更に利用者の音声の認識を向上させることができる。このように、補聴器 1では、外部のサーバに処理を行わせるとともに、外部のサーバに処理に必要なデータを記憶させることで、装置の小型化を図ることができ、装着性、携帯性を向上させることができる。

更に、この補聴器 1では、利用者の身体状態、使用状態及び使用目的に基づいて、外部のサーバから予め信号処理部 2 2や音声情報生成部 2 3に設定されていた処理内容とは異なる処理内容を示すプ口グラムをダウン口一ドすることにより、利用者に応じた処理を信号処理部 2 2及び音声情報生成部 2 3で施すことができ、更に利用者の音声の認識を向上させることができる。

また、この補聴器 1では、通信回路 2 7に通信するための信号が検出されず通信を行うことができないときには、自動的に通信を用いた処理ではない方法で上述の処理をし、通信が可能であるときには自動的に通信を用いた処理方法で上述の処理してもよい。

通信回路 2 7と接続する外部のネットワークとしては、例えば、 Λ ンタ—ィ、ットを通じ 7こ A S P (application service provider) やデータセンター、 A S Pを利用する場合 V P N (virtual privat e networkリ、し S P (commerce service provider) にも使用し飞もよい：

更に、補聴器 1 と外部のネットワークとの間で音声情報を送受信するときには、例えば音声をィンターネット上で伝送する V o I P (Voice over IP) 、音声をフレームリレー網上で伝送する V o F R (Vo ice over FR) 、音声を A T Mネットワーク網上で伝送する V o A T M (Vo i ce over ATM) 技術を用いる。

また、この補聴器 1は、図示しない外部入出力端子を備え、外部装置に音声データを出力して外部装置に信号処理部 2 2や音声情報生成部 2 3で行う処理を実行させることや、外部装置から信号処理部 2 2や音声情報生成部 2 3での処理に必要なデータを取り込む処理等を行っても良い

このような補聴器 1は、身体状態、使用状態及び使用目的に基づいて、信号処理部 2 2や音声情報生成部 2 3では行わない処理を外部装置に実行させることにより、更に利用者の音声の認識を向上させることができる。

また、補聴器 1によれば、外部装置からデータを読み出すことで、認識結果を加工変換した結果を示す画像の種類を多くすることができ、更に利用者の音声の認識を向上させることができる。

更に補聴器 1では、外部装置に処理を行わせるとともに、外部装置に処理に必要なデータを記憶させることで、装置の小型化を図ることができ、装着性、携帯性を向上させることができる。

更にまた、補聴器 1では、利用者の身体状態、使用状態及び使用目的に基づいて、外部装置から予め信号処理部 2 2や音声情報生成部 2 3に設定されていた処理内容とは異なる処理内容を示すプログラムを取り込むすることにより、利用者に応じた処理を信号処理部 2 2及び音声情報生成部 2 3で施すことができ、更に利用者の音声の認識を向上させることができる。

また、本発明を適用した補聴器 1によれば、合成した音声を表示することで使用者に提示することができるので、以下の分野にて使用可能である：

主難聴者や言語障害者の仕事の支援として、事務作業、（ゥェアプルコンピュータとして）、認証業務、音声言語訓練、会議、応対業務（電話やインターネット等による）、番組製作（アニメーシヨン、実写映像、ニュース、音楽制作）、宇宙空間での作業、運輸

(宇宙船や飛行機のパイロット）、 V Rと A Rとを用いた種々のシミュレーシヨン作業（遠隔手術（マイクロサージユリ一等）、調査

(マーケティング等）、軍事等、デザイン分野、在宅勤務、悪条件

(騒音下等）での作業業務（建築現場、工場等）、仕分け業務等に使用可能である： =

また、この補聴器 1によれば、主に難聴者や言語障害者の生活支援として、医療現場（プライマリーケア、診察、検査（聴力検査等）、看護業務、在宅ケア、介護業務介護学校での業務、医療補助業務、産業医学業務（メンタルヘルス等）、治療（内科、疾病）、脳幹障害による聴覚障害（brainstem deafnes s)、聴皮質 ·聴放線障 ¾ "による聴見障害、 deafnes s due t o aud i t ory cortex and subcort i cal l es ion)、言語障害（失語症 aphas i a等）の訓練や介護にも有用であり、外国語学習、娯楽（通信機能付きテレビゲーム）、個人用ホームシアター、観戦（コンサートや試合等）、選手の試合時や練習時での選手同士や選手とコーチ間の意志疎通や情報変換）、カーナビゲーシヨンシステム、教育、情報家電との連携、通信（自動翻訳電話、電子商取引、 ASP · CSP、オンラインショッピング、電子マネー ·電子ゥォレツト · デビットカード等を用いたもの、決済及び証券，銀行業務（為替、デリバティブ等））、コミュニケーション

(音声言語障害者、重病患者、重度身体障害者に対する））、娯楽 (ァミユーズメントパーク等における Fish'tank VR display, 裸眼立体視システム、テレイグジスタンス視覚システムなどを用いた V Rや ARや、テレエグシスタンスゃアールキューブを利用した物、政治（選挙等への参加）、トレーニングスポーツ（レース（自動車やヨット等）、冒険（山や海等）、旅行、会場の閲覧、買い物、宗教、超音波（ソナ一 SONAR) を用いたもの、ホームスクール、ホームセキュリティ、デジタル音楽 ·新聞 ·書籍サービス ·装置との接続

(例 Audible Player^ mobile player (Audibl e Inc) ) 、相 Aァ¹ ~ タ通信テレビ、電子商取引（EC electric commerce) 、データ通信可能な TV電話への接続、 PDA (携帯情報端末）との接続（例： V'pho netTietech Co. ) 、広告、調理、手話への利用（例：手話通訳 · 生成システム '手話アニメーションソフト Mimehand (HITACHI) との利用）水中（ダイビングでの水中会話及び意志疎通等）の分野に使用可能である。

さらに、この補聴器 1 には、記憶部 2 4に通常のパーソナルコンピュータで行うような処理（文書作成、画像処理、インタ一ネット、電子メール）を示すアブリケーシヨンプログラムを格納して実行しても良い。産業上の利用可能性以上詳細に説明したように、本発明に係る音声変換装置は、音声を音響電気変換手段で検出し認識手段で音声認識処理をして得た認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段を備え、更に認識結果及び/又は認識結果を変換手段により加工変換した認識結果を使用者の身体状態等に応じて出力手段から出力することができるので、音声のみならず、音声の意味内容を示す情報を例えば図柄等として表示することができ、音声のみならず画像を利用して利用者の聴覚を補償することができる。本発明に係る音声変換方法は、音声を検出して音声信号を生成し、音響電気変換手段からの音声信号を用いて音声認識処理を行い、認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換して、使用者の身体状態等に応じて認識結果を出力することができるので、音声のみならず、音声の意味内容を示す情報を例えば図柄等として表示することができ、音声のみならず画像を利用して利用者の聴覚を補償することができる。

Claims

請求の範囲

1 . 音声を検出して音声信号を生成する音響電気変換手段と、音響電気変換手段からの音声信号を用いて音声認識処理を行う認識手段と、

上記認識手段からの認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段と、

上記認識手段により認識された結果及び/又は認識結果を上記変換手段により加工変換した認識結果を出力させる制御信号を生成する出力制御手段と、

上記出力制御手段で生成された制御信号に基づいて上記認識手段により認識され上記変換手段により加工変換された認識結果を出力して認識結果を使用者に提示する出力手段と

を備えることを特徴とする音声変換装置。

2 . 上記音響電気変換手段は、音声言語障害を有して発せられた音声を検出して音声信号を生成し、

上記変換手段は、音響電気変換手段からの音声信号に基づいて音声認識をする処理を行う音声認識手段と、音声言語障害を有しないで発せられた音声を予めサンプリングすることで生成した音声データを記憶する記憶手段と、上記音声認識手段からの認識結果に基づいて、上記記憶手段に記憶された音声データを用いて出力する音声を示す音声情報を生成する音声情報生成手段とを備えることを特徴とする請求の範囲第 1項記載の音声変換装置。

3 . 上記出力手段は画像を表示する表示手段からなり、

上記出力制御手段は、上記出力手段の表示手段に認識結果及び Z 又は加工変換された認識結果を画像として表示するように制御信号を生成すること

を特徴とする請求の範囲第 1項記載の音声変換装置。

4 . 上記出力制御手段は、上記表示手段に表示する図柄を示すデ —タを格納したデータ記憶手段を備え、上記認識手段により認識された結果及び Z又は認識結果を上記変換手段により加工変換した認識結果に基づいて、上記データ記憶手段に格納されたデータを読み出してデータが示す絵柄を上記表示手段に表示するように制御すること

を特徴とする請求項 3記載の音声変換装置。

5 . 上記出力手段は、音声を出力する電気音響変換手段を更に備え、

上記出力制御手段は、上記電気音響変換手段から認識結果及び Z 又は加工変換された認識結果を音声として出力させるように制御信号を生成すること

を特徴とする請求の範囲第 3項記載の音声変換装置。

6 . 上記出力制御手段は、使用者及び Z又は使用者以外から発せられる音声については上記表示手段に画像を表示するように制御信号を生成するとともに、使用者及び Z又は使用者以外から発せられる音声の音圧レベルを増幅して電気音響変換手段から音声として出力する制御信号を生成すること

を特徴とする請求の範囲第 5項記載の音声変換装置。

7 . 上記出力制御手段は、上記認識結果に応じて、上記音響電気変換手段で検出した音声の意味内容を表示するように制御信号を生成することを特徴とする請求の範囲第 3項記載の音声変換装置。

8 . _ 上記出力手段は人工内耳機構からなり、

上記出力制御手段は、認識結果及び Z又は加工変換された認識結果を電気信号として出力するように制御信号を生成すること

を特徴とする請求の範囲第 1項記載の音声変換装置。

9 . 上記出力手段は骨に直接振動を与える振動板からなり、上記出力制御手段は、上記振動板に認識結果及び Z又は加工変換された認識結果を振動として出力するように制御信号を生成すること

を特徴とする請求の範囲第 1項記載の音声変換装置。

1 0 . 上記出力手段は人工中耳機構からなり、

を特徴とする請求の範囲第 1項記載の音声変換装置。

1 1 . 上記出力手段は、超音波出力機構（bone condact i on ul tr asound) 力らなること

を特徴とする請求の範囲第 1項記載の音声変換装置。

1 2 . 上記出力手段は、タクタイルエイド用振動子アレイからなり、

上記出力制御手段は、上記振動子ァレイに認識結果及び Z又は加ェ変換された認識結果を電気信号として出力するように制御信号を生成すること

を特徴とする請求の範囲第 1項記載の音声変換装置。

1 3 . 上記出力手段は、電極を介して電気信号を蝸牛神経核に供給する聴性脳幹ィンプラント機構からなり、上記出力制御手段は、上記聴性脳幹ィンプラント機構に認識結果及び Z又は加工変換された認識結果を電気信号として出力するように制御信号を生成すること

を特徴とする請求の範囲第 1項記載の音声変換装置。

1 4 . 少なくとも上記出力手段は、使用者に対して着脱自在となされていること

を特徴とする請求の範囲第 1項記載の音声変換装置. ₌

1 5 . 通信回線を通じて音声を入力して上記音響電気変換手段に入力するとともに上記出力手段からの認識結果を通信回線に出力する上記通信手段を備えること

を特徴とする請求の範囲第 1項記載の音声変換装置 _c

1 6 . 上記認識手段は、話者認識処理を入力される音声について行って各話者に対応した認識結果を生成し、

上記出力手段は、各話者に関する情報を使用者に提示することを特徴とする請求の範囲第 1項記載の音声変換装置-

1 7 . 画像を撮像する撮像手段を備え、

上記撮像手段は、撮像した画像を少なくとも表示手段に出力すること

を特徴とする請求の範囲第 2項記載の音声変換装置-

1 8 . 上記撮像手段は、使用者の視力に基づいて、撮像した画像について画像変換処理を施して表示手段に出力すること

を特徴とする請求の範囲第 1 7項記載の音声変換装置：

1 9 . 少なくとも上記撮像手段は、使用者に対して着脱自在となされていること

を特徴とする請求の範囲第 1 7項記載の音声変換装置-

2 0 . 外部ネットワークに含まれる外部機器と接続した上記通信手段備え、

外部機器からのデータを用いて、身体状態、利用状態及び使用目的に応じた加工変換した認識結果として出力すること

を特徴とする請求の範囲第 1記載の音声変換装置。

2 1 . 上記通信手段は、上記音響電気変換手段で生成した音声信号、上記認識手段で得た認識結果及び Z又は変換手段で得た加工変換結果を外部機器に出力し、外部機器からの認識結果及び Z又は加ェ変換結果を得ること

を特徴とする請求の範囲第 2 0項記載の音声変換装置。

2 2 . 上記通信手段は、上記認識手段及び Z又は上記加工変換手段の処理内容を変更するプログラムを外部機器から受信し、上記認識手段及び Z又は上記加工変換手段は、上記通信手段で受信したプログラムに基づいて認識結果、加工変換結果を生成すること

を特徴とする請求の範囲第 2 0項記載の音声変換装置。

2 3 . 上記出力制御手段は、認識結果及び/又は変換した認識結果を同時又は時間差を持たせて出力手段から出力する制御を行うこと

を特徴とする請求の範囲第 1項記載の音声変換装置。

2 4 . 音響電気変換手段、認識手段、変換手段、出力制御手段及び出力手段を使用者の身体状態、利用状態及び使用目的に応じて分割して複数の装置とし、各装置間をワイヤレスとして少なくとも認識結果及び/又は変換した認識結果の送受信を行うこと

を特徴とする請求の範囲第 1項記載の音声変換装置。

2 5 . 上記音響電気変換手段は、音声言語障害を有して発せられた音一声として、音声言語障害を是正するために用いられる補助的手段や装置を用いて発せられた音声を検出して音声信号を生成すること

を特徴とする請求の範囲第 2項記載の音声変換装置。

2 6 . 上記音響電気変換手段は、音声言語障害を有して発せられた音声として、音声言語障害を是正するために用いられる、代用発声法を用いて発せられた音声を検出して音声信号を生成することを特徴とする請求の範囲第 2 5項記載の音声変換装置。

2 7 . 上記音響電気変換手段は、音声言語障害を有して発せられた音声として、言音声言語障害を是正するために用いられる、代用発声法以外の手法を用いて音声言語障害者から発せられた音声を検出して音声信号を生成すること

を特徴とする請求の範囲第 2 5項記載の音声変換装置。

2 8 . 音声を検出して音声信号を生成し、

上記音響電気変換手段からの音声信号を用いて音声認識処理を行い、

認識結果を使用者の身体状態、利用状態及び使用目的に応じて加ェ変換し、

認識結果及び/又は認識結果を加工変換した認識結果を出力させる制御信号を生成し、

上記制御信号に基づいて加工変換した認識結果を出力して認識結果を使用者に提示すること

を特徴とする音声変換方法。

2 9 . 音声言語障害を有して発せられた音声を検出して音声信号を生成し、

^声信号に基づいて音声認識をし、

認識結果に基づいて、予めサンプリングすることで生成した音声データを用いて出力する音声を示す音声情報を生成することを特徴とする請求の範囲第 2 8項記載の音声変換方法。

3 0 . 表示手段に認識結果及び Z又は加工変換された認識結果を画像として表示すること

を特徴とする請求の範囲第 2 8項記載の音声変換方法。

補正書の請求の範囲

[ 2 0 0 0年 6月 2 6日（2 6 . 0 6 . 0 0 ) 国際事務局受理：出願当初の請求の範囲 1 , 4 , 6 - 7 , 1 8 , 2 0， 2 4 , 及び 2 8は補正された；出願当初の請求範囲 3， 5， 8— 1 3及び 3 0は取り下げられた；新しい請求の範囲 3 1— 3 4 が加えられた；他の請求の範囲は変更なし。（6頁）]

1 . (補正後）音声を検出して音声 ί言号を生成する音響電気変換手段と、

音響電気変換手段からの音声信号を用いて音声認識処理を行う認識手段と、

上記認識手段からの認識結果を使用目的に応じて加工変換する変換手段と、

上記出力制御手段で生成された制御信号に基づいて上記認識手段により認識され上記変換手段により加工変換された認識結果を出力して認識結果を使用者に提示する出力手段とを備え、

上記出力手段は画像を表示する表示手段と音声を出力する電気音響変換手段からなり、

上記出力制御手段は、上記出力手段の表示手段に認識結果及び Ζ 又は加工変換された認識結果を画像として表示するように制御信号を生成するとともに、上記電気音響変換手段から認識結果及び Ζ又は加工変換された認識結果を音声として出力させるように制御信号を生成することを特徴とする音声変換装置-

上記変換手段は、音響電気変換手段からの音声信号に基づいて音声認識をする処理を行う音声認識手段と、音声言語障害を有しない

補正された用紙（条約第 19条）せられた音声を予めサンプリングすることで生成した音声データを記憶する記憶手段と、上記音声認識手段からの認識結果に基づいて、上記記憶手段に記憶された音声データを用いて出力する音声を示す音声情報を生成する音声情報生成手段とを備えることを特徴とする請求の範囲第 1項記載の音声変換装置。

3 . (削除）

4 . (補正後）上記出力制御手段は、上記表示手段に表示する図柄を示すデータを格納したデータ記憶手段を備え、上記認識手段により認識された結果及び Z又は認識結果を上記変換手段により加工変換した認識結果に基づいて、上記データ記憶手段に格衲されたデ一タを読み出してデータが示す絵柄を上記表示手段に表示するように制御することを特徴とする請求項 1記載の音声変換装置。

5 . (削除）

6 . (補正後）上記出力制御手段は、使用者及び Z又は使用者以外から発せられる音声については上記表示手段に画像を表示するように制御信号を生成するとともに、使用者及び Z又は使用者以外から発せられる音声の音圧レベルを増幅して電気音響変換手段から音声として出力する制御信号を生成することを特徴とする請求の範囲第 1項記載の音声変換装置。

7 . (補正後）上記出力制御手段は、上記認識結果に応じて、上記音響電気変換手段で検出した音声の意味内容を表示するように制御信号を生成することを特徴とする請求の範囲第 1項記載の音声変換

8 . (削除）

9 . (削除）

補正された用紙（条約第 19条） 1-0 . (削除）

1 1 . (削除）

1 2 . (削除）

1 3 . (削除）

1 4 . 少なくとも上記出力手段は、使用者に対して着脱自在となされていることを特徴とする請求の範囲第 1項記載の音声変換装置 _c

1 5 . 通信回線を通じて音声を入力して上記音響電気変換手段に入力するとともに上記出力手段からの認識結果を通信回線に出力する上記通信手段を備えることを特徴とする請求の範囲第 1項記載の音声変換装置。

上記出力手段は、各話者に関する情報を使用者に提示することを特徴とする請求の範囲第 1項記載の音声変換装置。

1 7 . 画像を撮像する撮像手段を備え、

上記撮像手段は、撮像した画像を少なくとも表示手段に出力することを特徴とする請求の範囲第 2項記載の音声変換装置。

1 8 . (補正後）上記撮像手段は、使用目的に応じて、撮像した画像について画像変換処理を施して表示手段に出力することを特徴とする請求の範囲第 1 7項記載の音声変換装置。

1 9 . 少なくとも上記撮像手段は、使用者に対して着脱自在となされていることを特徴とする請求の範囲第 1 7項記載の音声変換装置。

2 0 . (補正後）外部ネットワークに含まれる外部機器と接続した上記通信手段を備え、

補正された用紙（条約第 19条）外部機器からのデータを用いて、使用目的に応じた加工変換した認識結果として出力することを特徴とする請求の範囲第 1記載の音声変換装置-

2 1 . 上記通信手段は、上記音響電気変換手段で生成した音声信号、上記認識手段で得た認識結果及び Z又は変換手段で得た加工変換結果を外部機器に出力し、外部機器からの認識結果及び Z又は加ェ変換結果を得ることを特徴とする請求の範困第 2 0項記載の音声変換装置。

2 2 . 上記通信手段は、上記認識手段及び Z又は上記加工変換手段の処理内容を変更するプログラムを外部機器から受信し、上記認識手段及び Z又は上記加工変換手段は、上記通信手段で受信したプログラムに基づいて認識結果、加工変換結果を生成することを特徴とする請求の範囲第 2 0項記載の音声変換装置。

2 3 . 上記出力制御手段は、認識結果及び Z又は変換した認識結果を同時又は時間差を持たせて出力手段から出力する制御を行うことを特徴とする請求の範囲第 1項記載の音声変換装置。

2 4 . (補正後）音響電気変換手段、認識手段、変換手段、出力制御手段及び出力手段を使用目的に応じて分割して複数の装置とし、各装置間をワイヤレスとして少なくとも認識結果及び Z又は変換した認識結果の送受信を行うことを特徴とする請求の範囲第 1項記載の音声変換装置。

2 5 . 上記音響電気変換手段は、音声言語障害を有して発せられた音声として、音声言語障害を是正するために用いられる補助的手段や装置を用いて発せられた音声を検出して音声信号を生成することを特徴とする請求の範囲第 2項記載の音声変換装置。

捕正された用紙（条約第 19条） 2-6 . 上記音響電気変換手段は、音声言語障害を有して発せられた音声として、音声言語障害を是正するために用いられる、代用発声法を用いて発せられた音声を検出して音声信号を生成することを特徴とする請求の範囲第 2 5項記載の音声変換装置- 2 7 . 上記音響電気変換手段は、音声言語障害を有して発せられた音声として、音声言語障害を是正するために用いられる、代用発声法以外の手法を用いて音声言語障害者から発せられた音声を検出して音声信号を生成することを特徴とする請求の範囲第 2 5項記載の音声変換装置。

2 8 . (補正後）音声を検出して音声信号を生成し、

認識結果を使用目的に応じて加工変換し、

認識結果及び Z又は認識結果を加工変換した認識結果を出力させる制御信号を生成し、

上記制御信号に基づいて認識結果及び Z又は加工変換された認識結果を画像と音声として使用者に提示すること

を特徴とする音声変換方法。

音声信号に基づいて音声認識をし、

認識結果に基づいて、予めサンブリングすることで生成した音声データを用いて出力する音声を示す音声情報を生成することを特徴とする請求の範囲第 2 8項記載の音声変換方法：

3 0 . (削除）

捕正された用紙（条約第 19条） 3-1. (追加）上記変換手段は、認識結果を画像として表示するための加工変換を行う第 1の変換手段と、認識結果を音声として出力するための加工変換を行う第 2の変換手段を備えることを特徴とする請求の範囲第 1項記載の音声変換装置。

3 2. (追加）使用者の動作に関するセンサを備え、

上記出力手段は、上記センサで検出した情報と上記変換手段により加工変換した認識結果に基づいて、仮想現実感（Virtual realit y:VR) を形成することを特徴とする請求の範囲第 1項記載の音声変

3 3. (追加）使用者の動作に関するセンサを備え、

上記出力手段は、上記センサで検出した情報と上記変換手段により加工変換した認識結果に基づいて、強調現実感（Augmented real ity:AR) を形成することを特徴とする請求の範囲第 1項記載の音声変換装置。

3 4. (追加）音声対話機能を備え、

上記音声対話機能による対話結果に基づいて、上記変換手段は上記認識手段による認識結果を加工変換することを特徴とする請求の範囲第 1項記載の音声変換装置。

補正された用紙（条約第 19条）