WO2000049834A1 - Dispositif de conversion de la parole et procede correspondant - Google Patents

Dispositif de conversion de la parole et procede correspondant Download PDF

Info

Publication number
WO2000049834A1
WO2000049834A1 PCT/JP2000/000872 JP0000872W WO0049834A1 WO 2000049834 A1 WO2000049834 A1 WO 2000049834A1 JP 0000872 W JP0000872 W JP 0000872W WO 0049834 A1 WO0049834 A1 WO 0049834A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
recognition
conversion
recognition result
output
Prior art date
Application number
PCT/JP2000/000872
Other languages
English (en)
French (fr)
Inventor
Toshihiko Oba
Original Assignee
Yugen Kaisha Gm & M
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yugen Kaisha Gm & M filed Critical Yugen Kaisha Gm & M
Priority to AT00903984T priority Critical patent/ATE471039T1/de
Priority to EP00903984A priority patent/EP1083769B1/en
Priority to AU25719/00A priority patent/AU2571900A/en
Priority to JP2000600451A priority patent/JP4439740B2/ja
Priority to DE60044521T priority patent/DE60044521D1/de
Priority to CA002328953A priority patent/CA2328953A1/en
Priority to US09/673,360 priority patent/US7676372B1/en
Publication of WO2000049834A1 publication Critical patent/WO2000049834A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Spinning Or Twisting Of Yarns (AREA)
  • Document Processing Apparatus (AREA)
  • External Artificial Organs (AREA)
  • Electric Clocks (AREA)
  • Navigation (AREA)

Description

明 細 書 音声変換装置及び方法 技術分野 本発明は、 マイク口ホン等により検出した音声を聴力障害者が理 解しやすい形式に加工変換して提示したり、 音声言語障害を持つ者 より発せられた音声や音声言語障害を是正するために用いる補助的 装置や手段 (例 : 喉頭摘出者の代用発声法 (speech production su bstitutes) ) により発せられた音声を加工変換して出力したりする 音声変換装置及び方法に関する. = 背景技術 従来から補聴器には、 気導方式と、 骨導方式があり、 また処理方 式と してアナログ補聴器 (リニアタイプ、 ノンリニアタイプ (K一 アンプ) 、 コンプレツシヨ ンタイプ等) とディジタル補聴器がある = 補聴器の種類は、 箱形、 耳かけ型、 CROS (Contra-lateral Routing of Signal) 型、 耳穴形、 bone- anchored型等がある。 小寺の報告に より補聴器には集団使用の大型 (卓上訓練用、 集団訓練用) 、 個人 的使用の小型のものがある (参照 Kodera K,図説耳鼻咽喉科 new a pproach 1 Medical view, 39, 1996) :
ディジタル補聴器は、 マイクロホンで検出した音声を先ず A/D (a nalog/digital) 変換によりディジタルデータを生成し、 例えばフ 一リェ変換により入力されたディジタルデータを周波数スベタ トル に 解し、 各周波数帯域毎に音声の感覚的な大きさに基づいた増幅 度の算出を行い、 ディジタルデータをディジタルフィルターに通過 させて D/A変換を行って再び音声を使用者の耳に出力するように構成 されている。 これにより、 ディジタル補聴器は、 話し手の音声を雑 音の少ない状態で使用者に聞かせていた。
また、 従来、 例えば喉頭摘出による音声障害者は、 声帯振動によ る発声機構を失い、 音声生成が困難になる。
喉頭摘出者の代用発声法には、 ( 1 ) 人工材料 (例 : ゴム膜 (笛 式人工喉頭) 、 (2 ) ブザー (例 : 電気式人工喉頭) 、 ( 3 ) 下咽 頭 ·食道粘膜 (例 : 食道発声、 気管食道瘻発声、 ボイスブロステー シス (voice prostheses) 使用の気管食道瘻発声) 、 (4 ) 口唇の 筋電図、 (5 ) 発声発話訓練装置(例 CISTA)、 ( 6 ) バラ トグラフ (palatograph) 、 ( 7 ) 口腔内振動子等によるものがある =
しかし、 上述したディジタル補聴器では、 各周波数帯域毎にディ ジタルデータを増幅させる処理を行っているだけなので、 マイクロ ホンにより周囲の音を無作為に収音し、 雑音をそのまま再生して使 用者の不快感が残り、 アナログ補聴器と比べても、 種々の聴力検査 において大幅な改善はなかった。 また、 従来のディジタル補聴器で は、 難聴者の身体状態、 利用状態及び使用目的に応じて検出した音 声に対する処理を適応させることはなされていなかった:
また、 代用発声法は、 喉頭摘出前の声帯振動によるものではなく、 生成する音声の音質が悪く、 本来正常であった本人が発していた声 とはかけ離れているという問題点が挙げられる。 発明の開示 本発明の目的は、 使用者の身体状態、 利用状態及び使用目的に 応じて音声認識の結果を提示するとともに、 ノイズが少ない状態で 認識結果を提示することができる音声変換装置及び方法を提供する ことにある。
本発明の他の目的は、 喉頭摘出、 舌口腔底切除、 構音障害 (art i cu l ati on d i sorder) 等による音声言語障害者が本来自身がもつ、 或 いは自在に変換させて自然な音声での発声を可能とするとともに、 外部の音声を使用者に出力して自然な会話を行わせることができる 音声変換装置及び方法を提供することにある。
上述したような目的を達成するため、 本発明に係る音声変換装置 は、 音声を検出して音声信号を生成する音響電気変換手段と、 音響 電気変換手段からの音声信号を用いて音声認識処理を行う認識手段 と、 認識手段からの認識結果を使用者の身体状態、 利用状態及び使 用目的に応じて加工変換する変換手段と、 認識手段により認識され た結果及び 又は認識結果を変換手段により加工変換した認識結果 を出力させる制御信号を生成する出力制御手段と、 出力制御手段で 生成された制御信号に基づいて認識手段により認識され変換手段に より加工変換された認識結果を出力して認識結果を使用者に提示す る出力手段とを備えることを特徴とする:
上述の課題を解決する本発明に係る音声変換方法は、 音声を検出 して音声信号を生成し、 音響電気変換手段からの音声信号を用いて 音声認識処理を行い、 認識結果を使用者の身体状態、 利用状態及び 使用目的に応じて加工変換し、 認識結果及び Z又は認識結果を加工 変換した認識結果を出力させる制御信号を生成し、 制御信号に基づ い 加工変換した認識結果を出力して認識結果を使用者に提示する ことを特徴とする。
本発明の更に他の目的、 本発明によって得られる具体的な利点は、 以下に説明される実施例の説明から一層明らかにされるであろう。 図面の簡単な説明 図 1は、 本発明を適用した補聴器の外観の一例を示す斜視図であ る。
図 2は、 本発明を適用した補聴器の構成を示すプロック図である。 図 3は、 本発明を適用した補聴器の表示部で認識結果及び加工変 換結果を表示する一例を説明するための図である。
図 4は、 本発明を適用した補聴器の表示部で加工変換結果を表示 する一例を説明するための図である:
図 5は、 本発明を適用した補聴器の表示部で認識結果及び加工変 換結果を表示する他の一例を説明するための図である。
図 6 Aは所定の音量でマイク口ホンに音声が入力されたときに表 示部に表示する図柄を示す図であり、 図 6 Bは上記所定の容量より も小さい音量でマイク口ホンに音声が入力されたときに表示部に表 示する図柄を示す図である。
図 7は、 本発明を適用した補聴器でオーダメント · リアリティ (Augument ed Real i ty : AR) を作るための構成を示すブロック図であ る。 発明を実施するための最良の形態 以下、 本発明の実施の形態について図面を参照しながら詳細に説 明する。
本発明は、 例えば図 1及び図 2に示すように構成された補聴器 1 に適用される。 この補聴器 1は、 図 1 に示すように、 ヘッ ドマウン トディスプレイ (head- mount ed di sp lay : HMD) 2 と、 音声認識、 音 声情報の生成等を行うコンピュータ部 3 との間を光ファイバ一ケ一 ブル 4で接続してなる携帯型のものである。 また、 コンピュータ部 3は、 例えば使用者の腰部に装着されるような支持部 5に付属して 配設され、 当該支持部 5に付属したバッテリ 6からの電力供給によ り駆動するとともに、 H M D 2を駆動させる。
H M D 2は、 使用者の目前に配置されるディスプレイ部 7 と、 使 用者からの音声を検出する使用者用マイクロホン 8 と、 使用者に音 声を出力する音声出力部 9 と、 使用者の頭部に上述の各部を配置さ せるように支持する支持部 5 と、 外部からの音声等を検出する外部 用マイクロホン 1 1 とを備える:
デイスプレイ部 7は、 使用者の目前に配されることで例えば使用 者用マイクロホン 8及び/又は後述の外部用マイク口ホン 1 1で検 出した音声の意味内容等を表示する: なお、 このディスプレイ部 7 は、 コンピュータ部 3からの命令に応じて、 上述の音声の意味内容 のみならず、 他の情報を表示しても良い。
使用者用マイクロホン 8は、 使用者の口元付近に配設され、 使用 者が発した音声を検出する。 そして、 この使用者用マイクロホン 8 は、 使用者からの音声を電気信号に変換してコンピュータ部 3に出 力する。
夕] ^部用マイクロホン 1 1は、 丸板状に形成された音声出力部 9の 側面に設けられる。 この外部用マイクロホン 1 1は、 外部からの音 声を検出して電気信号に変換してコンピュータ部 3に出力する。
この使用者用マイクロホン 8及び外部用マイクロホン 1 1は、 配 設する位置を問わず、 使用者の操作に応じて、 種々のマイク (音圧 マイ クロフォン (pressure microphone) 、 音圧頃度マイクロフォン
(pressuer gradient microphone) 、 ノヽフメ ト リ ックマイク ロフォ ン、 レーザドッブラマイク ロフォン、 骨導マイク、 気導音と骨導音 を拾い上げるマイクをもつ超小型送受話一体ュニッ トのマイク (日 本電信電話製) 、 無指向性マイク、 単一指向性 (超指向性等) マイ ク、 双指向性マイク、 ダイナミ ックマイク、 コンデンサ一マイク
(エレク トレッ トマイク) 、 ズームマイク、 ステレオマイク、 M S ステレオマイク、 ワイヤレスマイク) 、 セラ ミ ックマイク、 マグネ ティ ックマイク) や音響信号処理技術 (音響エコーキャンセラー
(acoustic ecno cancellerノ ) 、 マづ クロフオンアレイ (microph one array; ) ¾r用レヽてもよレヽ c
また、 イヤホンと しては、 マグネティ ックイヤホンが使用可能で ある = マイクとイヤホンは、 拡声器、 補聴器等、 マイクは人工中耳
• 内耳、 聴性脳幹インブラン ト、 タクタイルエイ ド、 bone 'conduct ion ultrasound system等で従来用いられているものを使用しても良 い = これらのマイクの収音技術と して、 エコーキャンセラ等を用い ても良い:
また、 これらのマイクロホン 8, 1 1は、 従来より採用されてい る利得調整器と音声調整器と出力制御装置 (maximam output power contro l式、 automat i c recru i tment cont ro l compres si on式等) を 適 j|したものが使用可能である。
更に、 使用者用マイクロホン 8及び外部用マイクロホン 1 1は、 図 1 に示すように、 別個に設ける一例のみならず、 一体に構成され たものであっても良い。
支持部 5は、 例えば形状記憶合金等の弾性材料等からなり、 使用 者の頭部に固定可能とすることで、 上述のディスプレイ部 7, 使用 者用マイクロホン 8, 音声出力部 9を所定の位置に配設可能とする。 なお、 この図 1に示した支持部 5は、 使用者の額から後頭部に亘っ て支持部材を配設することでディスプレイ部 7等を所定位置に配設 するものの一例について説明したが、 所謂へッ ドホン型の支持部で あっても良いことは勿論であり、 音声出力部 9を両耳について設け ても良い。
コンピュータ部 3は、 例えば使用者の腰部に装着される支持部 5 に付属されてなる。 このコンピュータ部 3は、 図 2に示すように、 例えばマイクロホン 8, 1 1で検出して生成した電気信号が入力さ れる。 このコンピュータ部 3は、 電気信号を処理するためのプログ ラムを格納した記録媒体、 この記録媒体に格納されたプログラムに 従って音声認識、 音声情報の生成処理を行う C P U ( Central Proc ess i ng Uni t ) 等を備えてなる。 なお、 このコンピュータ部 3は、 腰 部のみならず、 頭部の H M D 2 と一体化しても良い c
コンピュータ部 3は、 使用者用マイク口ホン 8及び Z又は外部用 マイクロホン i 1で検出した音声から生成した電気信号に基づいて、 記録媒体に格納されたブログラムを起動することで、 C P Uにより 音声認識処理を行うことで、 認識結果を得る: これにより、 コンビ ユータ部 3は、 C P Uにより、 使用者用マイクロホン 8及び/又は 外 用マイクロホン 1 1で検出した音声の内容を得る。
次に本発明を適用した補聴器 1 の電気的な構成について図 2を用 いて説明する。 この補聴器 1は、 音声を検出して音声信号を生成す る上述のマイクロホン 8 , 1 1 に相当するマイクロホン 2 1 と、 マ イク口ホン 2 1で生成された音声信号が入力され音声認識処理を行 う上述のコンピュータ部 3に含まれる信号処理部 2 2、 信号処理部
2 2からの認識結果に基づいて音声情報を生成する上述のコンピュ ータ部 3に含まれる音声情報生成部 2 3 と、 音声データが記憶され 信号処理部 2 2及び音声情報生成部 2 3にその内容が読み込まれる 上述のコンピュータ部 3に含まれる記憶部 2 4と、 音声情報生成部
2 3からの音声情報を用いて音声を出力する上述の音声出力部 9に 相当するスピーカ部 2 5と、 音声情報生成部 2 3からの音声情報を 用いて当該音声情報が示す內容を表示する上述のディスプレイ部 7 に相当する表示部 2 6とを備える。
マイクロホン 2 1は、 例えば喉頭摘出者の代用発声法を用いて発 せられた音声又は外部からの音声を検出して、 当該音声に基づく音 声信号を生成する。 そして、 このマイクロホン 2 1は、 生成した音 声信号を信号処理部 2 2に出力する。
また、 このマイクロホン 2 1は、 使用者の口元付近に配設され、 使用者が発した音声を検出する。 また、 このマイクロホン 2 1は、 外部からの音声を検出して音声信号を生成する。 なお、 以下の説明 においては、 使用者の音声を検出するマイクロホンを上述と同様に 使用者用マイクロホン 8 と呼び、 外部からの音声を検出するマイク 口ホンを上述と同様に外部用マイクロホン 1 1 と呼び、 双方を総称 するときには単にマイクロホン 2 1 と呼ぶ。
信号処理部 2 2は、 マイクロホン 2 1からの音声信号を用いて音 声認識処理を行う。 この信号処理部 2 2は、 例えば内部に備えられ たメモリに格納した音声認識処理を行うためのプログラムに従った 処理を行うことにより音声認識処理を実行する。 具体的には、 この 信号処理部 2 2は、 使用者の音声をサンプリ ングして生成し記憶部 2 4に格納された音声データを参照し、 マイクロホン 2 1からの音 声信号を言語と して認識する処理を行う。 この結果、 この信号処理 部 2 2は、 マイク ロホン 2 1からの音声信号に応じて認識結果を生 成する。
この信号処理部 2 2は、 例えば認識対象音声による分類と対象話 者による分類の音声認識処理があり、 認識対象音声による分類の音 声認識処理では単語音声認識 (isolated word recognition) と連続 音户 S忍 δ或 (continuous speech recognit ion; ¾ め 0 ま 7こ、 百号処 理部 2 2は、 連続音声認識には連続単語音声認識 (continuous wor d recognit ion と文音尸認識 sentence speech recognit ion) 、 会 舌音声認、識 (conversational speech recognition) 、 音尸理角?
(speech understanding) がある: また対象話者による分類では不 特疋話者型 (.speaker independent) 、 特定話者型 (speaker depen dent) 、 話者適応型 (speaker adaptive) 等がある。 この信号処理 部 2 2が行う音声認識手法としては、 ダイナミ ックブログラミング マッチイング (Dynamic Programming matching) 、 音声の特徴、 隠 れマノレコフモデル (Hidden Markov model :HMM) によるものがある = また、 信号処理部 2 2は、 入力した音声を用いて話者認識 (spea Ker recognition) 、 古者 S或另り speaker identif icat ion、 舌者照合 W
10 speaker ver i f i cat ion) を行う。 このとき、 信号処理部 2 2は、 使 用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を 用いて話者認識結果を生成して音声情報生成部 2 3に出力する。 ま た、 信号処理部 2 2は、 話者による変動が小さな特徴量を用いる方 法、 マルチテンプレート法、 統計的手法を用いて不特定話者認識を 行う。 また、 話者適応には、 個人差の正規化法、 話者間の音声デー タの対応関係によるもの、 モデルパラメータの更新によるもの、 話 者選択によるものがある D この信号処理部 2 2では、 以上の音声認 識を使用者の身体状態、 利用.状態及び使用目的に応じて行う。
ここで、 使用者の身体状態とは使用者の難聴や言語障害の程度等 を意味し、 利用状態とは使用者が補聴器 1 を使用する環境 (室内、 野外、 騒音下) 等を意味し、 使用目的とは使用者が補聴器 1 を利用 するときの目的、 即ち認識の向上させることや、 使用者が理解しや すいようにすること等であって、 例えば普段話す人との対話や、 不 特定多数との対話や、 音楽 (オペラ、 演歌) の観覧、 講演をきく こ とや、 言語障害者との対話である。
また、 この信号処理部 2 2は、 マイクロホン 2 1に入力した音声 を記憶し、 学習する機能を有する。 具体的には、 信号処理部 2 2は、 マイクロホン 2 1で検出した音声の波形データを保持しておき、 後 の音声認識処理に用いる。 これにより、 信号処理部 2 2は、 更に音 声認識を向上させる。 更に、 この信号処理部 2 2は、 学習機能を備 えることで出力する結果を正確にすることができる。
記憶部 2 4には、 信号処理部 2 2が入力された音声を認識すると きに、 入力された音声を検出することで生成した音声波形と比較さ れる音声モデルを示すデータが格納されている。 また、 記憶部 2 4には、 例えば喉頭摘出前の声帯振動による発声 機ネ ^を持つ使用者の音声や、 出力することを希望する音声を予めサ ンプリングして得たデータが音声データと して格納されている。 更に、 記憶部 2 4には、 認識結果及び Z又は加工変換して得た認 識結果に基づいて音声情報生成部 2 3により読み出される画像が格 納されている- この記憶部 2 4に格納される画像は、 認識結果を象 徴する図柄を示す画像であって、 使用者が直感的に認識結果を理解 することができるような図柄を示す画像である。
また、 記憶部 2 4に記録されるデータと しては、 画像提示する物 の画像の種類と して絵、 記号、 文字、 音符、 写真、 動画、 ァュメ一 シヨ ン、 イラス ト、 音声スペク トルグラムパターン、 色等がある。 音声情報生成部 2 3は、 信号処理部 2 2からの認識結果及び記憶 部 2 4に格納された使用者の音声を示す音声データを用いて、 音声 情報を生成する。 このとき音声情報生成部 2 3は、 認識結果に応じ て、 記憶部 2 4に格納された音声データを組み合わせるとともに、 認識結果を加工変換して音声情報を生成する: このとき、 音声情報 生成部 2 3は、 内蔵した C P U、 音声情報生成プログラムを用いて 音声情報を生成する。
また、 この音声情報生成部 2 3は、 認識結果を用いて音声から音 声分析し、 当該音声分析した音声の内容に応じて、 音声データを再 構成するという処理を行うことで、 音声を示す音声情報を生成する。 そして、 音声情報生成部 2 3は、 生成した音声情報をスピーカ部 2 5及び表示部 2 6に出力する. =
更に、 音声情報生成部 2 3は、 信号処理部 2 2からの認識結果を、 使用者の身体状態、 利用状態及び使用目的に応じて加工、 変換、 合 成等をして音声情報を生成する処理を行う = 更に、 この音声情報生 成 2 3は、 マイクロホン 2 1で検出された音声を使用者に提示す るための処理を認識結果及び Z又は加工等をして得た認識結果につ いて行う。
更にまた、 音声情報生成部 2 3は、 認識結果から生成した音声情 報を修飾して新たな音声情報を生成しても良い。 このとき、 音声情 報生成部 2 3は、 使用者の身体状態、 利用状態及び使用目的に基づ いて、 更に使用者が理解し易い言葉を付け加えることで、 使用者の 音声の認識を更に向上させる。 このよ うな処理をする音声情報生成 部 2 3は、 例えばマイクロホン 2 1 に 「ビックマック」 と入力され たときには、 例えば 「マク ドナルドのビックマック (登録商標) 」 を示す音声情報を生成する。
更にまた、 この音声情報生成部 2 3は、 音声情報を表示部 2 6に 出力するときに音声の意味内容を画像と して表示部 2 6に出力する。 このとき、 音声情報生成部 2 3は、 例えば使用者又は使用者の話者 及び外部からの音声が入力されて信号処理部 2 2からの認識結果と して物体を示す認識結果が入力されたときには、 当該物体を示す画 像データを記憶部 2 4から読み出して表示部 2 6に出力して表示さ せる処理を行う。
更にまた、 この音声情報生成部 2 3は、 信号処理部 2 2からの認 識結果に応じて、 以前にスピーカ部 2 5又は表示部 2 6に出力した 音声情報を再度出力する。 音声情報生成部 2 3は、 音声情報を出力 した後に、 使用者又は使用者に対する話者がもう一度聞き直したい ことに応じて発した音声を示す認識結果が入力されたと判定したと きには、 スピー力部 2 5又は表示部 2 6に出力した音声情報を再度 出力する処理を行う。 更にこの音声情報生成部 2 3では、 繰り返し て何回でも音声情報を出力しても良い。
また、 音声情報生成部 2 3は、 例えば使用者の話者からの音声の 特徴を抽出する処理や音声の周波数特性を用いた話者認識結果に基 づいて、 以前にスピー力部 2 5又は表示部 2 6に出力した音声情報 を再度出力しても良い。 更に、 音声情報生成部 2 3は、 人工知能の 機能を用いて音声対話を行う ことで、 スピーカ部 2 5又は表示部 2 6に出力した音声情報を再度出力しても良い。
更にまた、 音声情報生成部 2 3は、 再度出力する処理を行うか否 かを操作入力部 2 8からの操作入力命令に応じて切り換えても良い。 すなわち、 使用者が再度出力する処理を行うか否かの切換を操作入 力部 2 8を操作することで決定し、 操作入力部 2 8をスィ ッチとし て用いる:
また、 この音声情報生成部 2 3は、 再度音声情報を出力するとき、 以前に出力した音声情報を再度出力するか、 以前に出力した音声情 報とは異なる音声情報を出力するかを、 信号処理部 2 2を介して入 力される操作入力部 2 8からの操作入力信号に応じて選択する- 表示部 2 6は、 音声情報生成部 2 3で生成した音声情報が示す音 声、 カメラ機構 2 9で撮像した画像等を表示する。
操作入力部 2 8は、 使用者に操作されることで、 操作入力信号を 生成する。 この操作入力部 2 8 と しては、 例えば、 スィ ッチ、 キー ボード、 マウス、 インターネッ トノ ッ ド (RF wire l e ss式) 、 ウェア ブル操作インターフェース (プロ トタイプ : 手指の姿勢、 動作計測 によるポインティング入力、 ジエスチヤ入力 (ォリンパス) ) があ る。 このような補聴器 1は、 マイクロホン 2 1で検出した音声につい て信号処理部 2 2で音声認識処理をして、 認識結果に基づき音声情 報生成部.2 3でプログラムを起動することで使用者に応じた処理を 行う ことができる。 これにより、 補聴器 1は、 スピー力部 2 5にマ イク口ホン 2 1からの音声を出力するとともに、 表示部 2 6に表示 するので、 音声に対する使用者の認識を向上させることができる。
これは、 MuGurk効果 (視覚聴覚同時に矛盾する音韻情報を提示し た場合に異聴が生ずる : 参照 MuGurk H and MacDonald J: Hearing lips and seeing voice, Nature 264, 746-8, 1976) 、 Kuhlの報告 (乳 児の聴覚からの音声情報と視覚からの口形の情報との対応関係の獲 得 : 参照 Kuhl PK et al. Human processing of audi tory-vi sual information in speech percept ion. ICSLP' 94 SI 1. , Yokohama, 1 994) 、 腹話術効果 (視覚が音源方向の知覚に影響を与える) 、 及び 人間は無意識のうちに音源かどうかを学習し、 区別する等の報告は 人間のコミュニケ一ションが本来マルチモーダルなものであるとす る仮説を支持するものである (参照 Saitou H and Mori T:視覚認 知と聴覚認、知 Ohmsha, 119—20, 1999) 。
また成人の難聴は年齢とともに内耳障害、 語音弁別能の低下、 聴 中枢の障害、 誤聴が増加する。 難聴 (100dB以上) では読話が中心で 聴覚が補助的となり、 補聴器を使用しない聴覚障害者が多い。 また 高度難聴者に対して補聴器の最大出力を高くすると難聴が進行する ことがある。 人工中耳 ' 内耳、 聴性脳幹インプラントなどの手術で も、 症例により期待したほどの聴覚の補充ができていないとの報告 があり、 音は聞こえるが話の内容がわからないとのク レームがかな りある。 また、 読話、 手話は成人後の修得は難しい: 聴覚とは末梢聴器の低次機能だけでなく、 大脳の知覚、 認知とい つた高次機能をも含めた包括的な概念であり、 聴力は純音聴力検査 で把握できる聴覚の感度面 (auditory acuity) であるとされる。 補 聴器を装用する最大の目的が音声言語コミュニケ一ションに役立て ることにあると仮定すると、 相手の言ったことの認知及び理解の程 度が重要である。
従来の補聴器、 人工内耳等は聴力を補う ことを主な目的と したが、 補聴器 1は視覚による認知という概念を付け加えたことが、 聴覚を 補充するものと考えてもよい。 また、 画面表示と音声によるフィー ドバックが聴覚障害者の音声認識を改善するという報告もある (参 照 Yanagida M, Aging of speech listening ability. Tech Repo rt of IEICE, SP96-36 (1996-07) , 25-32, 1996) c
以上により聴覚の認識は視覚と密接な関係にあり、 視覚を使うこ とにより音声内容の認識が高まり、 音声を最大出力にしなくても音 声内容の認識が可能であり、 患者の満足度が高くなると思われる。 また聴覚障害児における聴覚学習においても補聴器 1は有効である- よって、 表示部 2 6に認識結果等を表示することで音声情報を補 足し、 音声に対する使用者の認識を向上させる。 この補聴器 1では、 音声のみならず、 表示部 2 6に表示する画像を通じて話者に音声の 意味内容を伝達し、 対話することができる:
更に、 この補聴器 1によれば、 使用者用マイクロホン 8及び/又 は外部用マイクロホン 1 1で検出した音声を認識した結果に応じて 表示部 2 6に表示する音声の意味内容及びスピー力部 2 5から出力 する音声の内容を変更させることができるので、 更に音声に対する 使用者の認識を向上させることができる。 従って、 この補聴器 1 に よれば、 音声情報生成部 2 3により音声認識処理を変更するプログ ラムを実行することにより、 身体状態 (難聴の程度等) 、 利用状態 及び使用目的に応じて認識処理を変更することで、 使用者が理解し やすい音声の意味的な情報を表示することで更に認識を向上させる ことができる。
スピー力部 2 5は、 音声情報生成部 2 3で生成した音声を出力す る: このスピーカ部 2 5としては、 例えば使用者から話し手に対し て音声を出力するものであっても良く、 更には、 使用者が発した音 声を使用者の耳に対して発声するように音声を出力するものであつ ても良く、 更には話し相手から使用者 (又は話し相手) に対して出 力するものであっても良い。
また、 使用者の耳に対して発声するように音声を出力するスピ一 力部 2 5は、 スピ一力ュニッ トの変換方式としてダイナミ ック型や 静電型 (コンデンサ型、 エレク ト口スタティ ック型) によるもので も良く、 形状としてはヘッ ドフォン (オープンエア型、 クローズド 型、 カナルタイプ等のイン . ザ . ィヤー型等) によるものでも良い c また、 スピーカ部 2 5は、 従来の補聴器、 拡声器、 集音器のスビ一 力によるものでも良く、 磁気ループを利用したものでも良く 、 更に 指を使ったマイク · スピー力 · システム (W i s p e r (protot yp e: NTT Docomo) ) によるものでも良い。 要するに、 使用者から話者 に対して音声を出力するスピーカ部 2 5は従来から用いられている スビーカ装置でよい:
また、 スピーカ部 2 5は、 音声情報に基づいて出力する音声と逆 位相の音を出力するようにしても良い。 これにより、 スピーカ部 2 5から出力する音声に含まれる雑音成分を除去し、 使用者及び Z又 は使用者に対する話者に雑音の少ない音声を出力する。
た、 この補聴器 1は、 外部の通信ネッ トワークと接続された通 信回路 2 7を備えている。 この通信回路 2 7は、 通信ネッ トワーク
(電話回線 ( I S DN, AD S L, x D S L) 、 FAX, t e l e x、 移動体通信網 (CDMA、 WCDM、 G SM、 PH S、 ページ ャ網 (DARC (FM文字多重放送) 、 h i g h s p e e d p a g e r、 FM p a g e r ) 、 I MT 2 0 0 0 , P C S、 MMAC、
I R I D I UM、 サービス網 ( i — m o d e : NTT Docomo) ) 、 ィ ンターネッ ト網 (A S P) 、 LAN、 無線通信網 (AMZFM方式、 テレビジョ ン通信、 Bluetooth, 赤外線 IrDA、 超音波、 アマチュア無 線、 有線網 (例、 大阪有線放送等) 、 衛星通信 (例 B S、 C S) 、 光通信、 ケーブル等) を介して例えば音声言語障害者から発せられ た音声や外部からの音声が入力される- この通信回路 2 7は、 音声 を示すデータを信号処理部 2 2に入力する。 また、 この通信回路 2
7は、 信号処理部 2 2で信号処理を施した信号、 音声情報生成部 2
3で生成した音声情報等を外部のネッ トワークに出力するとともに、 外部のネッ トワークから信号処理を施した情報や、 補聴器 1の内部 の処理を変更、 制御する内容の情報が入力される。
また、 この通信回路 2 7は、 信号処理部 2 2、 音声情報生成部 2
3を介して受信したテレビ放送 (デジタル放送) 、 文字放送、 文字 ラジオ等を表示部 2 6で表示させても良い。 このとき、 通信回路 2
7は、 文字放送等を受信するためのチューナ機能を備え、 使用者の 所望のデータを受信する c このように構成された補聴器 1は、 例えば喉頭摘出者の電気式人 ェ喉頭を使って発声された音声がマイクロホン 2 1 に入力された場 合であっても、 信号処理部 2 2で音声認識し、 記憶部 2 4に格納さ れた喉頭摘出前にサンプリングした音声を示す音声データを用いて 音声情報生成部 2 3 で出力する音声を示す音声情報を生成するので、 スピーカ部 2 5から喉頭摘出前の使用者の音声に近似した音声を出 力することができる。
なお、 上述した本発明を適用した補聴器 1の説明においては、 マ イク口ホン 2 1で検出される喉頭摘出者の音声である一例について 説明したが、 聴力障害による言語障害の一つである構音障害者から の音声や人工呼吸を受けている人の声を検出したときであっても良 い。 このとき、 補聴器 1は、 言語障害者の音声を音声データとして 記憶部 2 4に記憶しておき、 当該発声者が発声したことに応じて記 憶部 2 4に格納された発声者の音声を示す音声データを参照して信 号処理部 2 2で音声認識処理を行い、 音声情報生成部 2 3で認識結 果に応じて音声データを組み合わせることで音声情報を生成する処 理を行うことにより、 スピー力部 2 5から音声言語障害のない音声 を出力するとともに、 表示部 2 6により音声情報に基づいた音声内 容を表示することができる。
したがつてこの補聴器 1によれば、 例えば喉頭摘出者が代用発声 法により発生した音声を表示部 2 6に表示することで不自然な音声 を訂正させることができる。
更に、 補聴器 1は、 例えば聴力障害による構音障害を持つ者は発 声のためのフィ一ドバックが得られず、 「きょ うは (今日は) 」 と いう音声が 「きょんわあ」 となってしまうのを上述した処理を行う ことにより正常な 「きょ うは (今日は) 」 という音声に訂正してス ピー力部 2 5から出力することができる。 更に、 この補聴器 1は、 表示部 2 6を備えているので、 発声者の 音声をスピーカ部 2 5から正常な音声にして出力するとともに、 発 声者の音声内容を表示することにより音声障害者や難聴者の言語訓 練学習にとって好適なシステムを提供することができる。
つぎに、 上述の音声情報生成部 2 3が信号処理部 2 2からの認識 結果を加工、 変換して音声情報を生成する処理、 音声データを組み 合わせる処理で適用することができる種々の例について述べる。 な お、 変換処理等の種々の例は、 以下に述べる例に限定するものでは ない。
音声情報生成部 2 3は、 信号処理部 2 2からの認識結果を変換す るとき、 人工知能技術を用いて認識結果を加工変換して音声情報を 生成しても良い。 音声情報生成部 2 3は、 例えば音声対話システム を用いる。 ここで、 聴力低下した老人は相手話者の言ったことを再 度聞き直すことがあるが、 このシステムを用いて認識結果を加工変 換することにより、 補聴器 1 と使用者とが対話して以前に記憶した 相手話者の言ったことの情報を得て、 使用者の音声認識を向上させ ることができ、 聞き直す手間を省略することができる。
このよ うなシステムは、 マルチモーダル対話システムである表情 つき音声対話システムを用いることで実現可能である。 このマルチ モーダル対話システムでは、 ポインティングデバイスとタブレツ ト を利用する入力技術である直接操作 ·ベンジエスチヤ技術、 テキス ト入力技術、 音声認識等の音声入出力技術、 視覚や聴覚や触覚や力 覚を利用したバーチャルリアリティ (Virtual Real i t y : VR) 構成技 術、 ノンバーバルモダリティ技術の技術要素をモダリティと し組み 合わせて用いる。 このとき、 音声情報生成部 2 3は、 言語情報を補 足する手段、 対話の文脈情報 (或いはその補足手段) 、 使用者の認 知的負担或いは心理的抵抗感を軽減する手段として各モダリティを 用いる。 なお、 ノンバーバノレイ ンターフエ一スと してジェスチャー
(身振り) インターフェースを用いてもよい。 その場合ジエスチヤ ーィ ンターフェースの計測と して装着型センサによるジェスチャー 計測にはジェスチャートラッキングが必要であり手袋型デバイス、 磁気や光学的位置計測を用い、 ジェスチャーの非接触計測にはマー 力を立体解析する映像や 3 D再構成によるものを用いてもよい。 なお、 このマルチモーダル対話システムの詳細は以下の文献に記 載されてレヽる (Nagao K and Takeuchi A, Speech dialogue with fa cial displays: Multimodal human -computer conversation. Proc.3 2nd Ann Meeting of the Association for Computational Linguis tics, 102-9, Morgan Kauf mann Publ ishers, 1994; Takeuchi A and N agao K, Communicative facial displays as a new conversational modal ity. Proc ACM/IFIP Conf on Human Factors in Computing S ystems (INTERCHI' 93) , 187-93, ACM Press, 1993) c
このよ うな人工知能機能を用いた音声対話システムと しては、 マ イクホン 2 1で検出した音声を、 信号処理部 2 2で A/D変換、 音 響分析、 べク トル量子化の後、 音声認識モジュールによって、 上位 スコアをもつ単語レベルの最良仮説を生成するシステムが使用可能 である。 ここで、 音声情報生成部 2 3は、 HMMに基づく音韻モデ ルを用いて、 ベク トル量子コードから音素を推定し、 単語列を生成 する。 音声情報生成部 2 3は、 生成した単語列を、 構文 ·意味解析 モジュールにより意味表現に変換する: このとき、 音声情報生成部
2 3は、 単一化文法を用いて構文解析を行い、 次にフ レーム型知識 ベースと事例ベース (例文を解析して得られた文パターン) を用い て曖昧さの解消を行う = 発話の意味内容の決定後、 プラン認識モジ ユールにより使用者の意図を認識する。 これは対話の進行に従い動 的に修正 .拡張されていく使用者の信念モデルと対話のゴールに関 するプランに基づいている。 意図を認識する課程で、 主題の管理や、 代名詞の照応解消、 省略の補完などを行う。 そして使用者の意図に 基づいて協調的な応答を生成するモジュールが起動する = このモジ ユールはあらかじめ用意されたテンプレートの発話パターンに領域 知識により得られた応答に関する情報を埋め込むことにより発話を 生成する。 この応答は音声合成モジュールにより音声となる。 なお、 この信号処理部 2 2及び音声情報生成部 2 3が行う処理と しては、 例えば以下に示す文献に記載された処理を行うことでも実現可能で ある (Nagao N, A preferential constraint satisfaction techniq ue for natural language analysis. Proc 10th European Conf on
Artificial Intelligence, 523-7, John Wi ley&Sons, 1992 ; Tanaka H, Natural language processing and its applications, 330-δ, 199 9, IEICE, Corona Publishing Co.; Nagao K, Abduction and dynami c preference in plan-based dialogue understanding. Proc 13th Int joint Conf on Artificial Intelligence, 1186-92, Morgan Kau f mann Publ ishers, 1993) ;
また、 音声情報生成部 2 3は、 人工知能機能を用いて行う処理と して、 システムの擬人化を行い、 音声認識、 構文 '意味解析、 ブラ ン認識より表情バラメータ調節、 表情アニメーションを表示部 2 6 を用いて行うことにより、 視覚的手段を用いて音声対話に対して使 用者の認知的負担、 心理的抵抗感を軽減する: なお、 この音声情報 生成部 2 3が行う処理としては、 以下に示す文献に記載された FACS (Facial Action Coding System) 力 ある (参照 Ekman P and rri esen WV, Facial Action Coding System. Consulting Psychologist s Press Palo Alto, Calif, 1978) 。
更にまた、 音声情報生成部 2 3は、 音声対話コンピュータシステ ム (参照 Nakano M et al,柔軟な話者交代を行う音声対話システム DUG-1, Proc of 5th Ann meeting of NLP, 161-4, 1999) として、 話し 言葉を理角?する逐次理角?方式 (Incremental Utterance Understand mg (参' akano M, Understanding unsegmented user uttera nces in real-time spoken dialogue systems. Proc of the 37th A nn meeting of the association for computational linguistics, 200-7) と内容の逐次変更が可能な逐次生成方式 (Incremental Utt erance Production; (参照 Dohsaka K and Shimazu A, A comput ational mode丄 of incremental utterance production in task - or iented dialogues. Proc of the 16th Int Conf on Computational Linguistics, 304 - 9, 1996 ; Dohsaka K and Shimazu A, System architecture for spoken utterance production in col laborat iv e dialogue. Working Notes of I JCAI 1997 Workshop on Col labor ation, Cooperation and Conflict in Dialogue Systems, 1997; Dohsaka K et al,複数の対話ドメインにおける協調的対話原則の分 析 Corpus analysis of collaborative principles in different dialogue domains, IEICE Tech Report NLC- 97- 58, 25 - 32, 1998) に よる音声と画像を用いる人工知能システムである。 ここで、 音声情 報生成部 2 3は、 理解と応答のプロセスが平行動作する。 また、 音 声情報生成部 2 3は、 ISTARブロ トコール (参照 Hirasawa J, Implem entation of coordinative nodding behavior on spoken dialogue systems, ICSLP- 98, 2347- 50, 1998) を用いて音声認識と同時に単語 候補を言語処理部に逐次的に送る。
すなわち、 音声対話システム DUG- 1 (日本電信電話製) で用いてい る技術を用いることにより、 補聴器 1では、 例えば所定のデータ量 (文節) ごとに使用者及び Z又外部からの音声を音声認識するとと もに、 音声情報を生成する処理を行う。 音声情報生成部 2 3では、 使用者及び Z又は外部からの音声に応じて、 音声認識処理、 音声情 報認識処理を随時中止、 開始することができ、 効率的な処理を行う ことができる。 更に、 この補聴器 1では、 使用者の音声に応じて、 音声認識処理、 音声情報生成処理を制御することができるので、 柔 軟に話者の交替を実現することができる。 すなわち、 音声情報を生 成している最中に使用者及び 又は外部からの音声を検出すること で処理を変更し、 使用者に提示する音声情報の内容を変更等の処理 を行うことができる。
更にまた、 音声情報生成部 2 3は、 キーワードスポティングを用 いて使用者の自由な発話を理解する処理を行っても良い (参照 Tak abayashi Y,音声自由メ寸話シスアム Spontaeous speech dialogue TOSBURG II 一使用者中心のマルチモーダルインターフェースの実 現に向けて -towars the user-centered mul t i model interface-. IEICE trans volJ77— D— II No 8 1417 - 28, 1994) 。
この音声情報生成部 2 3は、 例えばイン トネーショ ン、 ス ト レス、 アクセン ト等の処理を行うように変換処理を行って音声情報を出力 しても良い。 このとき、 音声情報生成部 2 3は、 必要に応じて、 特 定の発音についてはイン トネーショ ン、 ス トレス、 アクセン トの強 弱を変化させるように音声情報を変換して出力するようにする。 韻律制御方式として単語及び文韻律データベースを用いてもよい (参照 Nukaga N et al 単語および文韻律データベースを用いた韻 律制御方式の検 寸 On the control of prosody using word and se ntence prosody database. The 1998 meeting of the AS J society of Japan 227-8, 1998) 。
音声情報生成部 2 3は、 音声データを合成するとき、 どのような 内容の音声でも合成するときには規則による音声合成、 滑らかな音 声を合成するために可変長単位を用いた音声合成、 自然な音声を合 成するための韻律制御、 また音声の個人性付与のために音質変換を 行って音声情報を生成しても良い (参照 自動翻訳電話 ATR国際電 気通信基礎技術研究所編, 177- 209, 19'94 Ohmsha) 。
また、 ボコーダ (vocoder) (例 : 音声分析変換合成法 STRAIGHT ( speech transformation and representation based on adaptive interpolation of weighted spectrogram参照 Maeda N et a丄, Vo ice Conversion with STRAIGHT. TECH REPORT OF IEICE, EA98-9, 3 1-6, 1998) を用いても高品質の音声を合成することが可能である- 更に、 この音声情報生成部 2 3は、 文字情報から音声を作り出す 音声合成 (text to speech synthesis) を用いることにより話の内 容に関する情報 (音韻性情報) や音の高さや大きさに関する情報 (韻律情報) を聴力障害者の難聴の特性に合わせてその人の最も聞 き易い音の高さに調整することも可能であり、 他に話速変換技術 (voice speed convertingノ 、 周波数 £h縮 (frequency compress) 処理等の音声特徴量の変換処理を行う。 また出力する音声の帯域を 調整する帯域拡張 (frequency band expansion) 処理や、 音声強調 (speech enhancement) 処理等を音声情報に施す。 帯域拡張処理、 音声強調処理と しては、 例えば以下の文献に記載されている技術を 用いることで実現可能である (Abe M, Speech Modification Metho ds for ^unaamental Frequency, Duration and Speaker Individua lity. TECH REPORT OF IEICE, SP93— 137, 69— 75, 1994) 。 なお、 上述し たように、 信号処理部 2 2及び音声情報生成部 2 3で音声認識処理 をして認識結果を加工変換する場合のみならず、 上述の処理のみを 行ってスピーカ部 2 5に出力しても良い。 また、 この補聴器 1では、 認識結果及び Z又は上述の処理のみを行った結果を同時に又は時間 差を付けて出力しても良い。 また、 この補聴器 1では、 認識結果及 び/又は上述の処理のみを行った結果をスピーカ部 2 5又は表示部 2 6の左右のチャンネルで異なる内容を出力しても良い。
更にまた、 音声情報生成部 2 3は、 認識結果を用いて音声から言 語を理解し、 当該理解した言語を用いて音声データから音声情報を 構成するという処理を行うのみならず、 他の処理を認識結果に基づ いて理解した言語を必要に応じて加工変換する処理を行っても良い- すなわち、 この音声情報生成部 2 3は、 音声情報を構成するととも に、 音声情報と してスピーカ部 2 5に出力するときの速度を変化さ せる話速変換処理 (例 : ピッチ区間の分割 ·延長により有声区間を 延長、 無声区間は加工せず、 無音区間の短縮) を行っても良い。 す なわち、 この話速変換処理は、 使用者の状態に応じて適当な話速を 選択することによりなされる。
更にまた、 この音声情報生成部 2 3は、 認識結果に応じて、 例え ば日本語 (Japanese) の音声情報を英語 (English) の音声情報に変 換して出力するような翻訳処理を行って出力しても良く、 通信機能 と合わせて自動翻訳電話にも応用可能である- 更には音声情報生成 部 2 3は自動要約 (automatic abstracting) を行レヽ、 「United St ates of Americaj を 「USA」 と要約するように変換して音声情報を 出力しても良い。
音声情報生成部 2 3が行う他の自動要約処理としては、 例えば文 章内から要約に役立ちそうな手がかり表現を拾い出し、 それらをも とに読解可能な文表現を生成する生成派の処理 (参照 McKeown K and Radev DR, Generating Summaries of Multiple News Articles.
In Proc of 14th Ann Int ACM SIGIR Conf on Res and Developme nt in Information Retrieval, 68-73, 1995; Hovy E, Automated Di scourse Generation using Discourse Structure Relations, Arti ficial Intelligence, 63, 341-85, 1993) 、 要約を 「切り抜き」 と考 えて処理し客観的評価が可能となるように問題を設定しよう という 立場の抽出派の処理がある (参照 Kupiec J et al, A Trainable D ocument Summarizer. In Proc of 14th Ann Int ACM SIGIR Conf on
Res and Development in Information Retrieval, 68-73, 1995; M like S et al, A Full— text Retrieval System with a Dynamic Ab struct Generation Function. Proc of 17th Ann Int ACM SIGIR Co nference on Res and Development in Information Retrieval, 152 一 9, 199 ; Edmundson HP, New Method in Automatic Abstract ing. J of ACM 16, 264-85, 1969) 。 更に、 この音声情報生成部 2 3は、 例 . ia^Part ial Matching Methodと Incremental Reference Interval- Free連続 DPを用いて重要キ一ワー ドの抽出を行レ、、 Incremental Pa th Methodを用いて単語認識を行うことが可能である (参照 Nakaz awa M et al. Text summary generation system from spontaneous speech, The 1998 meeting of ASJ 1-6-1, 1-2, 1998) 。
にまた、 この音声情報生成部 2 3は、 認識結果に応じて、 特定 の音素、 母音、 子音、 アクセン ト等において、 消去したり、 音声を 出力することに代えてブザー音、 あくび音、 せき音、 単調な音等を 音声情報とともに出力するように制御しても良い。 このとき音声情 報生成部 2 3は、 例えば以下の文献に記載されている手法を実現し た処理を音声情報について行う (参照 Warren R , Perceptual Res t orat ion oi Missing Speech Sounds. Science vol ID , ό92, 1970; W arren RM and Obusek CJ, Speech perception and phonemic resto rat ion. Percept ion and psychophysics vol9, 358, 1971) 。
更にまた、 音声情報生成部 2 3は、 認識結果を用いてホーン調 (管共鳴を用いた重低音を再生する技術により出力される音質:集音 管により約 2 0 0 0 H Z以下の帯域の音声を増幅させ、 利得が約 1 5 d B ) となるように音質を変換させて音声情報を出力しても良い。 この音声情報生成部 2 3は、 例えば US PATENT 4628528により公知と なされてレヽるアコ一スティ ックウエーブ · ガイ ド (Acoustic Wave Guide) 技術を用いて出力される音質に近似した音に変換して音声情 報を出力してもよく、 アコ一スティ ックウェーブ · ガイ ド技術に基 づきスピーカからの音を管に通して出してもよい (例 w a v e r a d i o ( B O S E ) ) 。 ここで、 音声情報生成部 2 3は、 例え ば低音のみを通過させるフィルタ一処理を行って音声情報を出力す る処理を行っても良く、 例えば SUVAG (Systeme Universel Verbo-t onal d' Audition- Guberina) を用いることにより、 所定の周波数帯 域の音声のみを通過させる種々のフィルタ処理を行って音声情報を 出力する処理を行っても良い。 更にまた、 この音声情報生成部 2 3は、 例えばマイクロホン 2 1 に音楽が入力されたと判断したときには、 色を表示するように処理 を行っても良レ、し、 ソング頼太や XG works v. 3. 0 (ヤマハ) のボイ ス ト ウスコア R等の機能で実現されている音声情報を変換して表示部 2 6に音符を表示してもよい。 また、 この音声情報生成部 2 3は、 音声のリズムなどが分かるために変換した音声のリズムを信号が点 滅するように音声情報を変換して表示部 2 6に表示しても良いし、 音声を色彩表示ゃスぺク トルグラムパターンによる表示をしてもよ い。 .
更にまた、 この音声情報生成部 2 3は、 例えば警報等の発信音が マイクロホン 2 1に入力されたと判断したときには、 音声情報を変 换することで表示部 2 6に警報等がマイクロホン 2 1 で検出された 旨の表示を行ったり、 スピーカ部 2 5に警報の内容を知らせるよう な内容を出力しても良い。
この音声情報生成部 2 3は、 例えば非常ベルや救急車や津波のサ ィ レンを聞いたら表示するだけでなく大音量で 「火事ですよ」 「救 急車ですよ」 「津波が襲ってきますよ」 とスピーカ部 2 5から出力 するとともに、 表示部 2 6に火事や救急車や津波を示す画像を表示 する。
これにより、 音声情報生成部 2 3は、 難聴者に非常事態を音声及 び画像を以て伝えることができ、 生死に関わる最悪の事態を避ける ことができる。
更に具体的には、 音声情報生成部 2 3は、 図 3に示すように、 信 号処理部 2 2での認識結果と して 「ビーポーピーボー (救急車のサ ィ レン) 」 と表示し、 認識結果を変換した加工変換結果として 「救 急車」 と表示し、 更なる加工変換結果として記憶部 2 4に格納され ている救急車種々の図柄の中で、 緊急性を示すシグナルを出しなが ら走っている救急車を示す図柄 (又は走っている動画) を読み出し て表示させる。 他の一例と しては、 音声情報生成部 2 3は、 例えば 津波による警報がマイクロホン 2 1に入力されたときには、 信号処 理部 2 2での音声認識結果として 「ウイィーン (津波に対して) 」 と表示し、 認識結果を変換した加工変換結果と して 「津波」 と表示 し、 更なる加工変換結果として緊急性を示す沿岸の家を飲み込む津 波の図柄 (又は津波が迫りながら家を飲み込む動画) を記憶部 2 4 から読み出して表示させる。 また、 この音声情報生成部 2 3は、 記 憶部 2 4の記憶容量の削減を図るために、 図 4に示すように簡略化 した絵柄を表示部 2 6に表示させても良い。
これにより、 音声情報生成部 2 3では、 音声により救急車や津波 と入力されたことによる単純なこれらの画像ではなく、 緊急時を表 す音声が入力されたことにより、 緊急性を示す画像を表示させる c. また、 更に他の例と しては、 学校で 2時限 (コンビュ一タテクノ 口ジ一の授業) のチャイムの鐘の音がマイクロホン 2 1 に入力され たことに応じ、 音声情報生成部 2 3は、 図 5に示すように、 認識結 果と して 「キンコーン」 と表示し、 認識結果の加工変換結果として 「鐘」 の画像を表示する- 更に、 音声情報生成部 2 3は、 時計機能 と予め入力されていた時間割のプログラムと対応させて、 「 2時限 コンピュータテクノロジ一」 と表示するとともに、 授業 (コンビ ュ一タテクノロジー) を表す画像 (パーソナルコンピュータ) を表 示させる。
従って、 このよ うな音声情報生成部 2 3を備えた補聴器 1では、 音声を用いて認識結果、 加工変換結果を表示部 2 6に表示するとと もに、 音声と予め設定された情報を用いて他の情報をユーザに提示 することができる。
また、 音声情報生成部 2 3では、 信号処理部 2 2での認識結果の 意味内容及び認識結果の他のパラメータを用いて認識結果を加工変 換しても良い: この音声情報生成部 2 3 は、 例えば、 マイク ロホン 2 1 で検出した音声の音量、 音の周波数特性に応じて異なる加工変 換処理を行って異なる画像を記憶部 2 4から読み出すことで、 異な る加工変換結果を表示部 2 6に提示しても良い。 これにより、 補聴 器 1では、 利用者に更に詳細な音声認識結果を提示することができ、 利用者の音声の認識を更に向上させることができる。 また、 この音 声情報生成部 2 3では、 例えばマイクロホン 2 1に入力される救急 車のサイ レンの音量に応じて、 異なる大きさの図柄を表示する。 例 えば、 音声情報生成部 2 3は、 サイ レンの音量が所定値以上である と判定したときには図 6 Aに示すような大きさで救急車の図柄を表 示し、 サイ レンの音量が所定値以下であると判定したときには図 6 Bに示すように図 6 Aに示す図柄よりも小さく表示する。 これによ り、 補聴器 1では、 救急車が使用者に近づいて徐々にサイ レンの音 量が大きくなるに従って図柄を大きく して、 利用者の外部の音声に 対する認識を向上させることができる。
音声の音量等、 音声に含まれる情報 · 非言語情報 (例 : 強調表現、 感情表現) を画像 (例 : 手話) にて表現することが可能であり、 実 現例として、 以下があげられる。 音声を音声認識処理して単語情報 に変換し、 音声特徴量 (ピッチ情報等) も検出する。 次に非言語情 報抽出処理をして単語情報と音声特徴量から、 非言語情報の個所と 種類を検出する: 上記の情報は情報変換処理に送られる。 単語情報 は日本語'手話見出し変換処理において手話見出しに変換され、 非言 語情報変換処理では、 非言語情報の表現個所と種類に応じて手話の 非言語情報表現ルールが検索される。 最終的に、 手話アニメ生成処 理にて導出された手話見出し情報及び手話の非言語情報を用いて手 話アニメーショ ンが生成される (参照 Ando H et al 音声'手話変換 システムのための音声強調表現特徴量の抽出 Analysis of speech prominence characteristics for translating speech dialog to sign language. The 1999 meeting of the ASJ society of Japan 377-8, 1999) =
このよ うに、 音声情報生成部 2 3では、 マイクロホン 2 1で検出 した音声を用いて、 音声のみならず、 他の機能も用いることにより 音声情報を加工変換して、 様々な形態で利用者に提示することがで きる。
更にまた、 音声情報生成部 2 3は、 過去に行った変換合成処理に ついて記憶する機能を備えていても良い。 これにより、 音声情報生 成部 2 3は、 過去に行つた変換合成処理の改良を自動的に行う学習 処理を行うことができ、 変換合成処理の処理効率を向上させること ができる。
更にまた、 この信号処理部 2 2及び音声情報生成部 2 3は、 話し 手の音声のみについての認識結果を生成して音声情報を生成し、 ス ピー力部 2 5及び/又は表示部 2 6に提示することで使用者に知らせ る一例のみならず、 例えば特定の雑音に対してのみ音声認識を行つ ても良い。 要するに、 信号処理部 2 2及び音声情報生成部 2 3は、 入力した音について音声認識処理を行って、 認識結果を使用者の身 体状態、 利用状態及び使用目的に応じて変換することで使用者が理 解し易い表現で音声情報を生成して出力する処理を行う。
更にまた、 上述した本発明を適用した補聴器 1の説明おいては、 記憶部 2 4に予めサンプリングして格納した音声データを音声情報 生成部 2 3により組み合わせることにより音声情報を生成して出力 するものの一例について説明したが、 音声情報生成部 2 3は、 記憶 部 2 4に記憶された音声データを組み合わせて音声情報を生成する ときに格納された音声データに変換処理を施す音声データ変換部を 備えていても良い: このような音声データ変換部を備えた補聴器 1 は、 例えばスピー力部 2 5から出力する音声の音質を変化させるこ とができる。
更にまた、 上述した本発明を適用した補聴器 1の説明おいては、 例えば喉頭摘出前の使用者の音声を予めサンプリングすることによ り得た音声データを記憶部 2 4に格納するものの一例について説明 したが、 記憶部 2 4には、 一つの音声データのみならず複数の音声 データを予めサンプリングして格納しても良い。 すなわち記憶部 2 4には、 例えば喉頭摘出前の音声を予めサンプリングした音声デ一 タ、 及び前記喉頭摘出前の音声に近似した音声データを格納しても 良く、 更には全く異なる音質の音声データを格納しても良く、 更に また、 喉頭摘出前の音声データを生成し易い音声データを格納して も良い。 このように複数の音声データが記憶部 2 4に格納されてい るとき、 音声情報生成部 2 3は、 各音声データの関係を例えば関係 式等を用いて関連づけを行って選択的に音声データを用いて音声情 報を生成しても良い。
また、 上述の補聴器 1は、 サンプリングして記憶部 2 4に格納し た音声データを合成することで音声情報を生成して出力する一例に ついて説明したが、 記憶部 2 4に記憶されている音声データを合成 することで生成した音声情報に、 音声情報生成部 2 3によりボコー ダ処理 (例 : STRAIGHT) を施すことにより、 サンプリングして記憶 されている音声データが示す音声とは異なる音質の音声に変換して 出力しても良い。
更にまた、 信号処理部 2 2は、 話者認識 (speaker recognition) 処理を入力される音声について行って各話者に対応した認識結果を 生成しても良い。 そして、 この信号処理部 2 2では、 各話者に関す る情報を認識結果とともにスピー力部 2 5や表示部 2 6に出力する ことで使用者に提示しても良い。
補聴器 1 で話者認識を行う ときには、 ベタ トル量子化によるもの でも良レヽ (参照 Soong FK and Rosenberg AE, On the use of inst antaneous and transition spectral information in speaker rec ognition. Proc of ICASSP' 86, 877-80, 1986) 。 このべク トノレ量子化 を利用した話者認識では、 準備段階の処理として登録話者用の学習 用音声データからスベタ トルの特徴を表すパラメータを抽出して、 これらをクラスタリングすることにより コードブックを作成する。 べク トル量子化による方法は話者の特徴が作成された符号帳に反映 されていると考える手法である。 認識時には入力された音声と全て の登録話者のコードブックを用いてべク トル量子化を行い、 入力音 声全体に対して量子化ひずみ (スベタ トルの誤差) を計算する, = こ の結果を用いて話者の識別や照合の判定を行う。
また、 補聴器 1で話者認識を行う ときには、 H MMによる方法で めっても艮レヽ (参照 Zheng YC and Yuan BZ, Text-dependent speaK er identification using circular hidden Markov models. Proc o f ICASSP' 88, 580-2, 1988) 。 この方法では、 準備段階の処理として 登録話者の学習用音声データから HMMを作成する。 HMMを用い る方法では話者の特徴は状態間の遷移確率とシンボルの出力確率に 反映されると考える。 話者認識の段階では入力音声を用いて全ての 登録話者の HMMによる尤度を計算して判定を行う - HMMの構造 と して lefl:〜 to〜rightモデルに対してェルゴディ ックな HMMを用 いてもよレヽ c
更にまた、 補聴器 1では、 ATR- MATRIX システム (ATR音声翻訳通 信研究所製: 参照 Takezawa T et al, ATR - MATRIX: A spontaneou s speech translation system between English and Japanese. AT R J2, 29-33, Junel999) で用いられている音声認識処理 (ATRSPREC) 、 音声合成処理 (CHATR) 、 言語翻訳処理 (TDMT) を行うことで、 マイ クロホン 2 1で入力した音声を翻訳して出力することができる。
音声認識処理 (ATRSPREC) では、 大語彙連続音声認識を行い (ma ny-word continuous speech recognition in real time) 、 音声認 識ツールを用いて音声認識に必要な音響モデルと言語モデルの構築、 及び信号処理から探索までの工程を処理する。 この音声認識処理で は、 行った処理をツール群として完結し (complete group of tool s) 、 ツール同士の組み合わせることが容易で (easy integration of tools) 及び HT Kとの互換性確保 (compatible with HTK) を行 う。 また、 この音声認識を行う とき、 不特定話者の音声認識を行つ ても良い。
音声認識処理 (ATRSPREC) は基本的な音声認識処理の流れとして 以下の (a ) 〜 (d ) に示すようなツール群を提供する。 なお、 音 声認識処理 (ATRSPREC) は UNI X環境 (0SF 1,HP_UX) で動作する。
_( a ) 信号処理: 人間が発声した音声の波形信号を特徴べク トル と呼ばれる音声認識処理に必要な情報を抽出した特徴量に変換する。
( b ) 音響モデル構築 : 特徴べク トル発声内容の関係をパラメ一 タ推定の形でモデル化する。 このとき、 話者適応をしてもよい (標 準話者の HMnetと少量の音声サンプルを用いて特定の話者に適応した HMnetの作成 (ML推定法、 MAP推定法、 VES, MAP- VFS) ) 。
( c ) 言語モデル構築 : 単語や文法的制約といった言語情報をモ デル化する-
( d ) 探索 : 発声した内容の推定を音響モデル、 言語モデルを用 いて行う
言語翻訳処理 (TDMT: 協調融合翻訳方式) は用例翻訳と依存構造 解析とを協調的に駆動させて、 句から節、 さらに文へと段階的に翻 訳処理を進める。
言語翻訳処理 (TDMT) では、 文の構造を判断する処理、 対話用例 を用いた対話特有のくだけた表現などの多様な表現を扱って言語翻 訳を行う。 また、 この言語翻訳では、 マイクロホン 2 1がー部聞き 取れなかった部分があっても、 翻訳できる部分はなるべく翻訳する 部分翻訳処理を行い、 一文全体を正確に翻訳できない場合でも、 話 し手が伝えたい內容をかなりの程度相手に伝える。
音声合成処理 (CHATR) では、 あらかじめデータベース化された多 量の音声単位から、 出力したい文に最も適した単位を選択してつな ぎあわせ、 音声を合成する。 このため、 滑らかな音声が出力するこ とができる, = この音声合成では、 話し手の声に最も近い音声データ を用いて話し手の声に似た声で合成することができる。 また、 この 音声合成を行う ときには、 音声情報生成部 2 3は、 入力された音声 から話し手の性別を判断し、 それに応じた声で音声合成を行っても 良い。
音声合成処理 (CHATR) は以下にて構成される。 韻律知識ベースを 基に、 合成したい音素系列の韻律パラメータを音素ごとに予測する。 計算された韻律パラメータを基に最適な韻律情報を持つ音声単位を 選択し、 音声波形情報ファイルへのインデックスを求める 3 選択さ れた音声単位を一つずつ音声波形ファイル内から切り出して接続す る。 生成された音声波形を出力する:
また、 音声認識処理、 言語翻訳処理及び音声合成処理を行う とき には、 通信回路 2 7を介して携帯電話等の通信機器と接続して双方 向の対話可能である c
音声認識処理、 言語翻訳処理、 音声合成処理、 を行う補聴器 1で は、 例えば日英双方向の音声翻訳システムの利用、 ほぼリアルタイ ムの認識、 翻訳、 合成、 話し始めの指示をシステムに与える必要が なく、 全二重の対話が可能自然な発話に対して質の高い認識、 翻訳、 合成が可能となる。 例えば、 「あの一」 、 「え一と」 といった言葉 や、 多少くだけた表現の音声がマイクロホン 2 1 に入力されても音 声認識処理、 言語翻訳処理及び音声合成処理が可能となる。
更にまた、 音声情報生成部 2 3は、 音声認識 (ATRSPREC) におい て、 信号処理部 2 2からの認識結果に基づいて文の構造を判断する だけでなく、 対話用例を用いることにより、 対話特有のくだけた表 現などの多様な表現に対応した音声情報を生成する。 また、 音声情 報生成部 2 3は、 マイクロホン 2 1で会話中の一部が聞き取れなか つた部分があっても、 音声情報を生成することができる部分はなる ベく音声情報を生成する。 これにより、 音声情報生成部 2 3は、 一 文全体の音声情報を正確に生成できない場合でも、 話し手が伝えた い内容をかなりの程度相手に伝える。 このとき、 音声情報生成部 2 3は、 翻訳処理 (部分翻訳機能) を行って音声情報を生成しても良 い 0
また、 音声情報生成部 2 3は、 音声合成 (CHATR) において、 予め データベース化して記憶された多量の音声単位の音声データから、 出力したい文に最も適した単位を選択してつなぎあわせ、 音声を合 成して音声情報を生成する。 これにより、 音声情報生成部 2 3は、 滑らかな音声を出力するための音声情報を生成する。 また、 音声情 報生成部 2 3は、 話し手の声に最も近い音声データを用いて話し手 の声に似た声で合成処理を行っても良く、 入力された音声から話し 手が男性か女性かを判断し、 それに応じた声で音声合成を行って音 声情報を生成しても良い。
更にまた、 音声情報生成部 2 3は、 マイクロホン 2 1からの音声 から、 特定の音源の音のみを抽出してスピーカ部 2 5及び Z又は表 示部 2 6に出力しても良い =. これにより、 補聴器 1は、 カクテルパ 一ティ現象 (複数の音源からの音の混合の中から、 特定の音源の音 のみを抽出してきく) を人工的に作ることができる。
更にまた、 音声情報生成部 2 3は、 音韻的に近い例を用いて誤り を含んだ認識結果を訂正する手法を用いて聞き間違いを修正して音 声情報を生成しても良い (参照 Ishikawa K, Sumida E, A comput er recovering its own misheard—Guessing the original sentenc e form a recognition result based on familiar expressions— ATR J 37, 10-11, 1999) 。 このとき、 音声情報生成部 2 3は、 使用者 の身体状態、 利用状態及び使用目的応じて処理を行って、 使用者に とってわかりやすい形態に加工変換する。
なお、 上述した補聴器 1の説明においては、 マイクロホン 2 1で 検出した音声について音声認識処理、 音声生成処理を行う一例につ いて説明したが、 使用者等により操作される操作入力部 2 8を備え 当該操作入力部 2 8に入力されたデータを音声及び/又は画像とす るように信号処理部 2 2により変換しても良い。 また、 この操作入 力部 2 8は、 例えば使用者の指に装着され、 指の動きを検出するこ とでデータを生成して信号処理部 2 2に出力するものであっても良 い。
また、 この補聴器 1は、 例えば使用者が液晶画面等をベンにより 接触させることで文字及び/又は画像を描き、 その軌跡を取り込むこ とによる画像に基づいて文字及び/又は画像データを生成する文字及 び/又は画像データ生成機構を備えていても良い。 補聴器 1は、 生成 した文字及び/又は画像データを信号処理部 2 2及び音声情報生成部 2 3により認識 · 変換等の処理を行って出力する。
更に、 上述の補聴器 1 は、 マイクロホン 2 1等からの音声を用い て信号処理部 2 2により音声認識処理を行う一例に限らず、 例えば 使用者及び/又は使用者以外の人が装着する鼻音センサ、 呼気流セン サ、 頸部振動センサ、 骨振動体 (例 マウスピースタイプ) からの 検出信号及びマイクロホン 2 1等からの信号を用いて音声認識処理 を行っても良い- このように、 補聴器 1は、 マイクロホン 2 1のみ ならず各センサを用いることにより、 信号処理部 2 2による認識率 を更に向上させることができる c
更に、 この補聴器 1は、 例えば自動焦点機能やズーム機能を搭載 したデジタルカメラにより動画像や静止画像等を撮像するカメラ機 構 2 9を図 2に示すように備え、 表示部 2 6に表示するものであつ ても良い: このカメラ機構 2 9は例えば図 1のディスプレイ部 7 と 一体に搭載されても良い。 また、 カメラ機構 2 9 としては、 デジタ ルカメラを用いても良い。
また、 この補聴器 1に備えられたカメラ機構 2 9は、 撮像した画 像を使用者の身体状態 (視力や乱視等の目の状態) 、 利用状態及び 使用目的に応じて歪ませたり拡大させたりする画像変換処理を施し て表示部 2 6に表示する眼鏡機能を備えていても良い. =
このような補聴器 1は、 例えば力メラ機構 2 9から C P U等から なる信号処理回路を経由して表示部 2 6に撮像した画像を表示する。 この補聴器 1は、 このようなカメラ機構 2 9により例えば話者を撮 像した画像を使用者に提示することで、 使用者の認識を向上させる。 また、 この補聴器 1は、 撮像した画像を通信回路 2 7を介して外部 のネッ トワークに出力しても良く、 更には外部のネッ トワークから カメラ機構 2 9で撮像した画像を入力して通信回路 2 7及び信号処 理回路等を介して表示部 2 6に表示しても良い。
更に、 この補聴器 1では、 話者を撮像した画像を用いて信号処理 部 2 2で顔面認識処理、 物体認識処理を行って音声情報生成部 2 3 を介して表示部 2 6に表示しても良い。 これにより、 補聴器 1では、 撮像対象者の口唇、 顔の表情、 全体の雰囲気等を使用者に提示して、 使用者の音声認識を向上させる:
撮像機能を用いた顔の認識において顔の個人性特徴を抽出して個 人認識をおこなうものとして、 以下の方法があるがこれらに限られ るものではない。 濃淡画像のマツチングにより識別するための特徴表現の一つと し てパターンをモザイク化し、 各ブロック内の画素の平均濃度をブ口 ックの代表値とすることで濃淡画像を低次元べク トルに情報圧縮し て表現する方法で M特徴といわれている方法である。 また、 K I特 徴という濃淡顔画像の特徴表現で、 Karhunen- Loeve (K L) 展開を 顔画像の標本集合に適応して求められる直交基底画像を固有顔とよ び、 任意の顔画像をこの固有顔を用いて展開した係数から構成され る低次元の特徴べク トルで記述する方法である。 更に、 顔画像集合 の L展開による次元圧縮に基づく K I特徴によるもの照合バタ一 ンをまずフーリエスベタ トルに変換し K I特徴の場合と同様に標本 集合を K L展開することで次元圧縮を行って得られる低次元の特徴 スぺク トルである K F特徴による識別を行う方法がある。 以上の方 法によるものが顔画像認識に用いることが可能であり、 それらを用 いて顔の認識を行う ことは対話者が誰であるかという個人識別情報 をコンピュータに与えることになり、 使用者にとって対話者に対す る情報が得られ、 音声情報に対する認識が増す: なお、 このような 処理は以下の文献に記載されている (Kosugi S,ニューラルネッ トを 用いた顔画像の識別と特徴抽出 情処学 CV研報, 73-2, 1991-07; T urk MA and Pent land AP, race : recognition using eigeniace. Proc
CVPR, 586-91, 1991-06; Akamatsu S et al, Robust face intif icat ion by pattern matching Based on KL expansion of the Fourier
Spectrum. IEICE trans vol J76DII No7, 1363-73, 1993; Edwards G J et al, Learning to identify and track faces in image segue nces, Proc of FG ' 98, 260-5, 1998) c
この補聴器 1では、 物体認識を行う ときには、 物体を示すパター ンをモザイク化しておき、 実際に撮像した画像とマッチングを取る ことにより物体の識別を行う。 そして、 この補聴器 1では、 マッチ ングがとれた物体の動きべク トルを検出することで、 物体の追尾を 行う。 これにより、 物体から発せられる音声から生成される音声情 報に対する認識が増す: この物体認識処理は Ubiquitous Talker
(Sony CSL製) で用いられている技術を採用することができる (参 agao K and Rekimoto J, Ubiquitous Talker: SpoKen language interaction with real world objects. Proc 14th I JCAI-95, 128 4 - 90, 1995) c
更に、 この補聴器 1は、 静止画撮像用デジタルカメラのようにシ ャッターを押すことで静止画を撮像しても良い。 更に、 カメラ機構 2 9は、 動画像を生成して信号処理部 2 2に出力しても良い。 この カメラ機構 2 9により動画像を撮像するときの信号方式と しては、 例えば M P E G (Moving Picture Experts Group) 方式などを用レヽ る。 更にまた、 この補聴器 1 に備えられるカメラ機構 2 9は、 3 D画 像を撮像することで、 話者や話者の口唇を撮像して表示部 2 6に表 示させることで更に使用者の認識を向上させることができる。
このような補聴器 1 は、 使用者自身の発した音声や相手の発した 音声等及び Z又はその場の情景を撮像した画像を記録し再生するこ とで、 言語学習にて復習が可能となり言語学習に役立てることがで さる:
また、 この補聴器 1 によれば、 画像を拡大処理等して表示部 2 6 に表示することで相手を確認し全体の雰囲気をつかめ音声聴取の正 確さが向上し、 更に読唇 (lip reading) を行うことが可能となり認 識を上昇させる。 更にまた、 この補聴器 1は、 例えばスィ ッチ機構が設けられてお り、 マイクロホン 2 1で検出した音声をスピーカ部 2 5により出力 するカ カメラ機構 2 9により撮像した画等像を表示部 2 6により 出力するか、 又は音声及び画像の双方を出力するかを使用者により 制御可能と しても良い。 このときスィ ッチ機構は、 使用者に操作さ れることで、 音声情報生成部 2 3から出力を制御する。
また例と して、 スィ ッチ機構は、 使用者及び Z又は使用者以外の 音声を検出して、 例えば 「音声」 という音声を検出したときにはマ イク口ホン 2 1で検出した音声をスピーカ部 2 5により出力するよ うに切り換え、 例えば 「画像」 という音声を検出したときにはカメ ラ機構 2 9により撮像した画等像を表示部 2 6により出力するよう に切り換え、 「音声、 画像」 という音声を検出したときには音声及 び画像の双方を出力するするように切り換えても良く、 以上のよう な音声認識を用いたスィツチ制御機構を備えていても良い。 また、 ジェスチャーインターフェースを用いることで、 ジェスチャー認識 によるスィツチ制御システムとしても良レ、 =
更にまた、 このスィ ッチ機構は、 カメラ機構 2 9のズーム状態等 のパラメータを切り換えることでカメラ機構 2 9で画像を撮像する ときの状態を切り換える機能を備えていても良い。
つぎに、 この補聴器 1において、 音声情報生成部 2 3により作成 した音声情報を出力する機構の種々の例について説明する。 なお、 本発明は、 以下に説明する出力する機構に限られることはないこと は勿論である =
すなわち、 この補聴器 1において、 音声情報を出力する機構とし てはスビーカ部 2 5や表示部 2 6に限らず、 例えば骨導や皮膚刺激 を利用したものであっても良い。 この音声情報を出力する機構は、 例えば小型磁石を鼓膜等に装着し、 磁石を振動させるものであって も良い- このような補聴器 1は、 例えば利用者の骨 (側頭骨) に振動を与 える骨導補聴器の骨導バイブレータシステムの振動板と して圧挺板 (参照 Sugiuch i T, 骨導補聴器の適応と効果 JOHNS Vol l l No9, 130 4, 1995)を備え、 音声情報生成部 2 3により変換することにより得た 信号を前記圧挺板に出力するようにしたものや、 皮膚刺激を用いた タクタイルエイ ド (Tact i l e Ai d) 等の触覚による補償技術を利用し たものであっても良く、 これらの骨振動や皮膚刺激等を用いた技術 を利用することで、 音声情報生成部 2 3からの信号を使用者に伝達 することができる: 皮膚刺激を利用した補聴器 1 においては、 音声 情報生成部 2 3からの音声情報が入力されるタクタイルエイ ド用振 動子アレイが備えられており、 タクタイルエイ ドと当該振動子ァレ ィを介してスピ一力部 2 5から出力する音声を出力しても良い。 また、 上述した補聴器 1の説明においては、 音声情報を音声と し て出力するときの処理の一例について説明したが、 これに限らず、 例えば人工中耳により使用者に認識結果を提示するものであっても 良い。 すなわち、 この補聴器 1は、 音声情報を電気信号としてコィ ル、 振動子を介して使用者に提示しても良い。
更には、 この補聴器 1は、 人工内耳機構を備え、 人工内耳により 使用者に認識結果を提示するものであっても良い: すなわち、 この 補聴器 1は、 例えば埋め込み電極、 スピーチプロセッサ等からなる 人工内耳システムに音声情報を電気信号と して供給して使用者に提 示しても良い c 更には、 この補聴器 1は、 蝸牛神経核 (延髄にある聴神経の接合 部)一に電極を接触させて当該電極を介して認識結果を使用者に供給 する聴†生脳幹インプラント (Auditory Brainstem Implant : A B I ) 機構を備え、 A B I により使用者に音声情報を提示するもので あっても良い。 すなわち、 この補聴器 1は、 例えば埋め込み電極、 スピ一チプロセッサ等からなる A B I システムに音声情報を電気信 号として供給して使用者に提示しても良い。
更にまた、 この補聴器 1は、 使用者の身体状態、 利用状態及び使 用目的に応じて、 例えば超音波帯域の音声が認識可能な難聴者に対 しては認識結果及び加工変換した認識結果を音声情報と して超音波 帯域の音声に変調 ·加工変換して出力しても良い。 更にまた、 この 補聴器 1は、 超音波出力機構 (bone conduction ultrasound: Hoso l H et al Activation of the auditory cortex by ultrasound. La ncet Febl4 351 (9101)496-7, 1998) を用いて超音波周波数帯域の信 号を生成し、 超音波振動子等を介して使用者に出力しても良い。 更にまた、 この補聴器 1は、 骨伝導ユニッ ト (耳珠を介しての骨 導及び外耳道内壁を介しての気導) を使用して音声情報を使用者に 提示しても良い (例 聴覚障害者用ヘッ ドホンシステム -ライブホ ン- (日本電信電話製) ) 。
更にまた、 この補聴器 1は、 スピーカ部 2 5、 表示部 2 6等の複 数の出力手段を備える一例について説明したが、 これらの出力手段 を組み合わせて用いても良く、 更には各出力手段を単独で出力して も良い c また、 この補聴器 1では、 マイクロホン 2 1に入力した音 声の音圧レベルを変化させる従来の補聴器の機能を用いて音声を出 力するとともに、 上述した他の出力手段で認識結果を提示しても良 レ、。
^こまた、 この補聴器 1は、 スピーカ部 2 5及び Z又は表示部 2 6から出力する出力結果を同時に或いは時間差を持たせて出力して するように音声情報生成部部 2 3で制御するスィツチ機構を備えて いても良く、 複数回に亘つて出力結果を出力するか一回に限って出 力結果を出力するかを制御するスイツチ機構を備えていても良い。 また、 この補聴器 1 の説明においては、 図 2に示したような一例 について説明したが、 入力された音声について上述した種々の加工 変換処理を行って表示部 2 6に表示させる第 1 の処理を行う C P U と、 入力された音声について上述した種々の加工変換処理を行って スピーカ部 2 5に出力結果を出力するための第 2の処理を行う C P Uと、 カメラ機構 2 9で撮像した画像を表示するための第 3の処理 を行う C P Uとを備えたものであっても良い。
このよ うな補聴器 1は、 各処理を行う C P Uを独立に動作させて 第 1 の処理又は第 2の処理を行わせて出力させても良く、 更には各 処理を行う C P Uを同時に動作させて第 1 の処理、 第 2の処理、 及 び第 3の処理を行わせて出力させても良く、 更には、 第 1及び第 2 の処理、 第 1及び第 3の処理又は第 2及び第 3の処理を行う C P U を同時に動作させて出力させても良い- 更にまた、 補聴器 1は、 使用者の身体状態、 利用状態及び使用目 的に応じて上述した種々の出力機構からの出力結果を同時に或いは 時間差を持たせて出力してするように音声情報生成部 2 3で制御し ても良い。
更に、 この補聴器 1 は、 複数の C P Uを有し、 上述した複数の C P Uで行う第 1〜第 3処理のうち、 少なく とも 1の処理をひとつの C P Uで行う とともに、 残りの処理を他の C P Uで行っても良い = 例えば、 この補聴器 1において、 ひとつの C P Uが入力された音 声を文字データと して加工変換を行って表示部 2 6に出力する処理 (text to speech synthesis) を う とともに、 又はひとつの C P Uが入力された音声に対して文字データと して加工変換を行って他 (D C P Uが入力された同じ音声に対して STRAIGHT処理を行つたり し てスピーカ部 2 5に出力する処理を行い、 他の C P Uが入力された 音声に対してボコーダ処理のうち、 例えば STRAIGHTを用いた処理を 行ってスピーカ部 2 5に出力する処理を行っても良い。 すなわちこ の補聴器 1は、 スピーカ部 2 5に出力する信号と、 表示部 2 6に出 力信号とで異なる処理を異なる C P Uにより行うものであっても良 レ、。
更に、 この補聴器 1 においては、 上述した種々の加工変換処理を 行って上述の種々の出力機構に出力する処理を行う C P Uを有する とともに、 加工変換処理を施さないでマイクロホン 2 1 に入力され た音声を出力しても良い。
更に、 この補聴器 1 においては、 上述した種々の加工変換処理を 行うための C P Uと、 他の加工変換処理を行う C P Uとを別個に備 えていても良い。
更に、 この補聴器 1 においては、 上述のように認識結果や加工変 換した認識結果や撮像した画像等について音声情報生成部 2 3で変 換する処理を行う とともに、 従来の電気人工喉頭等を用いた代用発 声法と同様に音声を検出して得た電気信号を増幅させて音質調整、 利得調整や圧縮調整等を行いスピーカ部 2 5に出力するものであつ ても良い。 なお、 この補聴器 1 において、 信号処理部 2 2及び音声情報生成 部 2 3で行う処理を、 例えばフ一リエ変換、 ボコーダ処理 (STRAIG HT等) の処理を組み合わせて適用することで、 上述した処理を行つ ても良い。
また、 本発明を適用した補聴器 1では、 個人的に使用する小型の タイプの補聴器について説明したが、 集団で用いる大型のもの (卓 上訓練用補聴器や集団訓練用補聴器) にも用いてもよい。
視覚への提示手段と して HMD、 頭部結合型表示装置 (Head- cou pled displayノ 、 人工目民 (visual prosthesis/ artificial eye; 1) あげられる。 以下に例を示す ( ( a ) 〜 (! n) ) 。
( a ) 双眼式 HMD (左右眼毎に視差画像を提示し立体視を可能 とするもの、 左右眼双方に同じ画像を提示し見かけ上の大画面を与 えるもの)
( b ) 単眼式 HMD
( c ) シースルー型 HMD、 主に A Rを実現するものと して Eye- through HMD (Puppet Eyes : ATR)
( d ) 視覚補助や視覚強調機能付きディスプレイ
( e ) 眼鏡型の双眼望遠鏡 (自動焦点機能付、 バーチャルフィル ター (Visual filter) を用いる)
( f ) 接眼部にコンタク トレンズを使用するシステム
( g ) 網膜投影型 (Virtual Retinal Display, Retinal project ion display, 網膜投影型の中間型)
、h ) 人工目艮 (visual prosthesis/artificial eye) 体外装 着のカメラで周囲の情景をとらえ、 画像処理 (特徴抽出等) を施し て画像データを作成し、 体内埋め込みの ME N S (Micro-Electric al Mechanical system: 電子回路を備えたマイクロマシン) へ無線 •有線で画像データと ME N S駆動用の電力を電送する- ME N S は送られてきたデータに基づいて神経信号に似た電気パルス信号を つく りだし、 その信号を刺激電極を通じて脳神経系へ伝える。 人工 眼には ME N Sを埋め込む場所により hl〜h4に分けられる。 [hi]脳 内刺激型人工眼 (cortical implant: 参照 Dobelle Wm H, Art if i cial vision for the blind by connecting a television camere to the visual cortex. ASAIO J 2000;46, 3-9 ) [h2]網膜刺激型人 ェ目艮 (Sub or Epi *ret inal implant: 参照 Rizzo JF et al. Deve lopment of an Epiret inal Electronic Visual Prosthesi sHarvard •Med MIT Res Program. inRet inal Degenerative Diseases and Experimental Theory Kluwer Academic Plenum Publishers, 463 · 7 01999) 、 [h2]視神経刺激型人工眼 (optic nerve implant : 参照 Microsystems based visual prothesis MI VIP (Cat ho 1 i que Univ S ci Appiiquees Microelectonics Lab) 、 [h4jノヽィフ、、リ ッ ド型人工銷 膜 (hybrid retinal implant:細胞培養 +網膜刺激型人工眼 Nagoya Univ) 力 fcる。
( i ) 視線入力機能付き HMD (HAQ-200 (島津製作所製) ( j ) 頭部以外 (耳、 全身、 首、 肩、 顔面、 眼、 腕、 手、 眼鏡 等) にマウントするディスプレイ
( k) 立体ディスプレイ (投影式オブジェク ト指向型ディスプレ Λ 参照 head-mounted projector: I inami M et al. , Head-moun ted projector ( I I) -implementation Proc 4th Ann Conf Of Vir tual Reality Society of Japan 59-62, 1999) 、 リ ンク式の立体デ イスプレイ) ( 1 ) 大画面ディスプレイ (spatial immnersi ve display) (例 omnimax、 CAVE (参照 Cruz-Neira C et al. Sur rounded-screen projection-based virtual reality: The design and imp丄 ementat ion of the CAVE, Proc of SIGGRAPH' 93, 135 - 42, 1993) 、 CAVE型立 体映像表示装置 (CABIN:参照 Hirose M et al. IEICE trans Vol J8 1DII No5, 888-96, 1998) 、 小型超広視野ディスプレイ (投影デイス プレイ (例 : C AV E)及び HMD 参照 Endo T et al. Ultra w ide field of view compact display. Proc 4th Ann Conf of Virt ual Reality Society of Japan, 55-58, 1999) 、 ァ一チスク リーン)
(m) その他 アプ トン眼鏡(Upton eyeglass)のディスプレイシ ステム、 サングラスの機能付きディスプレイ
特に大画面ディスプレイは大型補聴器と して用いるときに使用して もよい。 また、 上述した補聴器 1では、 音の再現方法と してバイノ —ラル方式を使用してもよい ( 3 D音響システムは Head-Related Tr ansfer Functionを用いた空間音源定位システムを用いる : 例 Con vol votron & Acoustetron II (Crystal River Engineering) ; ダイ ナミ ック型ドライバュニッ トとエレク トレツ トマイ ク ロフォンを使 用した補聴器 TE- H50 (Sony) ) 。 実際と近い音場をつくったり、 ト ランスオーラル方式 (トラッキング機能付きのトランスオーラル方 式が 3 D映像再現における C A V Eに対応する) を用いたりするも のは主に大型の補聴器システムの場合に用いるのが好ましい。
更にまた、 上述の HMD 2は、 頭頂部に 3次元位置検出センサー を備えていても良い。 このような HMD 2を備えた補聴器 1では、 使用者の頭の動きに合わせてディスプレイ表示を変化させることが 可能となる。 強調現実感 (Augmented real i ty : AR) を利用した補聴器 1では、 使甩者の動作に関するセンサを備え、 センサで検出した情報、 マイ クロホン 2 1で検出し音声情報生成部 2 3で生成した音声情報とを 用いることで、 A Rを生成する。 音声情報生成部 2 3は、 種々のセ ンサシステムと V R形成システムを統合するシステムとディスプレ ィシステムによりなるバーチャルリアリティ (Virtual real i t y : V R ) システムとを協調的に用いることにより、 実空間に V Rを適切 に重畳することで、 現実感を強調する A Rをつく ることが可能とな る。 これにより補聴器 1では視覚ディスプレイを用いるときに、 顔 面部にある画像からの情報を、 情報が来るたびに大幅に視線をはず すことなく、 ただ画像が目の前にあるだけでなく、 画像情報が、 い かにもそこにあるように自然に受けいれるようになり 自然な状態で 視覚からの情報を受け取ることが可能となる。 以上を実行するには 以下のシステムがある。
このような補聴器 1は、 図 7に示すよ うに、 A Rを形成するため には、 仮想環境映像生成のための 3 Dグラフィ ックァクセラレータ を音声情報生成部 2 3の内部に搭載することでコンピュータグラフ ィ ッタスの立体視が可能な構成とし、 更に無線通信システムを搭載 する。 この補聴器 1 に使用者の位置と姿勢の情報を取得するため、 センサ 3 1 として頭部に小型ジャィ口センサ (データテック GU-301 1 ) を、 使用者の腰に加速度センサ (データテック GU- 3012) を接続 する。 以上のセンサ 3 1からの情報を音声情報生成部 2 3で処理を 行った後、 使用者の右■左目に対応するスキャンコンバータ 3 2 a 、 3 2 bで処理をして表示部 2 6に映像が行く というシステムを用い ることで可能となる (参照 Ban Y e t al , Manual -l es s operat i on with wearable augment ed reality system. Proc 3th Ann Conf of Victual Reality society of Japan, 313-4, 1998) 。
以下の方法でも AR実現可能である: カメラからの映像 (video st ream from camera) よりマーカー ¾rサーチ (search for marker 、 マ一力の 3 D位置 ·方向をみつけ (find marker 3D position and orientation) 、 マーカを確認 dentify marikers 、 小シシヨ ン とオブジェク 卜のポジショ ンを決め (position and orient object s) 、 ビデオでの 3 Dォブジェク トを生成し (render 3D objects i n video frame) 、 ビデオ映像を H M Dに出力する (video stream to the HMD) : Integrating real and virtual worlds in share d space. ATR MIC Labs and HIT Lab, Univ of Washington) ) 。 また、 この補聴器 1では、 センサ 3 1 に加えて状況認識システム (例 : Ubiquitous Talker (Sony CSL) ) と V Rシステムを形成する 他のシステムである以下の種々のセンサシステムと V R形成システ ムを統合するシステムとデイスアレイシステム、 及び、 この補聴器 1 とを協調的に用いることにより、 A Rを強化することも可能であ り、 マルチモダリティを用いて音声情報を補足可能となる c
このような V R · AR等の空間を形成するには、 先ず、 使用者が センサ 3 1に本人から情報を送り、 その情報が V R形成システムを 統合するシステムに送られ、 ディスプレイシステムから使用者に情 報が送られることで実現する。
センサ 3 1 (情報入力システム) として以下のデバイスがある: 特に人体の動きの取り込みや、 空間に作用するデバイスと して光 学式 3次元位置センサ (ExpertVision HiRES & Face Tracker (Mo tionAnalysis) ) 、 磁気式 3次元位置センサ (InsideTrack (Polhe mus) 、 3SPACE system (POLHEMUS) 、 Bird (Ascension Tech) ) 、 機 式 3 Dディジタイザ (MicroScribe 3D Extra (Immersion) ) 、 磁気式 3 Dディジタイザ (Model350 (Polhemus) ) 、 音波式 3 Dデ インタイケ (Sonic Digitizer (Science Accessories) ) 、 光ギ式 3 Dスキャナー (3D Laser Scanner (アステックス) ) 、 生体セン サ (体内の電気で測る) サイバ一フィンガー (NTTヒューマンィ ンタフェース研究所) 、 手袋型デバイス (DetaGlove (VPL Res) , Super Glove (日商工レク トロ二クス) Cyber Glove (Virtual Tec h) ) 、 フォースフィ一 ドノくック (Haptic Master (日商工レク ト口 二クス) 、 PHANToM (SensAble Devices) ) 、 3 Dマウス (Space C ontroller (Logitech) ) 、 視線センサ (眼球運動分析装置 (ATR視 聴覚機構研究所製) ) 、 体全体の動きの計測に関するシステム (Da teSuit (VPL Res) ) 、 モーショ ンキヤプチヤーシステム (HiRES (Motion Analysis) ) 、 加速度センサ (三次元半導体加速度センサ (NEC製) ) 、 視線入力機能付き HMD、 ポジショ ニングシステム (例 G P S ) を用いても良い。
また、 V R · ARを実現するためには、 表示部 2 6のみならず、 触覚を利用した触覚ディスプレイ、 触圧ディスプレイ、 カ覚デイス プレイ、 嗅覚ディスプレイを用いても良い。 触覚ディスプレイによ り音声を触覚により伝え、 聴覚だけでなく触覚をも加えることで音 声の認識をあげことが可能となる。 この触覚ディスプレイと しては、 例えば振動子アレイ (ォプタコンや触覚マウス、 タクチユアルボコ —ダ等) 、 触知ピンアレイ (ベ一パーレスブレイル等) などが使用 可能である。 他に water jet, air jet. PHANToM (SensAble Device s) 、 Haptic Master (日商工レク トロニクス) などがある。 具体的 には、 補聴器 1 は、 V Rな空間で V Rキ一ボードを表示し、 信号処 理部 2 2及び音声情報生成部 2 3での処理を V Rキーボードまたは V Rスィ ッチにより制御する。 これにより、 わざわざキ一ボードを 用意したり、 スィッチまで手を伸ばしたりすることが無くなり、 使 用者の操作を楽にし、 耳に装着するのみの補聴器と近い装用感を得 ることができる。
前庭感覚ディスプレイ としては、 ゥォッシュアゥ トとゥォッシュ バックにより狭い動作範囲の装置でも多様な加速度表現ができるシ ステム (例 : モーショ ンベッ ト) が使用可能である。
前庭刺激による音像の知覚の誤りの報告 (I shi da Y et al , 移動 音像の知覚と平衡感覚の相互作用. 日本音響学会聴覚研究会 H-95 (63) 1-8, 1995)より前庭刺激がきこえに影響を与えることがわかり、 前庭感覚ディスプレイも聴覚を補償するものと考えられる。
嗅覚ディスプレイとしては、 文献 「Hi ro se M e t al 嗅覚ディスブ レイに関する研究 日本機会学会 第 7 5期通常総会講演会 講演 論文集, 433-4 ( 1998. 4)」 、 嗅覚センサーシステム (島津製作所製) で採用されている技術が使用可能である。
また、 この補聴器 1では、 音声 ·画像に関する以外のセンサによ る情報を認識し画像に提示するシステム (例 : 手話通訳プロ トタイ プシステムを用いても良い ώ この補聴器 1では、 例えばデータグロ —ブ (VPL Res) よりの手話の入力情報を手話単語標準パターンに基 づく手話単語認識処理にて認識し単語辞書文書化ルールに基づく文 章変換部で処理された情報をディスプレイに表示する (日立) を用 いてもよい。
V Rシステムを統合するシステムとしては、 以下のものがあり、 それら限定されることはないが、 C、 C + +のライブラリ と して供 給 Iれ、 表示とそのデータベース、 デバイス入力、 干渉計算、 ィべ ント管理等をサボ一トし、 アプリケ一ションの部分は使用者がライ ブラリを使用してプログラミングするものや、 ユーザプロダラミン グを必要とせずデータベースゃィベント設定をアプリケーショ ンッ —ルで行い、 そのまま V Rシユ ミ レ一ショ ンを実行するシステム等 を使用してもよい。 またこの補聴器 1 に関する個々のシステム間を 通信にて繋げてもよい。 また、 状況を高臨場感を保って伝送するの に広帯域の通信路を使用しても良い- また、 補聴器 1では、 3 Dコ ンピュータグラフィ ックスの分野で用いられている以下の技術を用 いてもよい = 現実に起こり得ることを忠実に画像として提示し、 非 現実的な空間を作り、 実際には不可能なことも画像として提示する ことがコンセプトとなる。 この補聴器 1は、 例えば複雑で精密なモ デルを作るモデリング技術 (ワイヤ一フレームモデリング、 サーフ エスモデリ ング、 ソ リ ッ ドモデリ ング、 ベジエ曲線、 B—スプライ ン曲線、 N U R B S曲線、 ブール演算 (ブーリアン演算) 、 自由形 状変形、 自由形状モデリ ング、 バーティ クル、 スイープ、 フィ レツ ト、 ロフティ ング、 メタボール等) 、 質感や陰影をつけリアルな物 体を追求するためのレンダリ ング技術 (シェーディング、 テクスチ ユアマッピング、 レンダリ ングアルゴリ ズム、 モーショ ンブラ一、 アンチエリアシング、 デプスキューイング) をする。 また、 補聴器
1は、 作成したモデルを動かし、 現実の世界をシミュレーショ ンす るためのアニメーション技術としてはキ一フレーム法、 インバース キネマテイクス、 モーフイング、 シュリ ンクラップアニメーション、 αチャンネルを用いる。 3 Dコンピュータグラフィックスでは、 以 oo 上のモデリング技術、 レンダリング技術、 アニメーション技術によ り 能となる。 サゥンドレンダリングと して以下に記載されている ¾ を用レヽてあ良レヽ (Takala T, Computer Graphics (Proc SIGGRA PH 1992) Vol26, No2, 211-20) 。
このような V Rシステムを統合するシステムとして、 以下のシス テム (Division Inc:VRランタイムソフ トウェア [dVS], V R空間構築 ソフ トウエア [dVISE], VR開発用ライブラリ [VC Toolkit] SENSE 8; WorldToolKit, WorldUp Superscape; VRT Solidray ; RealMaster モ デルなしの V Rの生成 (参照 Hirose M et al. A study of image editing tech for synthetic sensation. Proc I CAT' 94, 63-70, 19 94) ) がある。
また、 補聴器 1は、 表示部 2 6に表示して音声認識結果、 加工変 換結果を提示する場合のみならず、 プリンタ装置と接続することで、 音声認識結果、 加工変換結果を印刷紙で提示しても良く、 更に、 利 用者の音声の認識を向上させることができる。
また、 本実施の形態では、 HMD 2 と、 コンピュータ部 3 との間 を光ファイバ一ケーブル 4で接続してなる携帯型の補聴器 1 につい て説明したが、 HMD 2とコンピュータ部 3 との間をワイヤレスと し、 HMD 2とコンビュ一タ部 3 との間を無線 (Bluetooth 2. 4 GH z帯の電波を周波数ホッビングさせながら送受信) や赤外線を 用いた信号伝送方式等により情報の送受信を行っても良い。
更に、 この補聴器 1においては、 HMD 2とコンピュータ部 3 と の間をワイヤレスとする場合のみならず、 図 2に示した各部が行う 機能毎に分割して複数の装置とし、 各装置間をワイヤレスと しても 良く、 少なく ともコンピュータ部 3を使用者に装着させずに HMD 2と情報の送受信を行っても良い: 更にまた、 この補聴器 1 におい ては 使用者の身体状態、 利用状態、 使用目的に応じて、 図 2に示 した各部が行う機能毎に分割して複数の装置とし、 各装置間をワイ ャレスと しても良い 3 これにより、 補聴器 1は、 使用者が装着する 装置の重量、 体積を軽減し、 使用者の身体の自由度を向上させ、 使 用者の認識を更に向上させることができる。
また、 補聴器 1では、 通信回路 2 7を介して信号処理部 2 2及び 音声情報生成部 2 3で行う処理の制御及びバ一ジョンアップ (例 ウィルスソフ ト) 、 修理、 オペレーショ ンセンターとの連携 (操作 方法、 ク レーム処理等) 等をしても良い。
すなわち、 通信回路 2 7は、 外部の信号処理サーバと接続され、 マイクロホン 2 1、 信号処理部 2 2又は音声情報生成部 2 3で生成 した信号や音声情報を信号処理サーバ送信することで、 信号処理サ —バで所定の信号処理が施された音声信号や音声情報を得ることが できる。 このような通信回路 2 7を備えた補聴器 1では、 上述した 信号処理部 2 2、 音声情報生成部 2 3で行う認識処理や加工変換処 理を外部の信号処理サーバに行わせることで、 内部での処理内容を 削減することができる。 また、 この補聴器 1によれば、 外部の信号 処理サーバで利用者の身体状態、 使用状態及び使用目的に基づいて、 信号処理部 2 2や音声情報生成部 2 3では行わない処理を実行させ ることにより、 更に利用者の音声の認識を向上させることができる = 更に、 この補聴器 1では、 信号処理部 2 2や音声情報生成部 2 3 で使用する記憶部 2 4に記憶された画像データを外部のサーバから ダウンロードすることにより、 記憶部 2 4に多量の画像データが格 納されていなくても、 様々な種類の画像を表示部 2 6に表示するこ とができる。 従って、 このような通信回路 2 7を備えた補聴器 1に よれば、 認識結果を加工変換した結果を示す画像の種類を多くする ことができ、 更に利用者の音声の認識を向上させることができる。 このように、 補聴器 1では、 外部のサーバに処理を行わせるとと もに、 外部のサーバに処理に必要なデータを記憶させることで、 装 置の小型化を図ることができ、 装着性、 携帯性を向上させることが できる。
更に、 この補聴器 1では、 利用者の身体状態、 使用状態及び使用 目的に基づいて、 外部のサーバから予め信号処理部 2 2や音声情報 生成部 2 3に設定されていた処理内容とは異なる処理内容を示すプ 口グラムをダウン口一ドすることにより、 利用者に応じた処理を信 号処理部 2 2及び音声情報生成部 2 3で施すことができ、 更に利用 者の音声の認識を向上させることができる。
また、 この補聴器 1では、 通信回路 2 7に通信するための信号が 検出されず通信を行うことができないときには、 自動的に通信を用 いた処理ではない方法で上述の処理をし、 通信が可能であるときに は自動的に通信を用いた処理方法で上述の処理してもよい。
通信回路 2 7と接続する外部のネッ トワークとしては、 例えば、 Λ ンタ—ィ、 ッ トを通じ 7こ A S P (application service provider) やデータセンター、 A S Pを利用する場合 V P N (virtual privat e networkリ 、 し S P (commerce service provider) にも使用し飞 もよい:
更に、 補聴器 1 と外部のネッ トワーク との間で音声情報を送受信 するときには、 例えば音声をィンターネッ ト上で伝送する V o I P (Voice over IP) 、 音声をフレームリ レー網上で伝送する V o F R (Vo ice over FR) 、 音声を A T Mネッ トワーク網上で伝送する V o A T M (Vo i ce over ATM) 技術を用いる。
また、 この補聴器 1は、 図示しない外部入出力端子を備え、 外部 装置に音声データを出力して外部装置に信号処理部 2 2や音声情報 生成部 2 3で行う処理を実行させることや、 外部装置から信号処理 部 2 2や音声情報生成部 2 3での処理に必要なデータを取り込む処 理等を行っても良い
このような補聴器 1は、 身体状態、 使用状態及び使用目的に基づ いて、 信号処理部 2 2や音声情報生成部 2 3では行わない処理を外 部装置に実行させることにより、 更に利用者の音声の認識を向上さ せることができる。
また、 補聴器 1によれば、 外部装置からデータを読み出すことで、 認識結果を加工変換した結果を示す画像の種類を多くすることがで き、 更に利用者の音声の認識を向上させることができる。
更に補聴器 1では、 外部装置に処理を行わせるとともに、 外部装 置に処理に必要なデータを記憶させることで、 装置の小型化を図る ことができ、 装着性、 携帯性を向上させることができる。
更にまた、 補聴器 1では、 利用者の身体状態、 使用状態及び使用 目的に基づいて、 外部装置から予め信号処理部 2 2や音声情報生成 部 2 3に設定されていた処理内容とは異なる処理内容を示すプログ ラムを取り込むすることにより、 利用者に応じた処理を信号処理部 2 2及び音声情報生成部 2 3で施すことができ、 更に利用者の音声 の認識を向上させることができる。
また、 本発明を適用した補聴器 1によれば、 合成した音声を表示 することで使用者に提示することができるので、 以下の分野にて使 用可能である:
主 難聴者や言語障害者の仕事の支援として、 事務作業、 (ゥェ アプルコンピュータとして) 、 認証業務、 音声言語訓練、 会議、 応 対業務 (電話やインターネッ ト等による) 、 番組製作 (アニメーシ ヨ ン、 実写映像、 ニュース、 音楽制作) 、 宇宙空間での作業、 運輸
(宇宙船や飛行機のパイロッ ト) 、 V Rと A Rとを用いた種々のシ ミ ュ レーシヨ ン作業 (遠隔手術 (マイクロサージユリ一等) 、 調査
(マーケティング等) 、 軍事等、 デザイン分野、 在宅勤務、 悪条件
(騒音下等) での作業業務 (建築現場、 工場等) 、 仕分け業務等に 使用可能である: =
また、 この補聴器 1によれば、 主に難聴者や言語障害者の生活支 援と して、 医療現場 (プライマリーケア、 診察、 検査 (聴力検査 等) 、 看護業務、 在宅ケア、 介護業務 介護学校での業務、 医療補助 業務、 産業医学業務 (メンタルヘルス等) 、 治療 (内科、 疾病) 、 脳幹障害による聴覚障害(brainstem deafnes s)、 聴皮質 ·聴放線障 ¾ "による聴見障害、 deafnes s due t o aud i t ory cortex and subcort i cal l es ion)、 言語障害 (失語症 aphas i a等) の訓練や介護にも有用 であり、 外国語学習、 娯楽 (通信機能付きテレビゲーム) 、 個人用 ホームシアター、 観戦 (コンサートや試合等) 、 選手の試合時や練 習時での選手同士や選手とコーチ間の意志疎通や情報変換) 、 カー ナビゲーシヨ ンシステム、 教育、 情報家電との連携、 通信 (自動翻 訳電話、 電子商取引、 ASP · CSP、 オンラインショ ッピング、 電子マ ネー ·電子ゥォレツ ト · デビッ トカード等を用いたもの、 決済及び 証券 ,銀行業務 (為替、 デリバティブ等) ) 、 コミュニケーショ ン
(音声言語障害者、 重病患者、 重度身体障害者に対する) ) 、 娯楽 (ァミユーズメントパーク等における Fish'tank VR display, 裸眼 立体視システム、 テレイグジスタンス視覚システムなどを用いた V Rや ARや、 テレエグシスタンスゃアールキューブを利用した物、 政治 (選挙等への参加) 、 トレーニングスポーツ (レース (自動車 やヨ ッ ト等) 、 冒険 (山や海等) 、 旅行、 会場の閲覧、 買い物、 宗 教、 超音波 (ソナ一 SONAR) を用いたもの、 ホームスクール、 ホーム セキュリティ、 デジタル音楽 ·新聞 ·書籍サービス ·装置との接続
(例 Audible Player^ mobile player (Audibl e Inc) ) 、 相 Aァ1 ~ タ通信テレビ、 電子商取引 (EC electric commerce) 、 データ通信 可能な TV電話への接続、 PDA (携帯情報端末) との接続 (例 : V'pho netTietech Co. ) 、 広告、 調理、 手話への利用 (例 : 手話通訳 · 生 成システム '手話アニメーショ ンソフ ト Mimehand (HITACHI) との 利用) 水中 (ダイ ビングでの水中会話及び意志疎通等) の分野に使 用可能である。
さらに、 この補聴器 1 には、 記憶部 2 4に通常のパーソナルコン ピュータで行うような処理 (文書作成、 画像処理、 インタ一ネッ ト、 電子メール) を示すアブリケーシヨ ンプログラムを格納して実行し ても良い。 産業上の利用可能性 以上詳細に説明したように、 本発明に係る音声変換装置は、 音声 を音響電気変換手段で検出し認識手段で音声認識処理をして得た認 識結果を使用者の身体状態、 利用状態及び使用目的に応じて加工変 換する変換手段を備え、 更に認識結果及び/又は認識結果を変換手 段により加工変換した認識結果を使用者の身体状態等に応じて出力 手段から出力することができるので、 音声のみならず、 音声の意味 内容を示す情報を例えば図柄等として表示することができ、 音声の みならず画像を利用して利用者の聴覚を補償することができる。 本発明に係る音声変換方法は、 音声を検出して音声信号を生成し、 音響電気変換手段からの音声信号を用いて音声認識処理を行い、 認 識結果を使用者の身体状態、 利用状態及び使用目的に応じて加工変 換して、 使用者の身体状態等に応じて認識結果を出力することがで きるので、 音声のみならず、 音声の意味内容を示す情報を例えば図 柄等として表示することができ、 音声のみならず画像を利用して利 用者の聴覚を補償することができる。

Claims

請 求 の 範 囲
1 . 音声を検出して音声信号を生成する音響電気変換手段と、 音響電気変換手段からの音声信号を用いて音声認識処理を行う認 識手段と、
上記認識手段からの認識結果を使用者の身体状態、 利用状態及び 使用目的に応じて加工変換する変換手段と、
上記認識手段により認識された結果及び/又は認識結果を上記変 換手段により加工変換した認識結果を出力させる制御信号を生成す る出力制御手段と、
上記出力制御手段で生成された制御信号に基づいて上記認識手段 により認識され上記変換手段により加工変換された認識結果を出力 して認識結果を使用者に提示する出力手段と
を備えることを特徴とする音声変換装置。
2 . 上記音響電気変換手段は、 音声言語障害を有して発せられた 音声を検出して音声信号を生成し、
上記変換手段は、 音響電気変換手段からの音声信号に基づいて音 声認識をする処理を行う音声認識手段と、 音声言語障害を有しない で発せられた音声を予めサンプリングすることで生成した音声デー タを記憶する記憶手段と、 上記音声認識手段からの認識結果に基づ いて、 上記記憶手段に記憶された音声データを用いて出力する音声 を示す音声情報を生成する音声情報生成手段とを備えること を特徴とする請求の範囲第 1項記載の音声変換装置。
3 . 上記出力手段は画像を表示する表示手段からなり、
上記出力制御手段は、 上記出力手段の表示手段に認識結果及び Z 又は加工変換された認識結果を画像と して表示するように制御信号 を生成すること
を特徴とする請求の範囲第 1項記載の音声変換装置。
4 . 上記出力制御手段は、 上記表示手段に表示する図柄を示すデ —タを格納したデータ記憶手段を備え、 上記認識手段により認識さ れた結果及び Z又は認識結果を上記変換手段により加工変換した認 識結果に基づいて、 上記データ記憶手段に格納されたデータを読み 出してデータが示す絵柄を上記表示手段に表示するように制御する こと
を特徴とする請求項 3記載の音声変換装置。
5 . 上記出力手段は、 音声を出力する電気音響変換手段を更に備 え、
上記出力制御手段は、 上記電気音響変換手段から認識結果及び Z 又は加工変換された認識結果を音声と して出力させるように制御信 号を生成すること
を特徴とする請求の範囲第 3項記載の音声変換装置。
6 . 上記出力制御手段は、 使用者及び Z又は使用者以外から発せ られる音声については上記表示手段に画像を表示するように制御信 号を生成するとともに、 使用者及び Z又は使用者以外から発せられ る音声の音圧レベルを増幅して電気音響変換手段から音声と して出 力する制御信号を生成すること
を特徴とする請求の範囲第 5項記載の音声変換装置。
7 . 上記出力制御手段は、 上記認識結果に応じて、 上記音響電気 変換手段で検出した音声の意味内容を表示するように制御信号を生 成すること を特徴とする請求の範囲第 3項記載の音声変換装置。
8 . _ 上記出力手段は人工内耳機構からなり、
上記出力制御手段は、 認識結果及び Z又は加工変換された認識結 果を電気信号として出力するように制御信号を生成すること
を特徴とする請求の範囲第 1項記載の音声変換装置。
9 . 上記出力手段は骨に直接振動を与える振動板からなり、 上記出力制御手段は、 上記振動板に認識結果及び Z又は加工変換 された認識結果を振動と して出力するように制御信号を生成するこ と
を特徴とする請求の範囲第 1項記載の音声変換装置。
1 0 . 上記出力手段は人工中耳機構からなり、
上記出力制御手段は、 認識結果及び Z又は加工変換された認識結 果を電気信号として出力するように制御信号を生成すること
を特徴とする請求の範囲第 1項記載の音声変換装置。
1 1 . 上記出力手段は、 超音波出力機構 (bone condact i on ul tr asound) 力 らなること
を特徴とする請求の範囲第 1項記載の音声変換装置。
1 2 . 上記出力手段は、 タクタイルエイ ド用振動子アレイからな り、
上記出力制御手段は、 上記振動子ァレイに認識結果及び Z又は加 ェ変換された認識結果を電気信号として出力するように制御信号を 生成すること
を特徴とする請求の範囲第 1項記載の音声変換装置。
1 3 . 上記出力手段は、 電極を介して電気信号を蝸牛神経核に供 給する聴性脳幹ィンプラント機構からなり、 上記出力制御手段は、 上記聴性脳幹ィンプラント機構に認識結果 及び Z又は加工変換された認識結果を電気信号と して出力するよう に制御信号を生成すること
を特徴とする請求の範囲第 1項記載の音声変換装置。
1 4 . 少なく とも上記出力手段は、 使用者に対して着脱自在とな されていること
を特徴とする請求の範囲第 1項記載の音声変換装置. =
1 5 . 通信回線を通じて音声を入力して上記音響電気変換手段に 入力するとともに上記出力手段からの認識結果を通信回線に出力す る上記通信手段を備えること
を特徴とする請求の範囲第 1項記載の音声変換装置 c
1 6 . 上記認識手段は、 話者認識処理を入力される音声について 行って各話者に対応した認識結果を生成し、
上記出力手段は、 各話者に関する情報を使用者に提示すること を特徴とする請求の範囲第 1項記載の音声変換装置-
1 7 . 画像を撮像する撮像手段を備え、
上記撮像手段は、 撮像した画像を少なく とも表示手段に出力する こと
を特徴とする請求の範囲第 2項記載の音声変換装置-
1 8 . 上記撮像手段は、 使用者の視力に基づいて、 撮像した画像 について画像変換処理を施して表示手段に出力すること
を特徴とする請求の範囲第 1 7項記載の音声変換装置:
1 9 . 少なく とも上記撮像手段は、 使用者に対して着脱自在とな されていること
を特徴とする請求の範囲第 1 7項記載の音声変換装置-
2 0 . 外部ネッ トワークに含まれる外部機器と接続した上記通信 手段 備え、
外部機器からのデータを用いて、 身体状態、 利用状態及び使用目 的に応じた加工変換した認識結果と して出力すること
を特徴とする請求の範囲第 1記載の音声変換装置。
2 1 . 上記通信手段は、 上記音響電気変換手段で生成した音声信 号、 上記認識手段で得た認識結果及び Z又は変換手段で得た加工変 換結果を外部機器に出力し、 外部機器からの認識結果及び Z又は加 ェ変換結果を得ること
を特徴とする請求の範囲第 2 0項記載の音声変換装置。
2 2 . 上記通信手段は、 上記認識手段及び Z又は上記加工変換手 段の処理内容を変更するプログラムを外部機器から受信し、 上記認識手段及び Z又は上記加工変換手段は、 上記通信手段で受 信したプログラムに基づいて認識結果、 加工変換結果を生成するこ と
を特徴とする請求の範囲第 2 0項記載の音声変換装置。
2 3 . 上記出力制御手段は、 認識結果及び/又は変換した認識結 果を同時又は時間差を持たせて出力手段から出力する制御を行うこ と
を特徴とする請求の範囲第 1項記載の音声変換装置。
2 4 . 音響電気変換手段、 認識手段、 変換手段、 出力制御手段及 び出力手段を使用者の身体状態、 利用状態及び使用目的に応じて分 割して複数の装置と し、 各装置間をワイヤレスと して少なく とも認 識結果及び/又は変換した認識結果の送受信を行うこと
を特徴とする請求の範囲第 1項記載の音声変換装置。
2 5 . 上記音響電気変換手段は、 音声言語障害を有して発せられ た音一声と して、 音声言語障害を是正するために用いられる補助的手 段や装置を用いて発せられた音声を検出して音声信号を生成するこ と
を特徴とする請求の範囲第 2項記載の音声変換装置。
2 6 . 上記音響電気変換手段は、 音声言語障害を有して発せられ た音声と して、 音声言語障害を是正するために用いられる、 代用発 声法を用いて発せられた音声を検出して音声信号を生成すること を特徴とする請求の範囲第 2 5項記載の音声変換装置。
2 7 . 上記音響電気変換手段は、 音声言語障害を有して発せられ た音声として、 言音声言語障害を是正するために用いられる、 代用 発声法以外の手法を用いて音声言語障害者から発せられた音声を検 出して音声信号を生成すること
を特徴とする請求の範囲第 2 5項記載の音声変換装置。
2 8 . 音声を検出して音声信号を生成し、
上記音響電気変換手段からの音声信号を用いて音声認識処理を行 い、
認識結果を使用者の身体状態、 利用状態及び使用目的に応じて加 ェ変換し、
認識結果及び/又は認識結果を加工変換した認識結果を出力させ る制御信号を生成し、
上記制御信号に基づいて加工変換した認識結果を出力して認識結 果を使用者に提示すること
を特徴とする音声変換方法。
2 9 . 音声言語障害を有して発せられた音声を検出して音声信号 を生成し、
^声信号に基づいて音声認識をし、
認識結果に基づいて、 予めサンプリングすることで生成した音声 データを用いて出力する音声を示す音声情報を生成すること を特徴とする請求の範囲第 2 8項記載の音声変換方法。
3 0 . 表示手段に認識結果及び Z又は加工変換された認識結果を 画像として表示すること
を特徴とする請求の範囲第 2 8項記載の音声変換方法。
補正書の請求の範囲
[ 2 0 0 0年 6月 2 6日 (2 6 . 0 6 . 0 0 ) 国際事務局受理:出願当初の請求の 範囲 1 , 4 , 6 - 7 , 1 8 , 2 0, 2 4 , 及び 2 8は補正された;出願当初の請求 範囲 3, 5, 8— 1 3及び 3 0は取り下げられた;新しい請求の範囲 3 1— 3 4 が加えられた;他の請求の範囲は変更なし。 (6頁)]
1 . (補正後) 音声を検出して音声 ί言号を生成する音響電気変換手 段と、
音響電気変換手段からの音声信号を用いて音声認識処理を行う認 識手段と、
上記認識手段からの認識結果を使用目的に応じて加工変換する変 換手段と、
上記認識手段により認識された結果及び/又は認識結果を上記変 換手段により加工変換した認識結果を出力させる制御信号を生成す る出力制御手段と、
上記出力制御手段で生成された制御信号に基づいて上記認識手段 により認識され上記変換手段により加工変換された認識結果を出力 して認識結果を使用者に提示する出力手段とを備え、
上記出力手段は画像を表示する表示手段と音声を出力する電気音 響変換手段からなり、
上記出力制御手段は、 上記出力手段の表示手段に認識結果及び Ζ 又は加工変換された認識結果を画像と して表示するように制御信号 を生成するとともに、 上記電気音響変換手段から認識結果及び Ζ又 は加工変換された認識結果を音声と して出力させるように制御信号 を生成することを特徴とする音声変換装置-
2 . 上記音響電気変換手段は、 音声言語障害を有して発せられた 音声を検出して音声信号を生成し、
上記変換手段は、 音響電気変換手段からの音声信号に基づいて音 声認識をする処理を行う音声認識手段と、 音声言語障害を有しない
補正された用紙 (条約第 19条) せられた音声を予めサンプリングすることで生成した音声デー タを記憶する記憶手段と、 上記音声認識手段からの認識結果に基づ いて、 上記記憶手段に記憶された音声データを用いて出力する音声 を示す音声情報を生成する音声情報生成手段とを備えることを特徴 とする請求の範囲第 1項記載の音声変換装置。
3 . (削除)
4 . (補正後) 上記出力制御手段は、 上記表示手段に表示する図柄 を示すデータを格納したデータ記憶手段を備え、 上記認識手段によ り認識された結果及び Z又は認識結果を上記変換手段により加工変 換した認識結果に基づいて、 上記データ記憶手段に格衲されたデ一 タを読み出してデータが示す絵柄を上記表示手段に表示するように 制御することを特徴とする請求項 1記載の音声変換装置。
5 . (削除)
6 . (補正後) 上記出力制御手段は、 使用者及び Z又は使用者以外 から発せられる音声については上記表示手段に画像を表示するよう に制御信号を生成するとともに、 使用者及び Z又は使用者以外から 発せられる音声の音圧レベルを増幅して電気音響変換手段から音声 と して出力する制御信号を生成することを特徴とする請求の範囲第 1項記載の音声変換装置。
7 . (補正後) 上記出力制御手段は、 上記認識結果に応じて、 上記 音響電気変換手段で検出した音声の意味内容を表示するように制御 信号を生成することを特徴とする請求の範囲第 1項記載の音声変換
8 . (削除)
9 . (削除)
補正された用紙 (条約第 19条) 1-0 . (削除)
1 1 . (削除)
1 2 . (削除)
1 3 . (削除)
1 4 . 少なく とも上記出力手段は、 使用者に対して着脱自在とな されていることを特徴とする請求の範囲第 1項記載の音声変換装置 c
1 5 . 通信回線を通じて音声を入力して上記音響電気変換手段に 入力するとともに上記出力手段からの認識結果を通信回線に出力す る上記通信手段を備えることを特徴とする請求の範囲第 1項記載の 音声変換装置。
1 6 . 上記認識手段は、 話者認識処理を入力される音声について 行って各話者に対応した認識結果を生成し、
上記出力手段は、 各話者に関する情報を使用者に提示することを 特徴とする請求の範囲第 1項記載の音声変換装置。
1 7 . 画像を撮像する撮像手段を備え、
上記撮像手段は、 撮像した画像を少なく とも表示手段に出力する ことを特徴とする請求の範囲第 2項記載の音声変換装置。
1 8 . (補正後) 上記撮像手段は、 使用目的に応じて、 撮像した画 像について画像変換処理を施して表示手段に出力することを特徴と する請求の範囲第 1 7項記載の音声変換装置。
1 9 . 少なく とも上記撮像手段は、 使用者に対して着脱自在とな されていることを特徴とする請求の範囲第 1 7項記載の音声変換装 置。
2 0 . (補正後) 外部ネッ トワークに含まれる外部機器と接続した 上記通信手段を備え、
補正された用紙 (条約第 19条) 外部機器からのデータを用いて、 使用目的に応じた加工変換した 認識結果と して出力することを特徴とする請求の範囲第 1記載の音 声変換装置-
2 1 . 上記通信手段は、 上記音響電気変換手段で生成した音声信 号、 上記認識手段で得た認識結果及び Z又は変換手段で得た加工変 換結果を外部機器に出力し、 外部機器からの認識結果及び Z又は加 ェ変換結果を得ることを特徴とする請求の範困第 2 0項記載の音声 変換装置。
2 2 . 上記通信手段は、 上記認識手段及び Z又は上記加工変換手 段の処理内容を変更するプログラムを外部機器から受信し、 上記認識手段及び Z又は上記加工変換手段は、 上記通信手段で受 信したプログラムに基づいて認識結果、 加工変換結果を生成するこ とを特徴とする請求の範囲第 2 0項記載の音声変換装置。
2 3 . 上記出力制御手段は、 認識結果及び Z又は変換した認識結 果を同時又は時間差を持たせて出力手段から出力する制御を行うこ とを特徴とする請求の範囲第 1項記載の音声変換装置。
2 4 . (補正後) 音響電気変換手段、 認識手段、 変換手段、 出力制 御手段及び出力手段を使用目的に応じて分割して複数の装置とし、 各装置間をワイヤレスとして少なく とも認識結果及び Z又は変換し た認識結果の送受信を行うことを特徴とする請求の範囲第 1項記載 の音声変換装置。
2 5 . 上記音響電気変換手段は、 音声言語障害を有して発せられ た音声と して、 音声言語障害を是正するために用いられる補助的手 段や装置を用いて発せられた音声を検出して音声信号を生成するこ とを特徴とする請求の範囲第 2項記載の音声変換装置。
捕正された用紙 (条約第 19条) 2-6 . 上記音響電気変換手段は、 音声言語障害を有して発せられ た音声と して、 音声言語障害を是正するために用いられる、 代用発 声法を用いて発せられた音声を検出して音声信号を生成することを 特徴とする請求の範囲第 2 5項記載の音声変換装置- 2 7 . 上記音響電気変換手段は、 音声言語障害を有して発せられ た音声と して、 音声言語障害を是正するために用いられる、 代用発 声法以外の手法を用いて音声言語障害者から発せられた音声を検出 して音声信号を生成することを特徴とする請求の範囲第 2 5項記載 の音声変換装置。
2 8 . (補正後) 音声を検出して音声信号を生成し、
上記音響電気変換手段からの音声信号を用いて音声認識処理を行 い、
認識結果を使用目的に応じて加工変換し、
認識結果及び Z又は認識結果を加工変換した認識結果を出力させ る制御信号を生成し、
上記制御信号に基づいて認識結果及び Z又は加工変換された認識 結果を画像と音声と して使用者に提示すること
を特徴とする音声変換方法。
2 9 . 音声言語障害を有して発せられた音声を検出して音声信号 を生成し、
音声信号に基づいて音声認識をし、
認識結果に基づいて、 予めサンブリングすることで生成した音声 データを用いて出力する音声を示す音声情報を生成すること を特徴とする請求の範囲第 2 8項記載の音声変換方法:
3 0 . (削除)
捕正された用紙 (条約第 19条) 3-1. (追加) 上記変換手段は、 認識結果を画像と して表示するた めの加工変換を行う第 1の変換手段と、 認識結果を音声と して出力 するための加工変換を行う第 2の変換手段を備えることを特徴とす る請求の範囲第 1項記載の音声変換装置。
3 2. (追加) 使用者の動作に関するセンサを備え、
上記出力手段は、 上記センサで検出した情報と上記変換手段によ り加工変換した認識結果に基づいて、 仮想現実感 (Virtual realit y:VR) を形成することを特徴とする請求の範囲第 1項記載の音声変
3 3. (追加) 使用者の動作に関するセンサを備え、
上記出力手段は、 上記センサで検出した情報と上記変換手段によ り加工変換した認識結果に基づいて、 強調現実感 (Augmented real ity:AR) を形成することを特徴とする請求の範囲第 1項記載の音声 変換装置。
3 4. (追加) 音声対話機能を備え、
上記音声対話機能による対話結果に基づいて、 上記変換手段は上 記認識手段による認識結果を加工変換することを特徴とする請求の 範囲第 1項記載の音声変換装置。
補正された用紙 (条約第 19条)
PCT/JP2000/000872 1999-02-16 2000-02-16 Dispositif de conversion de la parole et procede correspondant WO2000049834A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
AT00903984T ATE471039T1 (de) 1999-02-16 2000-02-16 Sprache umwandlung gerät und verfahren
EP00903984A EP1083769B1 (en) 1999-02-16 2000-02-16 Speech converting device and method
AU25719/00A AU2571900A (en) 1999-02-16 2000-02-16 Speech converting device and method
JP2000600451A JP4439740B2 (ja) 1999-02-16 2000-02-16 音声変換装置及び方法
DE60044521T DE60044521D1 (de) 1999-02-16 2000-02-16 Sprache umwandlung gerät und verfahren
CA002328953A CA2328953A1 (en) 1999-02-16 2000-02-16 Speech converting device and method
US09/673,360 US7676372B1 (en) 1999-02-16 2000-02-16 Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP3755899 1999-02-16
JP3755999 1999-02-16
JP11/37559 1999-02-16
JP11/37558 1999-02-16

Publications (1)

Publication Number Publication Date
WO2000049834A1 true WO2000049834A1 (fr) 2000-08-24

Family

ID=26376681

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/000872 WO2000049834A1 (fr) 1999-02-16 2000-02-16 Dispositif de conversion de la parole et procede correspondant

Country Status (8)

Country Link
US (1) US7676372B1 (ja)
EP (1) EP1083769B1 (ja)
JP (1) JP4439740B2 (ja)
AT (1) ATE471039T1 (ja)
AU (1) AU2571900A (ja)
CA (1) CA2328953A1 (ja)
DE (1) DE60044521D1 (ja)
WO (1) WO2000049834A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117484A (ja) * 2003-10-09 2005-04-28 Katsuro Aoki 人工喉頭使用者用拡声装置
JP2005304014A (ja) * 2004-03-26 2005-10-27 Mitsubishi Electric Research Laboratories Inc 音情報を伝搬する方法及びシステム
JP2012205147A (ja) * 2011-03-25 2012-10-22 Kyocera Corp 携帯電子機器および音声制御システム
KR20130124573A (ko) * 2011-02-23 2013-11-14 퀄컴 인코포레이티드 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
JP5521554B2 (ja) * 2008-02-19 2014-06-18 日本電気株式会社 テキスト変換装置、方法、プログラム
WO2015019835A1 (ja) * 2013-08-08 2015-02-12 国立大学法人奈良先端科学技術大学院大学 電気式人工喉頭装置
KR102448000B1 (ko) * 2021-09-08 2022-09-28 이은교육 주식회사 진동 및 시각 데이터를 활용한 청각 장애인 음악 교육 장치, 방법 및 프로그램
JP7358919B2 (ja) 2019-11-07 2023-10-11 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10031832C2 (de) 2000-06-30 2003-04-30 Cochlear Ltd Hörgerät zur Rehabilitation einer Hörstörung
CA2492091C (en) 2002-07-12 2009-04-28 Widex A/S Hearing aid and a method for enhancing speech intelligibility
US8458028B2 (en) * 2002-10-16 2013-06-04 Barbaro Technologies System and method for integrating business-related content into an electronic game
US7088224B2 (en) 2003-03-11 2006-08-08 National Institute Of Advanced Industrial Science And Technology Audio information transmitting apparatus and the method thereof, and a vibrator holding structure
US8072470B2 (en) 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
EP1703770B1 (en) 2005-03-14 2017-05-03 GN ReSound A/S A hearing aid fitting system with a camera
US8170677B2 (en) * 2005-04-13 2012-05-01 Cochlear Limited Recording and retrieval of sound data in a hearing prosthesis
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
US8082149B2 (en) * 2006-10-26 2011-12-20 Biosensic, Llc Methods and apparatuses for myoelectric-based speech processing
EP1926087A1 (de) * 2006-11-27 2008-05-28 Siemens Audiologische Technik GmbH Anpassung einer Hörvorrichtung an ein Sprachsignal
CA2673644C (en) 2006-12-27 2016-02-09 Case Western Reserve University Situated simulation for training, education, and therapy
US20090076804A1 (en) * 2007-09-13 2009-03-19 Bionica Corporation Assistive listening system with memory buffer for instant replay and speech to text conversion
US20090076816A1 (en) * 2007-09-13 2009-03-19 Bionica Corporation Assistive listening system with display and selective visual indicators for sound sources
US20090076825A1 (en) * 2007-09-13 2009-03-19 Bionica Corporation Method of enhancing sound for hearing impaired individuals
US8391522B2 (en) 2007-10-16 2013-03-05 Phonak Ag Method and system for wireless hearing assistance
CN101843118B (zh) 2007-10-16 2014-01-08 峰力公司 用于无线听力辅助的方法和系统
US9990859B2 (en) 2008-01-17 2018-06-05 Speech Buddies, Inc. Intraoral tactile biofeedback methods, devices and systems for speech and language training
US8740622B2 (en) * 2008-01-17 2014-06-03 Articulate Technologies, Inc. Methods and devices for intraoral tactile feedback
US8242879B2 (en) * 2008-03-20 2012-08-14 The Ohio Willow Wood Company System and method for prosthetic/orthotic device communication
US8280732B2 (en) * 2008-03-27 2012-10-02 Wolfgang Richter System and method for multidimensional gesture analysis
DE102008030404A1 (de) * 2008-06-26 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hörhilfevorrichtung und -verfahren
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US20100198582A1 (en) * 2009-02-02 2010-08-05 Gregory Walker Johnson Verbal command laptop computer and software
US8943094B2 (en) * 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
CN102044128A (zh) * 2009-10-23 2011-05-04 鸿富锦精密工业(深圳)有限公司 紧急事件报警系统及方法
US8715179B2 (en) * 2010-02-18 2014-05-06 Bank Of America Corporation Call center quality management tool
US9138186B2 (en) * 2010-02-18 2015-09-22 Bank Of America Corporation Systems for inducing change in a performance characteristic
US8715178B2 (en) * 2010-02-18 2014-05-06 Bank Of America Corporation Wearable badge with sensor
RU2010124351A (ru) * 2010-06-17 2011-12-27 Владимир Витальевич Мирошниченко (RU) Взаимодействие виртуальной мимики и/или виртуальной жестикуляции с сообщением
US8990092B2 (en) 2010-06-28 2015-03-24 Mitsubishi Electric Corporation Voice recognition device
WO2012003602A1 (zh) * 2010-07-09 2012-01-12 西安交通大学 一种电子喉语音重建方法及其系统
US9484046B2 (en) * 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US11100915B2 (en) * 2010-12-03 2021-08-24 Forbes Rehab Services, Inc. Audio output module for use in artificial voice systems
EP2498514B1 (en) * 2011-03-08 2014-01-01 Nxp B.V. A hearing device and method of operating a hearing device
US9065561B2 (en) 2011-05-06 2015-06-23 Incube Labs, Llc System and method for enhancing speech of a diver wearing a mouthpiece
ES2408906B1 (es) * 2011-05-26 2014-02-28 Telefónica, S.A. Sistema y método para analizar el contenido de una conversación de voz
EP2758956B1 (en) 2011-09-23 2021-03-10 Digimarc Corporation Context-based smartphone sensor logic
US9014614B2 (en) * 2011-10-20 2015-04-21 Cogcubed Corporation Cognitive assessment and treatment platform utilizing a distributed tangible-graphical user interface device
US8849666B2 (en) * 2012-02-23 2014-09-30 International Business Machines Corporation Conference call service with speech processing for heavily accented speakers
US9583032B2 (en) 2012-06-05 2017-02-28 Microsoft Technology Licensing, Llc Navigating content using a physical object
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN102783973B (zh) * 2012-08-07 2014-07-30 南京大学 一种利用自然声道超声波导效应的声带振动无损测量方法
US9344811B2 (en) * 2012-10-31 2016-05-17 Vocalzoom Systems Ltd. System and method for detection of speech related acoustic signals by using a laser microphone
US11694565B2 (en) * 2012-11-29 2023-07-04 Imran Haddish Virtual and augmented reality instruction system
EP2936834A1 (en) * 2012-12-20 2015-10-28 Widex A/S Hearing aid and a method for improving speech intelligibility of an audio signal
US10607625B2 (en) * 2013-01-15 2020-03-31 Sony Corporation Estimating a voice signal heard by a user
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
US20140270291A1 (en) 2013-03-15 2014-09-18 Mark C. Flynn Fitting a Bilateral Hearing Prosthesis System
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
TW201446226A (zh) * 2013-06-04 2014-12-16 jing-feng Liu 人工發聲裝置
AU2014274669A1 (en) * 2013-06-06 2016-01-07 Kustom Signals, Inc. Traffic enforcement system with time tracking and integrated video capture
US9299358B2 (en) * 2013-08-07 2016-03-29 Vonage America Inc. Method and apparatus for voice modification during a call
US9728202B2 (en) 2013-08-07 2017-08-08 Vonage America Inc. Method and apparatus for voice modification during a call
US9424843B2 (en) * 2013-09-24 2016-08-23 Starkey Laboratories, Inc. Methods and apparatus for signal sharing to improve speech understanding
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
KR20150104345A (ko) * 2014-03-05 2015-09-15 삼성전자주식회사 음성 합성 장치 및 음성 합성 방법
CN106233227B (zh) 2014-03-14 2020-04-28 索尼互动娱乐股份有限公司 具有体积感测的游戏装置
US20160063889A1 (en) * 2014-08-27 2016-03-03 Ruben Rathnasingham Word display enhancement
WO2016078709A1 (en) 2014-11-20 2016-05-26 Widex A/S Hearing aid user account management
CN104574474A (zh) * 2015-01-09 2015-04-29 何玉欣 一种通过字幕生成动画角色语言口型的匹配方法
JP6290827B2 (ja) * 2015-06-05 2018-03-07 リウ チン フォンChing−Feng LIU オーディオ信号を処理する方法及び補聴器システム
US10182758B2 (en) * 2015-10-05 2019-01-22 Htc Corporation Measuring device of human body and method thereof
US10062388B2 (en) * 2015-10-22 2018-08-28 Motorola Mobility Llc Acoustic and surface vibration authentication
CN106790940B (zh) 2015-11-25 2020-02-14 华为技术有限公司 录音方法、录音播放方法、装置及终端
US10009698B2 (en) * 2015-12-16 2018-06-26 Cochlear Limited Bone conduction device having magnets integrated with housing
US10695663B2 (en) * 2015-12-22 2020-06-30 Intel Corporation Ambient awareness in virtual reality
KR102450803B1 (ko) * 2016-02-11 2022-10-05 한국전자통신연구원 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법
US20170243582A1 (en) * 2016-02-19 2017-08-24 Microsoft Technology Licensing, Llc Hearing assistance with automated speech transcription
US10198964B2 (en) 2016-07-11 2019-02-05 Cochlear Limited Individualized rehabilitation training of a hearing prosthesis recipient
WO2018102664A1 (en) 2016-12-01 2018-06-07 Earplace Inc. Apparatus for manipulation of ear devices
US10154354B2 (en) * 2017-02-10 2018-12-11 Cochlear Limited Advanced artificial sound hearing training
ES2639862B1 (es) * 2017-03-31 2018-09-10 Universidad De Málaga Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada
EP3432606A1 (en) * 2018-03-09 2019-01-23 Oticon A/s Hearing aid system
US10916250B2 (en) 2018-06-01 2021-02-09 Sony Corporation Duplicate speech to text display for the deaf
US10916159B2 (en) 2018-06-01 2021-02-09 Sony Corporation Speech translation and recognition for the deaf
CN110634189B (zh) 2018-06-25 2023-11-07 苹果公司 用于在沉浸式混合现实体验期间用户警报的系统和方法
US10791404B1 (en) * 2018-08-13 2020-09-29 Michael B. Lasky Assisted hearing aid with synthetic substitution
WO2020046098A1 (es) * 2018-08-28 2020-03-05 Aragon Han Daniel Sistema y dispositivo inalámbrico y ponible para registro, procesamiento y reproducción de sonidos en personas con distrofia en el sistema respiratorio
EP3834200A4 (en) 2018-09-12 2021-08-25 Shenzhen Voxtech Co., Ltd. SIGNAL PROCESSING DEVICE INCLUDING MULTIPLE ELECTROACOUSTIC TRANSDUCERS
JP7044027B2 (ja) * 2018-10-15 2022-03-30 トヨタ自動車株式会社 車両
US10902219B2 (en) * 2018-11-21 2021-01-26 Accenture Global Solutions Limited Natural language processing based sign language generation
CN109725732B (zh) * 2019-01-23 2022-03-25 广东小天才科技有限公司 一种知识点的查询方法及家教设备
WO2020174356A1 (en) * 2019-02-25 2020-09-03 Technologies Of Voice Interface Ltd Speech interpretation device and system
CN110322887B (zh) * 2019-04-28 2021-10-15 武汉大晟极科技有限公司 一种多类型音频信号能量特征提取方法
EP3737115A1 (en) * 2019-05-06 2020-11-11 GN Hearing A/S A hearing apparatus with bone conduction sensor
US11488583B2 (en) * 2019-05-30 2022-11-01 Cirrus Logic, Inc. Detection of speech
US10997970B1 (en) * 2019-07-30 2021-05-04 Abbas Rafii Methods and systems implementing language-trainable computer-assisted hearing aids
CN111050266B (zh) * 2019-12-20 2021-07-30 朱凤邹 一种基于耳机检测动作进行功能控制的方法及系统
US11189265B2 (en) * 2020-01-21 2021-11-30 Ria Sinha Systems and methods for assisting the hearing-impaired using machine learning for ambient sound analysis and alerts
CN113658596A (zh) * 2020-04-29 2021-11-16 扬智科技股份有限公司 语意辨识方法与语意辨识装置
US11475226B2 (en) 2020-09-21 2022-10-18 International Business Machines Corporation Real-time optimized translation
US20220180886A1 (en) * 2020-12-08 2022-06-09 Fuliang Weng Methods for clear call under noisy conditions
US11783813B1 (en) 2021-05-02 2023-10-10 Abbas Rafii Methods and systems for improving word discrimination with phonologically-trained machine learning models
TWI780738B (zh) * 2021-05-28 2022-10-11 宇康生科股份有限公司 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置
US20230139394A1 (en) * 2021-10-28 2023-05-04 Austin Speech Labs, LLC Eeg based speech prosthetic for stroke survivors

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61264882A (ja) * 1985-05-18 1986-11-22 Masaaki Kuwabara 不特定話者の音声入力装置を用いたtv・及モニタ−デイスプレイにおける字幕ス−パ−文字表示システムに関する方法
JPS61273100A (ja) * 1985-05-23 1986-12-03 ブリストル−マイヤ−ズ・コンパニ− 補聴器
WO1991003913A1 (en) * 1989-09-08 1991-03-21 Cochlear Pty. Limited Multi-peak speech processor
JPH10290498A (ja) * 1998-04-27 1998-10-27 Yamaha Corp 話速変換機能を有する補聴器

Family Cites Families (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US3882285A (en) 1973-10-09 1975-05-06 Vicon Instr Company Implantable hearing aid and method of improving hearing
JPS5155604A (en) 1974-11-11 1976-05-15 Fujitsu Ltd Gengopponyakusochi
US4063048A (en) 1977-03-16 1977-12-13 Kissiah Jr Adam M Implantable electronic hearing aid
US4284846A (en) * 1978-05-08 1981-08-18 John Marley System and method for sound recognition
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
US4972486A (en) 1980-10-17 1990-11-20 Research Triangle Institute Method and apparatus for automatic cuing
SE428167B (sv) 1981-04-16 1983-06-06 Mangold Stephan Programmerbar signalbehandlingsanordning, huvudsakligen avsedd for personer med nedsatt horsel
JPS5862738A (ja) * 1981-10-12 1983-04-14 Hitachi Ltd メツセ−ジ発声装置
JPS5889260A (ja) 1981-11-24 1983-05-27 リオン株式会社 人工聴覚装置
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
US4545065A (en) * 1982-04-28 1985-10-01 Xsi General Partnership Extrema coding signal processing method and apparatus
AU562749B2 (en) 1982-08-20 1987-06-18 University Of Melbourne, The Hearing prosthesis
US4628528A (en) 1982-09-29 1986-12-09 Bose Corporation Pressure wave transducing
US4532930A (en) 1983-04-11 1985-08-06 Commonwealth Of Australia, Dept. Of Science & Technology Cochlear implant system for an auditory prosthesis
JPS60143100A (ja) 1983-12-29 1985-07-29 Matsushita Electric Ind Co Ltd 補聴器
DE3420244A1 (de) 1984-05-30 1985-12-05 Hortmann GmbH, 7449 Neckartenzlingen Mehrfrequenz-uebertragungssystem fuer implantierte hoerprothesen
AU569636B2 (en) 1984-09-07 1988-02-11 University Of Melbourne, The Bipolar paired pulse supplied prosthetic device
JPS61114472A (ja) 1984-11-07 1986-06-02 Sanyo Electric Co Ltd 水素吸蔵電極
US4593696A (en) 1985-01-17 1986-06-10 Hochmair Ingeborg Auditory stimulation using CW and pulsed signals
DE3508830A1 (de) 1985-03-13 1986-09-18 Robert Bosch Gmbh, 7000 Stuttgart Hoergeraet
US4592359A (en) 1985-04-02 1986-06-03 The Board Of Trustees Of The Leland Stanford Junior University Multi-channel implantable neural stimulator
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
JPS62224349A (ja) 1986-03-27 1987-10-02 三輪 敬之 人工中耳
JPS62231981A (ja) 1986-04-01 1987-10-12 株式会社ジャパンアート 聴力障害者の為の画像表現方法
JPH0763494B2 (ja) 1986-05-21 1995-07-12 ゾームド―トリース,インコーポレイティド 埋め込み可能な電磁中耳骨伝導型補聴器
JPS63249560A (ja) 1987-04-02 1988-10-17 日本電気エンジニアリング株式会社 ろうあ者向眼鏡組込型音声検知装置
JPS63288552A (ja) 1987-05-20 1988-11-25 Nec Corp 自動翻訳電話方式
JPS6447800U (ja) * 1987-09-18 1989-03-24
JPS6488875A (en) 1987-09-30 1989-04-03 Toshiba Corp Voice translation device
US4821326A (en) * 1987-11-16 1989-04-11 Macrowave Technology Corporation Non-audible speech generation method and apparatus
JPH0211438A (ja) * 1988-06-27 1990-01-16 Clarion Co Ltd 車外情報読取装置
JPH0214000A (ja) * 1988-07-01 1990-01-18 Hitachi Ltd 音声認識装置
US5085628A (en) 1988-09-09 1992-02-04 Storz Instrument Company Implantable hearing aid coupler device
JP2740866B2 (ja) 1988-10-04 1998-04-15 セイコーエプソン株式会社 電子機器
JPH0335296A (ja) 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JPH04502876A (ja) 1989-09-08 1992-05-28 コックリヤ、プロプライエタリ、リミテッド 多ピーク音声プロセッサー
JPH0475098A (ja) * 1990-07-17 1992-03-10 Sharp Corp 音声認識装置
ATE116091T1 (de) 1990-10-12 1995-01-15 Siemens Audiologische Technik Hörgerät mit einem datenspeicher.
US5176620A (en) 1990-10-17 1993-01-05 Samuel Gilman Hearing aid having a liquid transmission means communicative with the cochlea and method of use thereof
JPH04156033A (ja) 1990-10-19 1992-05-28 Nippon Telegr & Teleph Corp <Ntt> 電話回線接続機能付き難聴者無線会話装置
JPH04249990A (ja) 1991-01-05 1992-09-04 Toshiba Corp 画像信号処理装置
JP2532007B2 (ja) 1991-05-25 1996-09-11 リオン株式会社 補聴器フイツテイング装置
GB2256959A (en) * 1991-06-21 1992-12-23 Glyn * Wallace Nigel Speech recognition device
JP3308567B2 (ja) 1991-08-23 2002-07-29 株式会社日立製作所 ディジタル音声処理装置及びディジタル音声処理方法
US5283833A (en) 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
JPH0583763A (ja) 1991-09-24 1993-04-02 Hitachi Ltd ホームコントローラ
JPH0642760A (ja) 1992-07-28 1994-02-18 Toppan Printing Co Ltd オーブン電子レンジのドアパネル構造体
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JPH05181493A (ja) 1991-12-27 1993-07-23 Toshiba Corp 音声認識装置
JP3289304B2 (ja) * 1992-03-10 2002-06-04 株式会社日立製作所 手話変換装置および方法
JPH05289608A (ja) 1992-04-10 1993-11-05 Sanyo Electric Works Ltd ろうあ者用会話補助装置及び翻訳用会話補助装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5326349A (en) * 1992-07-09 1994-07-05 Baraff David R Artificial larynx
US5377302A (en) * 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
JP3435175B2 (ja) * 1992-09-03 2003-08-11 株式会社日立製作所 手話学習装置
US5393236A (en) * 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
JP3068370B2 (ja) 1993-06-21 2000-07-24 株式会社東芝 携帯用音声認識出力補助装置
JP2780603B2 (ja) 1993-08-09 1998-07-30 三菱電機株式会社 マンコンベアの欄干照明装置
JPH0784592A (ja) * 1993-09-14 1995-03-31 Fujitsu Ltd 音声認識装置
DE69423838T2 (de) * 1993-09-23 2000-08-03 Xerox Corp Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
JPH07163614A (ja) 1993-12-10 1995-06-27 Katsuya Ito 盲人用点画表示装置
JPH07168851A (ja) * 1993-12-16 1995-07-04 Canon Inc 画像表示方法及び装置
JP3455921B2 (ja) 1993-12-24 2003-10-14 日本電信電話株式会社 発声代行装置
JPH07191599A (ja) 1993-12-27 1995-07-28 Matsushita Electric Ind Co Ltd 映像機器
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH07327213A (ja) 1994-05-31 1995-12-12 Hitachi Ltd テレビ電話装置
DE4419901C2 (de) * 1994-06-07 2000-09-14 Siemens Audiologische Technik Hörhilfegerät
US5825894A (en) * 1994-08-17 1998-10-20 Decibel Instruments, Inc. Spatialization for hearing evaluation
JPH0865647A (ja) 1994-08-22 1996-03-08 Toshiba Corp 携帯テレビ電話装置
JP3334353B2 (ja) 1994-09-02 2002-10-15 ソニー株式会社 聴覚補助装置
AUPM883794A0 (en) 1994-10-17 1994-11-10 University Of Melbourne, The Multiple pulse stimulation
EP0797822B1 (en) * 1994-12-08 2002-05-22 The Regents of the University of California Method and device for enhancing the recognition of speech among speech-impaired individuals
JPH08212228A (ja) 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH09116648A (ja) * 1995-10-20 1997-05-02 Meidensha Corp 携帯用通信装置
JP2982672B2 (ja) 1995-12-22 1999-11-29 日本電気株式会社 受信機とともに用いる外部機器、補聴器及び補聴システム
JPH09192164A (ja) 1996-01-23 1997-07-29 Topcon Corp 弱視者用眼鏡装置
JPH09206329A (ja) * 1996-01-31 1997-08-12 Sony Corp 聴力補助装置
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
JPH09292971A (ja) 1996-04-26 1997-11-11 Sony Corp 翻訳装置
US5983176A (en) * 1996-05-24 1999-11-09 Magnifi, Inc. Evaluation of media content in media files
US5794187A (en) * 1996-07-16 1998-08-11 Audiological Engineering Corporation Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information
CA2212131A1 (en) 1996-08-07 1998-02-07 Beltone Electronics Corporation Digital hearing aid system
US5812977A (en) * 1996-08-13 1998-09-22 Applied Voice Recognition L.P. Voice control computer interface enabling implementation of common subroutines
US6240392B1 (en) * 1996-08-29 2001-05-29 Hanan Butnaru Communication device and method for deaf and mute persons
JPH10108152A (ja) 1996-09-27 1998-04-24 Sanyo Electric Co Ltd 携帯情報端末
JPH10123450A (ja) * 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
US6154723A (en) * 1996-12-06 2000-11-28 The Board Of Trustees Of The University Of Illinois Virtual reality 3D interface system for data creation, viewing and editing
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
JPH10224520A (ja) 1997-02-10 1998-08-21 Meidensha Corp マルチメディア公衆電話システム
JPH10228367A (ja) 1997-02-14 1998-08-25 Omron Corp データ伝送端末
US6256046B1 (en) 1997-04-18 2001-07-03 Compaq Computer Corporation Method and apparatus for visual sensing of humans for active public interfaces
DE19721982C2 (de) * 1997-05-26 2001-08-02 Siemens Audiologische Technik Kommunikationssystem für Benutzer einer tragbaren Hörhilfe
JPH113369A (ja) * 1997-06-12 1999-01-06 Mitsubishi Electric Corp バリアフリー分散仮想現実システム
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6463412B1 (en) * 1999-12-16 2002-10-08 International Business Machines Corporation High performance voice transformation apparatus and method
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US6453294B1 (en) * 2000-05-31 2002-09-17 International Business Machines Corporation Dynamic destination-determined multimedia avatars for interactive on-line communications
JP2003044497A (ja) * 2001-07-31 2003-02-14 Mikio Numata モバイル図鑑

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61264882A (ja) * 1985-05-18 1986-11-22 Masaaki Kuwabara 不特定話者の音声入力装置を用いたtv・及モニタ−デイスプレイにおける字幕ス−パ−文字表示システムに関する方法
JPS61273100A (ja) * 1985-05-23 1986-12-03 ブリストル−マイヤ−ズ・コンパニ− 補聴器
WO1991003913A1 (en) * 1989-09-08 1991-03-21 Cochlear Pty. Limited Multi-peak speech processor
JPH10290498A (ja) * 1998-04-27 1998-10-27 Yamaha Corp 話速変換機能を有する補聴器

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117484A (ja) * 2003-10-09 2005-04-28 Katsuro Aoki 人工喉頭使用者用拡声装置
JP2005304014A (ja) * 2004-03-26 2005-10-27 Mitsubishi Electric Research Laboratories Inc 音情報を伝搬する方法及びシステム
JP5521554B2 (ja) * 2008-02-19 2014-06-18 日本電気株式会社 テキスト変換装置、方法、プログラム
KR20130124573A (ko) * 2011-02-23 2013-11-14 퀄컴 인코포레이티드 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
KR101606966B1 (ko) * 2011-02-23 2016-03-28 퀄컴 인코포레이티드 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
JP2012205147A (ja) * 2011-03-25 2012-10-22 Kyocera Corp 携帯電子機器および音声制御システム
WO2015019835A1 (ja) * 2013-08-08 2015-02-12 国立大学法人奈良先端科学技術大学院大学 電気式人工喉頭装置
JP7358919B2 (ja) 2019-11-07 2023-10-11 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム
KR102448000B1 (ko) * 2021-09-08 2022-09-28 이은교육 주식회사 진동 및 시각 데이터를 활용한 청각 장애인 음악 교육 장치, 방법 및 프로그램
KR102481267B1 (ko) * 2021-09-08 2022-12-27 이은교육 주식회사 선택곡 보정 기능을 지원하는 청각 장애인 음악 교육 장치, 방법 및 프로그램
KR102481261B1 (ko) * 2021-09-08 2022-12-27 이은교육 주식회사 추천곡 학습 기능을 지원하는 청각 장애인 음악 교육 장치, 방법 및 프로그램

Also Published As

Publication number Publication date
AU2571900A (en) 2000-09-04
EP1083769B1 (en) 2010-06-09
EP1083769A1 (en) 2001-03-14
ATE471039T1 (de) 2010-06-15
DE60044521D1 (de) 2010-07-22
EP1083769A4 (en) 2007-05-30
JP4439740B2 (ja) 2010-03-24
CA2328953A1 (en) 2000-08-24
US7676372B1 (en) 2010-03-09

Similar Documents

Publication Publication Date Title
JP4439740B2 (ja) 音声変換装置及び方法
JP3670180B2 (ja) 補聴器
Nakajima et al. Non-audible murmur (NAM) recognition
KR100619215B1 (ko) 마이크로폰, 커뮤니케이션 인터페이스 시스템
US11068668B2 (en) Natural language translation in augmented reality(AR)
CN108702580A (zh) 具有自动语音转录的听力辅助
US5826234A (en) Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements
US20100131268A1 (en) Voice-estimation interface and communication system
WO2004049312A1 (en) Method and apparatus for providing an animated display with translated speech
US11528568B1 (en) Assisted hearing aid with synthetic substitution
EP4085655A1 (en) Hearing aid systems and methods
Freitas et al. An introduction to silent speech interfaces
Priya et al. Indian and english language to sign language translator-an automated portable two way communicator for bridging normal and deprived ones
WO2021149441A1 (ja) 情報処理装置および情報処理方法
WO2017029850A1 (ja) 情報処理装置、情報処理方法およびプログラム
Ifukube Sound-based assistive technology
Williams Auditory virtual environments
CN115705841A (zh) 使用加速度计感测骨传导的语音识别
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Virkkunen Automatic speech recognition for the hearing impaired in an augmented reality application
Beskow et al. Visualization of speech and audio for hearing impaired persons
CN116095548A (zh) 一种交互耳机及其系统
SE511927C2 (sv) Förbättringar i, eller med avseende på, visuell talsyntes
Hennecke Audio-visual speech recognition: preprocessing, learning and sensory integration
Edwards Researchers Push Speech Recognition Toward the Mainstream [Special Reports]

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AL AM AT AU AZ BA BB BG BR BY CA CH CN CR CU CZ DE DK DM EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 25719/00

Country of ref document: AU

ENP Entry into the national phase

Ref document number: 2328953

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2000903984

Country of ref document: EP

Ref document number: 09673360

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2000903984

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642