WO2000041853A1 - Robot, unite principale de robot et unite de couplage de robot - Google Patents

Robot, unite principale de robot et unite de couplage de robot Download PDF

Info

Publication number
WO2000041853A1
WO2000041853A1 PCT/JP2000/000196 JP0000196W WO0041853A1 WO 2000041853 A1 WO2000041853 A1 WO 2000041853A1 JP 0000196 W JP0000196 W JP 0000196W WO 0041853 A1 WO0041853 A1 WO 0041853A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
learning data
data
input information
robot device
Prior art date
Application number
PCT/JP2000/000196
Other languages
English (en)
French (fr)
Inventor
Seiichi Takamura
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to KR1020007010293A priority Critical patent/KR20010041969A/ko
Priority to EP00900430A priority patent/EP1103352A1/en
Publication of WO2000041853A1 publication Critical patent/WO2000041853A1/ja

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/08Programme-controlled manipulators characterised by modular constructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Manipulator (AREA)

Description

明 細 書 ロボット装置、 ロボッ ト装置の本体ュニッ ト及びロボッ ト装置の結合ュニット 技術分野
本発明はロボッ ト装置、 ロボッ ト装置の本体ュニッ ト及びロボッ ト装置の結合 ュニッ 卜に関し、 例えば外部からの情報を基に自分で行動を決定する自律型ロボ ッ ト装置に適用して好適なものである。 背景技術
近年、 外部の制御装置から供給される指示信号や、 所定位置に取り付けられた センサから入力される周囲の画像情報に基づいて、 自分自身で動作を決定する自 律型ロボッ ト装置が提案されている。 この自律型ロボッ ト装置は、 制御装置から 指示信号及びセンサから画像情報が入力されると、 最初はランダムに動作するが 、 このような動作を順次繰り返すことによって、 入力された指示信号及び画像情 報に適した動作を徐々に行うようになされている。
すなわち自律型ロボッ ト装置は、 制御装置から指示信号及びセンサから画像情 報が入力され、 ランダムに動作を行うと、 その入力された指示信号及び画像情報 と、 当該ロボッ ト装置が行った動作の内容を示す動作情報とを、 学習データとし て内部の記憶手段に順次記憶していく。 その後、 自律型ロボッ ト装置は、 記憶手 段に記憶されている過去に入力された指示信号と同一の指示信号が入力されて動 作を行った場合には、 記憶手段に記憶されている過去の学習データと今回の学習 データとを所定のパラメ一タに基づいてそれぞれ評価する。
その結果、 自律型ロボッ ト装置は、 今回の学習データが過去の学習データに比 して評価が高いと判断した場合には、 過去の学習データを記憶手段から削除して 今回の学習データを新たに記憶する一方、 過去の学習データが今回の学習データ に比して評価が高いと判断した場合には、 過去の学習データを記憶手段に残した ままにして今回の学習データを破棄する。 このように自律型ロボット装置は、 徐 々に学習データを記憶手段に書き込んで蓄積していくことにより、 外部から与え られる命令に応じて自律的に動作を決定する能力を獲得する。 その際、 自律型口 ボッ ト装置は、 学習データを記憶する方式として、 当該学習データを単一の記憶 手段に記憶して管理する集中管理方式を採用している。
ところでこのような自律型ロボッ ト装置としては、 各ュニッ トの取り外しを必 要としない一体型のものが存在するが、 最近では複数のュニッ トからなるものが 考えられている。 この複数のユニッ トからなるロボット装置としては、 例えば動 物の頭に相当する頭部ュニッ トと、 胴体に相当する本体部ュニッ 卜と、 足に相当 するマニピュレータ部ュニットとを連結することによって構築されるものが提案 されている。
実際上、 複数のュニットからなるロボッ ト装置は、 複数の頭部ュニッ トでなる 頭部ュニッ ト群、 複数の本体部ュニッ トでなる本体部ュニッ ト群、 複数のマニピ ュレータ部ュニッ トでなるマニピュレータ部ュニッ ト群から、 それぞれ所望のュ ニットを選択して組み合わせることによって構築されている。 この状態において 、 ロボッ ト装置は、 例えば頭部ユニッ トを交換する必要が生じた場合、 頭部ュニ ッ ト群から所望の頭部ュニッ トを選択し、 現在連結されている頭部ュニットを頭 部ュニッ ト群から選択された他の頭部ュニッ トと交換することにより、 ュニッ ト の組合せを変更し得るようになされている。
ところで複数のュニットからなるロボッ ト装置においては、 学習データを記憶 する方式として集中管理方式を採用した場合、 当該学習データを例えば本体部ュ ニットの記憶手段に記憶して管理するようになされている。 このようなロボッ ト 装置では、 自律的に行動できる程度の学習データを獲得した後、 例えばマ-ピュ レータ部ュニッ トを機能の異なる他のマユピュレータ部ュニッ トと交換した場合 、 交換後の他のマニピュレータ部ュニットの機能を十分に発揮させるような学習 データが本体ュニッ トの記憶手段に記憶されていることはあり得ない。 そのとき ロボッ ト装置は、 交換後のマニピュレータ部ュニッ 卜の学習データを最初から新 たに獲得しなければならず、 学習データを獲得するのに手間や時間がかかる問題 があった。 発明の開示
本発明は以上の点を考慮してなされたもので、 従来に比して一段と使い勝手を 向上し得るロボッ ト装置を提案しょうとするものである。
かかる課題を解決するため本発明においては、 複数種類存在する結合ュニッ ト のうち所望の結合ュニットを組み合わせて結合させることによって構築され、 外 部から入力される入力情報を基に所定の動作を自律的に行うロボッ ト装置におい て、 結合ユニッ トに内蔵され、 入力情報及び当該入力情報に応じたロボッ ト装置 全体の動作履歴のうち、 入力情報及び当該入力情報に応じた結合ュニッ ト自体の 動作履歴を学習データとして記憶する記憶手段を設けるようにした。
入力情報及び当該入力情報に応じたロボット装置全体の動作履歴のうち、 入力 情報及び当該入力情報に応じた結合ュニッ ト自体の動作履歴を学習データとして 記憶手段に記憶することにより、 結合ュニッ トを交換した場合であっても当該交 換した新たな結合ュニッ トの学習データをそのまま用いて結合ュニッ トの動作を 決定することができ、 かく して交換後の新たな結合ュニッ トの学習データを初め から獲得する必要がない分、 学習データの獲得にかかる手間や時問を短縮するこ とができる。 かくするにっき結合ュニッ トを交換した場合であっても当該交換し た新たな結合ュニッ トの学習データをそのまま用いて結合ュニッ トの動作を決定 することができ、 かく して従来に比して一段と使い勝手を向上し得るロボッ ト装 置を実現し得る。
また本発明においては、 複数種類存在する結合ュニッ トのうち所望の結合ュニ ッ トを組み合わせて結合させることによって構築され、 外部から与えられる入力 情報に基づいて所定の動作を行うロボッ ト装置において、 外部から与えられた入 力情報に基づいて結合ュニットの組合せに応じた動作を行う動作制御手段と、 結 合ユニッ トの組合せと入力情報に基づく動作制御手段の動作履歴とを組合せ学習 データとして記憶する記憶手段と、 記憶手段から必要に応じて組合せ学習データ を読み出して外部に出力する出力手段とを設けるようにした。
結合ュニッ トの組合せと入力情報に基づく動作制御手段の動作履歴とを組合せ 学習データとして記憶手段に記憶し、 当該記憶手段から必要に応じて組合せ学習 データを読み出して出力手段を介して外部に出力することにより、 ユーザは所望 の動作を実行させるのに適した組合せを容易に判断することができる。 かくする にっき従来に比して一段と使い勝手を向上し得るロボッ ト装置を実現し得る。 図面の簡単な説明
図 1は、 本発明によるロボット装置の一実施の形態を示す略線図である。 図 2は、 ロボッ ト装置を構成する各ュニットのュニット群を示す略線図である 図 3は、 第 1の実施の形態によるロボット装置の回路構成を示すプロック図で ある。
図 4は、 第 1の実施の形態における学習データの融合手順を示すフローチヤ一 トである。
図 5は、 組合せ学習データ生成手順を示すフローチヤ一トである。
図 6は、 第 2の実施の形態によるロボッ ト装置の回路構成を示すブロック図で ある。
図 7は、 各ュニッ トの記憶部に格納されている各種テ一ブルの説明に供する概 念図である。
図 8は、 状態変换テーブルの説明に供する概念図である。
図 9は、 行動決定テーブル及び評価値テーブルを示す概念図である。
図 1 0は、 行動変換テーブルの説明に供する概念図である。
図 1 1は、 第 2の実施の形態における本体部ユニットの C P Uの処理の説明に 供するブロック図である。
図 1 2は、 第 2の実施の形態における学習データの融合処理手順の説明に供す るフローチヤ一トである。 発明を実施のするための最良の形態
以下図面について、 本発明の一実施の形態を詳述する。
( 1 ) 第 1の実施の形態
( 1 一 1 ) ロボッ ト装置の構成
図 1において、 1は全体としてロボット装置を示し、 動物の頭に相当する頭部 ユニッ ト 2 Aと、 胴体に相当する本体部ユニット 3 Aと、 足に相当するマニピュ レ一タ部ュニッ ト 4 Aとを連結することによって構築され、 自律的に行動を決定 するための学習データを各ュニットに分散して管理している。
このロボッ ト装置 1は、 例えば図 2に示すように、 複数種類の頭部ユニッ ト 2 A〜 2 Cからなる頭部ュニット群 2の中から 1つの頭部ュニッ ト 2 Aを選択し、 複数種類の本体部ュニッ ト 3 A及び 3 Bからなる本体部ュニッ ト群 3の中から ] つの本体部ュニッ ト 3 Aを選択し、 複数種類のマニピュレータ部ュニッ ト 4 A〜 4 Dからなるマニピュレータ部ュ二ッ ト群 4の中から 1つのマニピュレータ部ュ ニッ ト 4 Aを選択して所定状態に連結することによって構築される。
そしてこのロボッ ト装置 1においては、 マニピュレータ部ュ二ット 4 Aを交換 する必要が生じた場合、 マニピュレータ部ュュッ ト群 4から例えばマニピユレ一 タ部ュニッ ト 4 Cを選択して、 現在連結されているマニピュレータ部ュニッ ト 4 Aと交換することにより、 ュニッ トの組合せを変更し得るようになされている。 ところでマニピュレータ部ュニッ ト 4 Aは、 小刻みに走る機能を有するュニッ トである一方、 マニピュレータ部ユニット 4 Cは、 目的物をつかむ機能を有する ユニッ トであり、 各ユニッ トで獲得される学習データは、 それぞれの機能を発揮 させるようなデータによって形成されている。 従ってロボッ ト装置 1では、 マ二 ピュレータ部ュニッ ト 4 Aがマユピュレータ部ュ二ット 4 Cに交換された後は、 マニピュレータ部ュ二ッ ト 4 Aで獲得した学習データをマニピュレータ部ュ二ッ ト 4 Cに適用しても、 当該マニピュレータ部ュニッ ト 4 Cの機能を十分発揮させ ることができない。 これによりロボッ ト装置 1では、 ユニッ トの交換を行っても 交換したュニットの機能が十分に発揮できるように、 学習データを各ュニット毎 に分散して管理するようになされている。
(1— 2) ロボッ ト装置の回路構成
続いてロボッ ト装置 1の回路構成を図 3に示す。 本体部ユニッ ト 3は、 まずュ 一ザが所望の音声を発することにより目標行動を与えると、 当該音声をマイク 1 0によって集音し、 その結果得た音声信号 S 1を信号処理部 1 1に入力する。 信 号処理部 1 1は、 この音声信号 S 1に所定のデータ処理を施し、 かく して得られ た上述の目標行動に応じた目標行動データ S 2を動作制御手段としての CPU (C e n t r a l P r o c e s s i n g Un i t ) 1 2に送出する。
本体部ュニッ ト 2は、 その周囲の状況を C CD (Ch a r g e C o up l e d D e v i c e ) カメラでなるセンサ 1 5によって撮像し、 かく して 得られた画像データでなる観測データ S 3をバスの管理を行うシリアルバスホス トコントローラ 1 6を介して CPU 1 2に送出する。 その際、 頭部ュニッ ト 2は 、 CCDカメラでなるセンサ 20を介して得られる画像データでなる観測データ S 1 0をハブ 2 1を介して本体部ュニッ ト 3に送出すると共に C PU 22に送出 する。 そして本体部ユニッ ト 3は、 この観測データ S 1 0をハブ 25及びシリア ルバスホストコントローラ 1 6を順次介して C P U 1 2に入力する。
同様にマニピュレータ部ユニッ ト 4は、 CCDカメラ、 ポテンショメータ、 セ ンサ等からなるセンサ 28を介して得られた観測データ S 1 3をハブ 29を介し て本体部ュニッ ト 3に送出すると共に C PU 30に送出し、 当該本体部ュニッ ト 3のハブ 25及びシリアルバスホス トコントローラ 1 6を順次介して CPU 1 2 に送出する。
また C PU 1 2は、 目標行動データ S 2が入力されると、 まずロボッ ト装置 1 全体を動作させるための駆動信号 S 1 5を生成した後、 この駆動信号 S 1 5を基 に本体部ュニッ ト 3を駆動させるための本体部駆動信号 S 1 6を生成し、 これを シリアルバスホス トコントローラ 1 6を介してァクチユエータ 3 2に送出するこ とにより、 当該ァクチユエータ 3 2を駆動して例えば尻尾を振るような動作を本 体部ュニッ ト 3に行わせる。 これと共に C P U 1 2は、 駆動信号 S 1 5をシリア ルバスホス トコントローラ 1 6及びハブ 2 5を順次介して頭部ュ-ッ ト 2及びマ ニピュレータ部ュ二ッ ト 4に送出する。
頭部ユニット 2は、 本体部ュニッ ト 3から供給された駆動信号 S 1 5をハブ 2 1を介して C P U 2 2に入力する。 C P U 2 2は、 この駆動信号 S 1 5を基に頭 部ユニット 2を駆動させるための頭部駆動信号 S 1 7を生成し、 これをハブ 2 1 を介してァクチユエータ 3 6に送出することにより、 当該ァクチユエータ 3 6を 駆動して頭部ュニッ ト 2を動作させる。
同様にマニピュレータ部ュニッ ト 4は、 本体部ュニッ ト 3から供給された駆動 信号 S 1 5をハブ 2 9を介して C P U 3 0に入力する。 C P U 3 0は、 この駆動 信号 S 1 5を基にマニピュレータ部ュ二ット 4を駆動させるためのマニピュレー タ部駆動信号 S 1 8を生成し、 これをハブ 2 9を介してァクチユエータ 4 1に送 出することにより、 当該ァクチユエータ 4 1を駆動してマニピュレータ部ュニッ ト 4を動作させる。
その際、 本体部ュニット 3の C P U 1 2は、 マイク 1 0を介して入力された目 標行動データ S 2と、 センサ 1 5を介して入力された観測データ S 3と、 当該本 体部ュニット 3を駆動させるための本体部駆動信号 S 1 6とを学習データ S 2 0 として記憶部 4 5に記憶する。
ところで C P U 1 2は、 目標行動データ S 2をシリアルバスホストコントロー ラ 1 6及びハブ 2 5を順次介して頭部ュニッ ト 2及びマニピュレータ部ュニッ ト 4に送出するようになされている。 従って頭部ユニッ ト 2の C P U 3 5は、 本体 部ュニット 3から目標行動データ S 2が供給されると、 当該目標行動データ S 2 と、 センサ 2 0を介して入力された観測データ S 1 0と、 当該頭部ュニッ ト 2を 駆動させるための頭部駆動信号 S 1 7とを学習データ S 2 2として記憶部 4 7に 記 、す。
またマニピュレータ部ュニッ ト 4の C P U 3 0は、 本体部ュニット 3から目標 行動データ S 2が供給されると、 当該目標行動データ S 2と、 センサ 2 8を介し て入力された観測デ一タ S 1 3と、 当該マニピュレータ部ュニッ ト 4を駆動させ るためのマニピュレ一タ部駆動信号 S 1 8とを学習データ S 2 4として記憶部 4 9に記憶する。
ロボット装置 1は、 上述のような動作を順次繰り返すことにより学習データを 各ユニットの記憶部 4 5、 4 7及び 4 9に記憶させていく。 その後、 本体部ュニ ッ ト 3の C P U 1 2は、 記憶部 4 5に記憶されている目標行動データ S 2と同一 の目標行動データ S 2が入力されて動作を行った場合には、 記憶部 4 5に記憶さ れている過去の学習データ S 2 0と今回の新たな学習データ S 2 0とを所定の基 準に基づいてそれぞれ評価する。
その結果、 本体部ユニット 3の C P U 1 2は、 今回の学習データ S 2 0が過去 の学習データ S 2 0に比して評価が高いと判断した場合には、 過去の学習データ S 2 0を記憶部 4 5から削除して今回の学習データ S 2 0を新たに記憶する一方 、 過去の学習データ S 2 0が今回の学習データ S 2 0に比して評価が高い場合に は、 過去の学習データ S 2 0を記憶部 4 5に残して今回獲得した学習データ S 2 0を破棄する。
同様に頭部ュニッ ト 2の C P U 2 2は、 記憶部 4 7に記憶されている学習デ一 タ S 2 2を更新して当該学習データ S 2 2を蓄積していく と共に、 マニピュレー タ部ュニッ ト 4は、 記憶部 4 9に記憶されている学習データ S 2 4を更新して当 該学習データ S 2 4を蓄積していく。
このようにロボッ ト装置 1は、 学習データを徐々に獲得していくことにより、 外部から与えられる命令に適した動作を決定する能力を獲得し、 当該獲得した学 習データを管理する方式として、 各ュニッ ト毎に分散して管理するォブジェク ト 指向型学習を採用している。
( 1 - 3 ) 学習データの融合
ところで上述の動作を繰り返すことによつて獲得された学習データが記憶され ているマニピュレータ部ユニット 4 A及び 4 C (図 2 ) において、 マニピユレ一 タ部ュニッ ト 4 Aに記憶されている学習データとマニピュレータ部ュニッ ト 4 C に記憶されている学習データとを基に新たな学習データを生成 (以下、 これを融 合と呼ぶ) し、 当該融合された学習データをマニピュレータ部ユニット 4 Cに記 憶する場合について説明する。
まずユーザがマニピュレータ部ュニッ ト 4 Aを本体部ュニッ ト 2 Aに連結する と、 マニピュレータ部ユニッ ト 4 Aの C P U 3 0は、 当該マニピュレータ部ュニ ッ ト 4 Aの記憶部 4 9から学習データ S 2 4を読み出し、 これをハブ 2 9並びに 本体部ュニット 3 Aのハブ 2 5及びシリアルバスホストコントローラ 1 6を順次 介して記憶部 4 5に転送して記憶する。
その後ユーザは、 マニピュレ一タ部ュ二ッ ト 4 Aを本体部ュニット 2 Aから取 り外し、 マニピュレータ部ュニッ ト 4 Cを新たに本体部ュニッ ト 2 Aに連結する 。 これを受けてマニピュレータ部ユニッ ト 4 Cの C P U 3 0は、 当該マユピユレ ータ部ュニッ ト 4 Cの記憶部 4 9から学習データ S 2 4を読み出し、 これをハブ 2 9並びに本体部ュニッ ト 3 Aのハブ 2 5及びシリアルバスホス トコントロ一ラ 1 6を順次介して記憶部 4 5に転送して記憶する。
本体部ュニット 3 Aの学習データ融合手段としての C P U 1 2は、 内部にメモ リなどのワークエリアを有し、 記憶部 4 5からマニピュレータ部ュニット 4 Aの 学習データとマニピュレータ部ュニット 4 Cの学習データとを読み出してワーク エリアに転送する。 そして C P U 1 2は、 このワークエリアにおいてマニピユレ ータ部ュニッ ト 4 Aの学習データとマニピュレータ部ュニッ ト 4 Cの学習データ とを融合することにより新たな学習データすなわち融合学習データを生成し、 当 該生成した融合学習データをシリアルバスホストコントローラ 1 6及びハブ 2 5 並びにマニピュレータ部ュ二ッ ト 4 Cのハブ 2 9を順次介して当該マニピュレー タ部ュニッ ト 4 Cの記憶部 4 9に送出して記憶する。
これによりマニピュレータ部ュ二ット 4 Cは、 自分自身で獲得した学習データ に基づく行動能力に加えて、 マニピュレータ部ュニッ ト 4 Aが獲得した学習デー タに基づく行動能力も併せ持つことができ、 学習行動を必要とせず自己の行動能 力を向上させることができる。
(1—4) 学習データのデータフォ一マッ ト
ここで学習データのデータフォーマツ 卜について説明する。 例えばマニピユレ ータ部ュニッ ト 4で獲得された学習データ S 24は、 ユーザによって指示された 目標行動データ S 2を示すコマンドデータ Tと、 センサ 28から入力された観測 データ S 1 3の状態を示すべク トル gと、 ァクチユエータ 4 1に供給するマユピ ュレータ部駆動信号 S 1 8を示すべク トル aとからなり、 (データ T、 べク トル g、 べク トル a) で表されるものとする。
具体的には目標行動データ S 2を示すコマンドデータ Tは、 例えば 「前進」 、 「キック」 、 「ジャンプ」 などを示すデータである。 センサ 28から入力された 観測データ S 1 3の状態を示す状態ベク トル gは、 Gm = { g (1) 、 g (2) 、 g (3) 、 ……、 g (m) } の m次元状態べク トルで表され、 mは観測データ S 1 3の状態の数すなわち特徴量の種類を示している。 ァクチユエータ 4 1に供 給するマニピュレータ部駆動信号 S 1 8を示す行動ベク トル aは、 An = { a ( 1) 、 a (2) 、 a (3) 、 ……、 a (n) } の n次元行動ベク トルで表され、 nはマニピュレ一タ部ュニッ ト 4のモータ数に相当するものである。
続いてマニピュレータ部ユニット 4 Aの学習データを (データ丁ぃ ベク トル 、 ベク トル a ) 、 マニピュレータ部ュ二ッ ト 4 Bの学習データを (データ T 2、 ベク トル g2、 ベク トル a2 ) とし、 これらを融合してマニピュレータ部ュ二 ット 4 Bに記憶する場合について説明する。 この場合、 本体部ユニッ ト 3の C P U 1 2は、 学習データ (データ 、 ベク トル g l、 ベク トル & 1 ) と学習データ (データ T2、 べク トル g2、 べク トノレ a2 ) が同-一の場合には融合処理を行う必 要がなく、 いずれか一方の学習データを融合学習データとして記憶する。
また本体部ュニッ ト 3の CPU 1 2は、 コマンドデータ とコマンドデータ T2 が同一の場合であって、 かつ状態べク トル g l と状態べク トル g2及び又は行 動べク トル a i と行動べク トル a2が異なる場合には、 与えられた命令に基づく行 動に要する時間、 消費電力などをパラメータとする評価関数に基づいてそれぞれ の学習データを評価し、 評価の結果が高い方を融合学習データとして選択して記 憶する一方、 評価の結果が低い方を破棄する。 また本体部ユニッ ト 3の CPU 1 2は、 コマンドデータ とコマンドデータ T2 が異なる場合すなわち目標行動 が異なる場合には、 学習データ (デ一タ Τ1 Λ べク トル gい べク トル 及び (データ T2、 ベク トル g2、 べク トル a2 ) を両方とも融合学習データとして記 憶する。
例えば本体部ュニッ ト 3の C PU 1 2は、 マ-ピュレータ部ュ二ッ ト 4 Aの学 習データ 「シュート行動」 とマニピュレータ部ユニッ ト 4 Bの学習データ 「パス 行動」 とを融合した場合、 融合学習データ 「シュート及びパス行動」 を生成する 。 また本体部ユニッ ト 3の C PU 1 2は、 頭部ユニッ ト 4 Aの学習データ 「A地 点から B地点へのナビゲーシヨン能力」 と頭部ユニッ ト 4 Bの学習データ 「B地 点から C地点へのナビゲ一シヨン能力」 とを融合した場合、 融合学習データ 「A 地点から C地点へのナビゲーシヨン能力」 を生成する。 このように本体部ュニッ ト 3の CPU 1 2は、 各学習データを融合することにより、 各ュニッ トの能力を 向上させる。
(1 - 5) 目標行動に適したュニッ トの組合せの学習処理
ここでは、 与えられた目標行動に適したュニッ トの組合せを決定して組合せ学 習データを生成するいわゆる強化学習処理について説明する。 まずユーザは目標 行動を本体部ュニッ ト 3 Aに与えた後、 例えば頭部ュニット 2 Aと本体部ュニッ ト 3 Aとマニピュレータ部ュ二ット 4 Aとを結合することによりロボット装置 1 (図 1 ) を構築する。
頭部ュニッ ト 2Aの C PU 22は、 記憶部 47から当該頭部ュニッ ト 2 Aを示 すための識別情報 S 30を読み出し、 これをハブ 2 1及び本体部ュニッ ト 3 Aの ハブ 25及びシリアルバスホストコン卜ローラ 1 6を介して CPU 1 2に送出す る。 またマニピュレータ部ユニッ ト 4 Aの C PU 30は、 記憶部 49から当該マ ニピュレータ部ュニッ ト 4 Aを示すための識別情報 S 3 1を読み出し、 これをハ ブ 29及び本体部ュニッ ト 3 Aのハブ 25及びシリアルバスホストコントローラ 1 6を介して C P U 1 2に送出する。
本体部ュニット 3 Aの C P U 1 2は、 記憶部 4 5から当該本体部ュニッ ト 3 A を識別するための識別情報 S 3 5を読み出し、 当該本体部ュニット 3 Aの識別情 報 S 3 5と頭部ュニッ ト 2 Aの識別情報 S 3 0とマニピュレータ部ュニッ ト 4 A の識別情報 S 3 1 とを現在のュニッ トの組合せを示す結合情報として記憶部 4 5 に記憶すると共に、 目標行動データ S 2に基づいて目標を設定した上で行動を実 行する。
その際、 本体部ユニット 3 Aの C P U 1 2は、 設定された目標を基準にして、 実行した行動が成功したか否かを判断する。 その結果、 C P U 1 2は、 実行した 行動が成功したと判断した場合には、 現在の各ュニッ トの組合せが目標行動に適 しているとして、 外部から与えられた目標行動データ S 2を記憶部 4 5に送出し て当該目標行動データ S 2と上述の結合情報とを組合せ学習データとして記憶部 4 5に記憶する。
これに対して C P U 1 2は、 実行した行動が失敗したと判断した場合には、 行 動が失敗したことを示す実行結果信号 S 4 0を生成し、 これを信号処理部 1 1に よって所定のデータ処理を施した後、 液晶ディスプレイでなる出力手段としての 表示部 5 0に送出して所定のメッセ一ジ 「タスクは失敗しました。 ユニッ トを交 換して下さい。 」 を表示する。 ユーザがこの表示に従って例えばマニピュレータ 部ユニッ ト 4 Aの交換を行うと、 本体部ユニッ ト 3 Aの C P U 1 2は、 記憶部 4 5の結合情報 S 3 7を更新して記憶した上で目標行動を再度実行する。 このよう な動作を繰り返すことによりロボッ ト装置は、 ユーザから与えられた目標行動に 適したユニッ トの組合せでなる組合せ学習データを獲得することができる。
( 1 - 6 ) 本体部ュニッ ト 3の C P U 1 2による学習データの融合処理手順及び 組合せ学習データ生成手順
ここで図 4に示すフローチヤ一トを用いて学習データの融合処理手順、 例えば マニピュレータ部ユニッ ト 4 A (図 2 ) の学習データ S 2 4とマニピュレータ部 ユニット 4 B (図 2 ) の学習データ S 2 4との融合処理手順について説明する。 因みに、 他のュニッ ト同士の学習データの融合処理手順についても同様であるの でここでは説明を省略する。
まずステップ S P 1から入ったステップ S P 2において、 本体部ュニッ ト 3 A の C P U 1 2は、 マニピュレータ部ュニット 4 Aが当該本体部ュニッ ト 3 Aに結 合されると、 ハブ 2 5を介してマニピュレ一タ部ュニッ ト 4 Aの記憶部 4 9から から学習データ S 2 4を読み出し、 当該学習データ S 2 4を記憶部 4 5に転送す る。
ステップ S P 3において、 C P U 1 2は、 ユーザがマニピュレータ部ュニッ ト
4 Aを本体部ュニッ ト 3 Aから取り外し、 マユピュレータ部ュニッ ト 4 Bを新た に本体部ュニッ ト 3 Aに取り付けて交換したことを認識し、 次のステップ S P 4 に移る。 これを受けてステップ S P 4において、 本体部ユニッ ト 3 Aの C P U 1 2は、 新しく取り付けられたマ-ピュレータ部ュニッ ト 4 Bの記憶部 4 9から学 習データ S 2 4を読み出して記憶部 4 5に転送した後、 これらマニピュレータ部 ュニッ ト 4 Aの学習データ及びマニピュレータ部ュニット 4 Bの学習データを融 合することにより融合学習データを生成して記憶部 4 5に記憶する。
続くステップ S P 5において、 本体部ユニッ ト 3 Aの C P U 1 2は、 生成した 融合学習データをハブ 2 5を介してマニピュレータ部ュニッ ト 4 Bの記憶部 4 9 に送出することにより、 記憶部 4 9に上書きして記憶する。 ステップ S P 6にお いて、 本体部ユニット 3 Aの C P U 1 2は、 記憶部 4 5に記憶されている融合学 習データを削除した後、 ステップ S P 1に戻って動作を繰り返す。
続いて図 5に示すフローチヤ一トを用いて組合せの学習データ生成手順につい て説明する。 ステップ S P 1 0から入ったステップ S P 1 1において、 本体部ュ ニッ ト 3 Aの C P U 1 2は、 外部から目標行動データ S 2が与えられ、 ステップ
5 P 1 2において、 所望のュニッ ト例えば頭部ュニッ ト 2 Aとマニピュレータ部 ュニッ ト 4 Aとが結合されると、 このときの各ュニッ トの組合せを示す結合情報 を記憶部 4 5に記憶した後、 目標行動データ S 2に基づいて目標を設定した上で 目標行動に応じたタスクを実行する。 ステップ S P 1 3において、 本体部ュニッ ト 3 Aの C P U 1 2は、 設定された 目標を基準にして、 実行したタスクが成功したか否か判断する。 その結果、 本体 部ュニッ ト 3 Aの C P U 1 2は、 タスクが成功したと判断した場合にはステップ S P 1 4に移行し、 タスクが失敗したと判断した場合にはステップ S P 1 5に移 行する。
ステップ S P 1 4において、 本体部ュニット 3 Aの C P U 1 2は、 与えられた 目標行動に対して現在の組合せが適しているとして、 目標行動と上述の結合情報 を組合せ学習データとして記憶部 4 5に記憶する。 これに対してステップ S P 1 5において、 本体部ュニッ ト 3 Aの C P U 1 2は、 表示部 5 0に所定のメッセ一 ジを表示してユーザにユニットの交換を促す。 C P U 1 2は、 ユーザが表示部 5 0の表示に従ってュニッ トの交換を行うと、 ステップ S P 1 2に戻って上述の動 作を繰り返す。
( 1 - 7 ) 本実施の形態の動作及び効果
以上の構成において、 ロボッ ト装置 1は、 ユーザからの命令や周囲の状況に応 じて自律的に行動を決定するための学習データを予め獲得しておき、 当該獲得さ れた学習データを当該ロボッ ト装置 1を構築する各ュニット毎の記憶部に分散し て管理することにより、 ユニッ トの交換をする場合、 交換前のユニッ トで獲得し た学習データと交換後のュニッ トの学習データとを融合させることができ、 これ によりュニッ トを交換した後、 交換前のュニッ トで獲得された学習データに相当 するような学習データを再度初めから獲得する必要がない分、 学習データの獲得 にかかる手間や時間を短縮することができる。
またロボット装置 1は、 ユーザから与えられた目標行動を実行するのに適した ュニッ 卜の組合せを示す組合せ学習データを予め獲得しておき、 ユーザの指示が あつた場合にはその指示が示す目標行動に応じた組合せをユーザに通知すること により、 ュ一ザは所望の行動を達成するのに適したュニッ トの組合せを容易に判 断することができる。
以上の構成によれば、 外部から与えられる情報に応じて自律的に行動を決定す るための学習データを予め獲得しておき、 当該獲得された学習データを各ュニッ ト毎に分散して管理することにより、 交換対象のュニッ トで獲得された学習デー タと別のュニッ トの学習データとを融合させることができ、 かく して学習データ の獲得にかかる時間や手間を短縮して使い勝手の向上したロボッ ト装置 1を実現 し得る。
またユーザから与えられる指示に応じてュニッ トの組合せを決定するための組 合せ学習データを予め獲得しておき、 ユーザの指示があった場合にはその指示に 応じた組合せをユーザに通知することにより、 ユーザは所望の行動を実行させる のに適した組合せを容易に判断することができ、 かく して使い勝手の向上した口 ボット装置 1を実現できる。 ( 2 ) 第 2の実施の形態
( 2 - 1 ) 本実施の形態によるロボッ ト装置の構成
図 2との対応部分に同一符号を付して示す図 6は、 第 2の実施の形態による口 ボッ ト装置 6 0を示し、 本体部ュニッ ト 6 1、 頭部ュニッ ト 6 2及びマユュピレ ータ部ユニッ ト 6 3の各ユニットの記憶部 4 5、 4 7、 4 9内に後述のような各 種テーブルのデータが格納されている点と、 頭部ュニット 6 2及び各マ二ュピレ —タ部ュニッ ト 6 3に C P Uが設けられていない点などを除いて図 1に示すロボ ッ ト装置 1 とほぼ同様に構成されている。
すなわちこのロボッ ト装置の場合、 本体部ユニッ ト 6 1、 頭部ユニット 6 2及 びマニュピレータ部ュ二ッ ト 6 3の各記憶部 6 4〜 6 6には、 それぞれ図 7に示 すように、 状態変換テーブル Ts、 学習データとしての行動決定テーブル T a ( w,s) 、 評価値テーブル Tp(w)及び行動変換テーブル T aの各データが格納されてい る。 .
この場合状態変換テーブル Tsは、 そのユニット内の各センサ 1 5、 2 0、 2 8 から出力される観測データ S 3、 S 1 0、 S 1 3に基づいて例えば 「右前方近傍 にボールがある」 などの予め決められた状態を認識するためのテーブルである。 そしてこの実施の形態の場合には、 図 8に示すように、 そのユニッ ト内のセンサ 数を P個、 決められた状態数を m個として、 各状態 Sj ( j = 1 , 2 m) がそれぞれ次式
i .in "』 ) ≤X, <X, max ( s f )
X2 min ( S j ) ≥ズ2 ヽ 2 min ( S j )
Xp min ( s] ) ≤XP <Xp max ( Sj ) (1 ) と定義されており、 離散化のための (1 ) 式における各状態 s」に対する観測デ一 タの値 X, xpの上限値 (xlmax ( Sj ) xpmax ( S j ) ) 及び下限値 (xlmin ( Sj ) xpmln ( Sj ) ) でなる次式
2 X P Xm …… (2) 個の数値が状態変換テーブル Ts として記憶部の対応する領域内に記述されてい る。 因にこの図 8は、 P= 2の場合であり、 次式
Xl min ( S j ) ≤X, <Xl max (s ,. )
かつ
Xp.in j ) ≤Xp く Xp ( S f ) (3) で与えられる領域 (図 8において斜線を引いた領域) に という状態が対応付 けられていることを表している。
また行動決定テーブル Ta(w,s)は、状態変換テーブル Ts を用いて認識された状態 Sj と、 外部から与えられる目標行動 w, ( i = 1 , 2 1 ) とに応じて出 力すべき行動を決定するためのテーブルであり、 図 9 Aに示すように、 目標行動 データ S 2 (図 6) に基づき得られるユーザが指定した目標行動 に対して、 当該目標行動 w, に応じた複数の行動 ak の中からそのときの状態 s; に応じて それまでの学習により得られた最適な出力すべき 1つの行動 ak (w, , Sj ) (k = 1 , 2, ……, η) が対応付けられて格納されている。
例えば 「右前方近傍にボールがある」 といった状態 s が認識されているとき に、 「前足でボールを蹴れ」 といった目標行動 が与えられた場合、 これに対 する出力行動 a k としては 「右前足でボールを蹴る」 及び 「左前足でボールを蹴 る」 の 2つがあるが、 行動決定テーブル Ta(ws)にはこれらの選択肢のうち、 それ までの後述のような学習により選択された例えば 「右前足でボールを蹴る」 とい う行動 ak (w, , S j ) が 「右前方近傍にボールがある」 といった状態 及び 「前足でボールを蹴れ」 といった目標行動 Wl に対応付けられて格納されている また評価値テーブル Tp(w)は、 図 9 Bに示すように、 行動決定テーブル Ta(w,s)に おいて各目標行動 Wl にそれぞれ対応付けられた行動 a k (WlSj ) について 、 当該行動 a k (Wl , S j ) の成功率や遂行時間等に基づいて算出された評価値 p (w, ) が記述されたテーブルである。
さらに行動変換テーブル Ta は、行動決定テーブル Ta(w を用いて決定された行 動 ak (w, , s] ) をそのユニッ ト内のァクチユエータ 1 5、 20、 2 8に対す る指令値に変換するためのテーブルである。 そしてこの実施の形態の場合には、 図 1 0に示すように、 そのユニッ ト内のァクチユエータ 3 2、 3 6、 4 1の数が q個である場合に次式
(Y, ( ak ) , Y2 (ak ) Υη ( (4) のように各行動 a k (w, , s, ) エータ 3 2、 3 6、 4 1に対 する各指令値 y i (ak ) 〜yq ( ak ) が格納されている。
因にこの図 1 0は、 q = 2の場合であり、 例えば行動 ak (wt , s; ) に対し てそのユニット内の第 1のァクチユエ一タ 3 2、 36、 4 1には y i (ak ) と いう指令値が対応付けられ、第 2のァクチユエータ 3 2、 36、 4 1には yq (a k ) という指令値が対応付けられていることを表している。
またこのロボット装置 60の場合、 これら状態変換テーブル Ts 、 行動決定テ 一ブル Ta(w,s)及び行動変換テーブル Ta のうち、 状態変換テーブル Ts 及び行動変 換テーブル Ta はそのュニッ トの構成に依存し、行動決定テーブル Ta(w,s)はそのュ ニッ 卜の構成に依存しないように形成されている。
そしてロポッ ト装置 60において、 本体部ュニッ ト 6 1の CPU6 7は、 初期 時、 頭部ュニッ ト 6 2の記憶部 6 5及びマニュピレータ部ュ二ッ ト 63の記憶部 6 6にそれぞれ格納された状態変換テーブル Ts 、 行動決定テーブル Ta(ws)、 評価 値テーブル Tp(w)及び行動変換テーブル Ta のデータを読み出し、 これらを本体部 ユニッ ト 6 1の記憶部 64に格納する。
そして CPU 67は、 図 1 1に示すように、 各ュニット (本体部ュニッ ト 6 1 、 頭部ュニッ ト 62及びマニュピレータ部ュニッ ト 63) の各センサ 1 5、 20 、 28から与えられる観測データ S 3、 S 1 0、 S 1 3と、 記憶部 64に格納し た各ユニッ トの状態変換テーブル Ts とに基づいて、 ユニッ トごとにそのュニッ ト内のセンサ 1 5、 20、 28の出力に基づき認識される状態 Sj を常時監視す る。
また C PU 67は、 この後目標行動データ S 2として目標行動 Wl が与えられ ると、 上述のようにして認識したユニッ トごとの各状態 s と、 記憶部 64に格 納した各ユニットの行動決定テーブル Ta(w,s)とに基づいて、 ユニットごとに、 対 応する行動決定テーブル Ta(w,s)において対応付けられた行動 a k (Wl , ) を そのュニッ トの出力行動として決定する。
さらに C PU 67は、 この決定結果と、 対応する行動変換テーブル Ta とに基 づいて、 ユニットごとに、 そのュニッ ト内の各ァクチユエータ 3 2、 36、 4 1 に対する指令値 y i (ak ) 〜yq (ak ) をそれぞれ決定し、 当該決定結果に基 づく駆動信号 S 50〜S 5 2をシリアルバスホストコントローラ 1 6や、 対応す るバス 2 1、 2 9を介して対応するァクチユエータ 3 2、 3 6、 4 1に送出して これを駆動することにより、 各ユニッ トを駆動させる。
一方、 C PU 6 7は、 目標行動データ S 2として目標行動 が与えられた場 合、 上述のような処理に代えて所定の確率で当該目標行動 w, に対応する幾つか の行動 a k の中から行動決定テーブル T a(w_s)に記述されていない 1つの行動 a k を出力行動として決定する。
そして CPU 6 7は、 この決定結果と、 対応する行動変換テ一ブル Ta とに基 づいて、 ユニッ トごとに、 そのユニット内の各ァクチユエータ 3 2、 36、 4 1 に対する指令値 y i (ak ) 〜yq (ak ) をそれぞれ決定し、 当該決定結果に基 づく駆動信号 S 50〜S 52をシリアルバスホス トコントローラ 1 6や、 対応す るバス 2 1、 29を介して対応するァクチユエ一タ 3 2、 3 6、 4 1に送出して これを駆動することにより、 各ユニッ トを駆動させる。
さらに C PU 6 7は、 この後このとき出力した各ュニットの行動 a k について 、 当該行動 ak の成功率や遂行時間等に基づいてこれら行動 ak の評価値 p (w , ) ' をそれぞれ算出する。
そして CPU 6 7は、ュニッ トごとに、この算出した対応する評価値 p (w,、' が対応する評価値テーブル Tp(w>に記述されたその目標行動 の評価値 p (w: ) よりも高い場合にのみ、 对応するュニッ ト内の記憶部 64〜66に格納されてい る行動決定テ一ブル Ta(w,s)の対応する行動 ak (wt , ) をこのとき出力した 行動 ak に書き換え、 かつ当該記憶部 64〜 66に格納されている評価値テープ ル Tp(w)の対応する評価値 p (Wl ) を上述のようにして算出した当該行動 a k に 対応する評価値 P (w, ) ' に書き換える。
このようにしてこのロボッ ト装置 60においては、 行動決定テーブル Ta(ws)に おいてそのときの状態 Sj 及び外部から与えられる目標行動 Wl に対応付けられ た行動 ak (wtSj ) を順次評価値 p (Wl ) の高い行動 ak に変更してゆく ようになされ、 かく して常に最適な行動を行い得るようになされている。
(2 - 2) 本実施の形態における学習データの融合処理手順 次に、 ュニッ トを同じ種類の他のュニットに交換する際に本体部ュニット 6 1 の CPU6 7により行われる交換前のュニットの学習データ (行動決定テーブル Ta(w,s)のデータ) と、 交換後のユニットの学習データ (行動決定テーブルのデー タ) との融合処理について説明する。
なお以下においては、 交換前のュニッ トの行動決定テーブル Ta(ws)及び評価値 テーブル Tp(w)をそれぞれ Ta(ws)A 及び Tp(w)A で表し、 交換後のュニッ トの行動決 定テーブル Ta(w,s)及び評価値テーブル Tp(w)をそれぞれ Ta(w,s)B 及び Tp(w)B で表す ものとする。
この実施の形態の場合、 本体部ュニッ ト 6 1の CPU6 7は、 図 1 2に示す学 習データの融合処理手順に従って交換前のュニッ 卜の学習データと、 交換後のュ ニッ トの学習データとを融合する。
すなわち CPU 6 7は、 ロボッ ト装置 60に設けられた図示しない一時停止ボ タンが押圧操作されて一時停止モードとなるとこの学習データの融合処理手順を ステップ S P 30において開始し、 続くステップ S P 3 1において各ュニッ トの 記憶部 64〜 66からそのュ-ットの評価値テーブル Tp(w)A 及び行動決定テー ブル Ta(w,s)A の各データを読み出し、 これらを本体部ュニッ ト 6 1の記憶部64 に格納する。
続いて C P U 6 7は、 ステップ S P 3 1に進んでいずれかのュニッ トが交換さ れたか否かを判断する。 また CPU 6 7は、 このステップ S P 3 2において否定 結果を得ると、 ステップ S P 33に進んで上述の一時停止ボタンが再び押圧操作 されることにより一時停止モードが解除されたか否かを判断する。
そして CPU 6 7は、 このステップ S P 3 3において否定結果を得るとステツ プ S P 3 2に戻り、 この後ステップ S P 3 2又はステップ S P 3 3のいずれかに おいて肯定結果を得るまでステップ S P 3 2— S P 3 3— S P 3 2のループを繰 り返す。
そして C PU 6 7は、 やがてステップ S P 3 2において肯定結果を得ると、 ス テツプ S P 34に進んで交換された新たなュニッ トの記憶部 6 5、 66に格納さ れている評価値テーブル Tp(w)B 及び行動決定テーブル Ta(ws)B の各データを読み 出し、 これらを本体部ュニッ ト 6 1の記憶部 64に格納する。
続いて C PU 6 7は、 ステップ S P 34に進んで交換前の元のュニッ 卜の学習 データ (行動決定テーブル Ta(w,s)A ) 及び交換後の新たなユニッ トの学習データ (行動決定テーブル Ta(w,s)B ) の融合処理を実行する。
具体的に C PU 6 7は、 交換前の元のュニッ トの評価値テーブル Tp(w)A と、 交 換後の新たなュニッ トの評価値テーブル Tp(w)B とを比較し、 元のュニッ 卜の評価 値テーブル Tp(w)A に存在し、 かつ新たなュニットの評価値テーブル Tp(w)B にも存 在する目標行動 wt に対する元のュニッ トの評価値テーブル Tp(w)A での評価値 p (w, ) と、 新たなュニッ 卜の評価値テーブル Tp(w)B での評価値 p (Wl ) とを 比べて、 新たなュニッ トの方が大きいものについてはなにもしない。
これに対して C PU 67は、 元のユニッ トの方が大きいものについては、 新た なュニッ トの行動決定テーブル Ta(w におけるその目標行動 wi に対する全て の状態 s」 での行動 ak (Wl, s」 ) (図 9 Aにおいて対応する目標行動 Wl の 行の全ての行動 a k (w, , s; ) ) を元のュニッ トの行動決定テーブル Ta(w,s)A に おけるその目標行動 Wl に対して対応する状態 に対応付けられた行動 ak (w , , Sj ) にそれぞれ変更すると共に、 新たなュニッ トの評価値テーブル Tp(w)B に おけるその目標行動 Wl に対する評価値 p (w, ) を元のュニッ トの評価値テープ ル TP(W)A における対応する評価値 p (wt ) に変更する。
また C PU 6 7は、 交換前の元のュニッ トの評価値テーブル TpWA と、 交換後 の新たなュニッ トの評価値テーブル Tp(w)B とを比較し、 元のュニッ トの評価値テ 一ブル Tp(w)A に存在し、 かつ新たなュニッ トの評価値テーブル Tp(w)B に存在しな い目標行動 がある場合には、 この目標行動 Wl及び当該目標行動 Wl に対する 元のュニッ トの評価値テーブル Tp(w)A における評価値 p (w, ) を新たなュニッ 卜の評価値テーブル Tp(w)B にコピーする。
そして CPU67は、 このような融合処理を終了すると、 この後ステップ S P 3 5に進んで、 当該融合処理により得られた新たな評価値テーブル Tp(w)B ' 及び 新たな行動決定テーブル T a(w,s)B ' の各データを新たなユニットに転送し、 これ を当該ュニット内の記憶部 6 5、 6 6に格納されている元の評価値テーブル T P(W)B 及び行動決定テーブル T a(w,s)B のデータに変えて当該記憶部 6 5、 6 6内に 格納させた後、 ステップ S P 3 6に進んでこの融合処理手順を終了する。
また C P U 6 7は、 ステップ S P 3 3において肯定結果を得た場合にも、 ステ ップ S P 3 6に進んでこの融合処理手順を終了する。
このようにしてこのロボッ ト装置 6 0では、 ュニットが交換された場合におい て、 交換前の元のユニッ トの学習データと、 交換後の新たなユニットの学習デー タとを融合させ得るようになされ、 これにより元のュニッ トにおいて得られた学 習データを新たなユニッ トにおいても利用し得るようになされている。
( 2 - 3 ) 本実施の形態の動作及び効果
以上の構成において、 このロボッ ト装置 6 0では、 目標行動データ S 2として 目標行動 w が与えられた場合、所定の確率で当該目標行動 W l に対応する幾つか の行動 a k の中から行動決定テーブル T a(w こ記述されていない 1つの行動 a k を出力すると共にこの後その行動 a k を評価し、 評価結果が行動決定テーブル T a(w こ記述された行動 a k ( W l , S j ) よりも高い場合には行動決定テーブル Τ a(w,s)における対応する行動 a k ( w, , S j ) を当該行動 a k に書き換える。
またこのロボッ ト装置 6 0では、 ユニッ トが交換されると、 このようにして得 られた元のュニッ トの行動決定テーブル Ta(w,s)A のデータでなる学習データと、 新たなュニットの行動決定テーブル Ta(w s)B のデータでなる学習テーブルとを融 合するようにして新たなュニッ トの行動決定テーブル Ta(w,s)B を更新する。
従ってこのロボッ ト装置 6 0においても、 第 1の実施の形態のロボット装置 1 と同様に、 ユニットを交換した後、 交換前のユニッ トで獲得された学習データに 相当するような学習データを再度始めから獲得する必要がない分、 学習データの 獲得にかかる手間や時間を短縮することができる。
以上の構成によれば、 ユニッ トを交換した後、 交換前の元のユニットの行動決 定テーブル T a(w s)A のデータでなる学習データと、 交換後の新たなュニッ トの行 動決定テーブル T咖, S)B のデータでなる学習テーブルとを融合するようにして新 たなユニッ トの行動決定テ一ブル T a(w,s)B を更新するようにしたことにより、 第 1の実施の形態と同様に、 学習データの獲得にかかる時間や手間を短縮して使い 勝手の向上したロボッ ト装置を実現できる。
( 3 ) 他の実施の形態
なお上述の第 1の実施の形態においては、 図 4に示す学習データの融合処理手 順のステップ S P 6において、 記憶部 4 5に記憶されている融合学習データを削 除した場合について述べたが、 本発明はこれに限らず、 融合学習データを削除せ ずに記憶した状態で保持しておいても良い。
また上述の第 1の実施の形態においては、 組合せ学習データを本体部ュニット 3の記憶部 4 5に記憶するようにした場合について述べたが、 本発明はこれに限 らず、 組合せ学習データを本体部ュニッ ト 3の記憶部 4 5、 頭部ュニッ ト 2の記 憶部 4 7及びマニピユレータ部ュニッ ト 4の記憶部 4 9に記憶して当該組合せ学 習データを分散して管理しても良い。
さらに上述の第 1の実施の形態においては、 外部から供給される目標行動デ一 タ S 2に基づいて目標を設定するようにした場合について述べたが、 本発明はこ れに限らず、 センサ 1 5から供給される観測データ S 3を基に自分自身で目標を 設定しても良く、 他の種々のデータを基に目標を設定すれば良い。
さらに上述の第 1の実施の形態においては、 ユーザから与えられた目標行動と 当該目標行動に適したュニットの組合せとを組合せ学習データとして記憶部 4 5 に記憶した場合について述べたが、 本発明はこれに限らず、 目標行動と当該目標 行動に適したュニッ トの組合せに加えて、 当該目標行動に適していない組合せの データについても記憶部 4 5に記憶しても良い。
さらに上述の第 1の実施の形態においては、 外部から与えられた目標行動デー タ S 2とセンサを介して入力された画像データとュニッ トを駆動させるための駆 動信号とを学習データとした場合について述べたが、 本発明はこれに限らず、 要 は、 外部から入力される入力情報及び当該入力情報に応じた結合ュニット自体の 動作履歴を学習データとすれば良い。
さらに上述の第 1の実施の形態においては、 本発明を、 頭部ユニット 2と本体 部ュニッ ト 3とマニピュレータ部ュニッ ト 4とを結合してなるロボッ ト装置 1に 適用した場合について述べたが、 本発明はこれに限らず、 本体部ユニットとマ二 ピュレ一タ部ュニッ トとを結合してなるロボッ ト装置に本発明を適用しても良く 、 他の種々の結合ュニッ トを組み合わせてなるロボット装置に本発明を適用して b■¾い。
さらに上述の第 1の実施の形態においては、 図 3に示すように、 本体部ュニッ ト 3に連結する各頭部ュニッ ト 2 A〜2 C及び各マニュピレ一タ部ュニッ ト 4 A 〜4 0内に〇?11 2 2、 3 0を設けるようにした場合について述べたが、 本発明 はこれに限らず、 例えば図 6のように各頭部ュニッ ト 2 A〜 2 C及び各マユュピ レータ部ユニッ ト 4 A〜4 D内に C P Uを設けず、 記憶部 4 7、 4 9に格納され た学習データの更新処理を本体部ュニッ ト 4の C P U 1 2が行うようにしても良 レ、。
さらに上述の第 1の実施の形態においては、 各ユニット内の記憶部 4 5、 4 7 、 4 9に、 そのユニッ トの学習データを格納しておくようにした場合について述 ベたが、 本発明はこれに限らず、 例えばセンサ 1 5、 2 0、 2 8に付与されたセ ンサ I D等と一緒に他のュニットの学習データを格納するようにしても良い。 さらに上述の第 2の実施の形態においては、 本発明を図 1及び図 6のように構 成されたロボット装置 1に適用するようにした場合について述べたが、 本発明は これに限らず、 この他種々の形態のロボット装置に広く適用することができる。 ざらに上述の第 2の実施の形態においては、 ュニッ トを交換したときに得られ る融合された学習データ (行動決定テーブル T a(w,s)B ' のデータ) を交換後の新 たなュニッ トの元の学習データに上書きするようにした場合について述べたが、 本発明はこれに限らず、 融合された学習データ (行動決定テーブル T a(w,s)B ' の データ) を交換後の新たなュニットの元の学習データとは別に当該新たなュニッ トが保持するようにしても良い。 産業上の利用の可能性
本発明は、 複数種類存在する結合ュニットのうち所望の結合ュニットを組み合 わせて結合させることによって構築され、 外部から入力される入力情報を基に所 定の動作を自律的に行うロボッ ト装置に利用することができる。

Claims

求 の 範 囲
1 . 複数種類存在する結合ュニットのうち所望の結合ュニッ トを組み合わせて結 合させることによって構築され、 外部から入力される入力情報を基に所定の動作 を自律的に行うロボッ ト装置において、
上記結合ュニットに内蔵され、 上記入力情報及び当該入力情報に応じた上記口 ボッ ト装置全体の動作履歴のうち、 上記入力情報及び当該入力情報に応じた上記 結合ュニッ ト自体の動作履歴を学習データとして記憶する記憶手段
を具えることを特徴とするロボッ ト装置。
2 . 上記記憶手段は、
上記複数種類存在する結合ュニッ トのうち上記入力情報に対して上記結合ュニ ット固有の動作を行うための上記学習データを記憶する
ことを特徴とする請求の範囲第 1項に記載のロボット装置。
3 . 複数種類存在する本体ュニッ ト及び複数種類存在する結合ュニッ トのうち、 それぞれ所望の本体ュニッ ト及び結合ュニッ トを選択して結合させることによつ て構築され、 外部から入力される入力情報を基に所定の動作を自律的に行うロボ ッ ト装置の上記本体ュニッ トにおいて、
現在結合されている上記結合ュニッ トの記憶手段から学習データを読み出し、 当該読み出した上記学習データと以前結合されていた結合ュニッ 卜の学習データ とを融合することにより新規な学習データを生成し、 当該生成された学習データ を現在結合されている上記結合ュニッ トの上記記憶手段に記憶する学習データ融 合手段
を具えることを特徴とするロボッ ト装置の本体ュニット。
4 . 複数種類存在する結合ュニッ トのうち所望の結合ュニッ トを組み合わせて結 合させることによって構築され、 外部から入力される入力情報を基に所定の動作 を自律的に行うロボッ ト装置の上記結合ュニッ トにおいて、
上記入力情報及び当該入力情報に応じた上記ロボット装置全体の動作履歴のう ち、 上記入力情報及び当該入力情報に応じた上記結合ュニッ ト自体の動作履歴を 学習データとして記憶する記憶手段
を具えることを特徴とするロボッ ト装置の結合ュニッ ト。
5 . 上記記憶手段は、
上記複数種類存在する結合ュニッ トのうち上記入力情報に対して上記結合ュニ ッ ト固有の動作を行うための上記学習データを記憶する
ことを特徴とする請求項 4に記載のロボット装置の結合ュニッ ト-
6 . 複数種類存在する結合ュニッ トのうち所望の結合ュニッ トを組み合わせて結 合させることによって構築され、 外部から与えられる入力情報に基づいて所定の 動作を行うロボッ ト装置において、
外部から与えられた上記入力情報に基づいて上記結合ユニッ トの組合せに応じ た動作を行う動作制御手段と、
上記結合ュニッ トの組合せと上記入力情報に基づく上記動作制御手段の動作履 歴とを組合せ学習データとして記憶する記憶手段と、
上記記憶手段から必要に応じて上記組合せ学習データを読み出して外部に出力 する出力手段と
を具えることを特徴とするロボッ ト装置。
7 . 上記記憶手段は、
上記ロボッ ト装置を構築するために組み合わされた上記結合ュニッ トにそれぞ れ設けられている
ことを特徴とする請求の範囲第 6項に記載のロボッ ト装置。
PCT/JP2000/000196 1999-01-18 2000-01-18 Robot, unite principale de robot et unite de couplage de robot WO2000041853A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020007010293A KR20010041969A (ko) 1999-01-18 2000-01-18 로봇 장치, 로봇 장치의 본체 유닛 및 로봇 장치의 결합유닛
EP00900430A EP1103352A1 (en) 1999-01-18 2000-01-18 Robot, main unit of robot, and coupling unit of robot

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11/9582 1999-01-18
JP958299 1999-01-18

Publications (1)

Publication Number Publication Date
WO2000041853A1 true WO2000041853A1 (fr) 2000-07-20

Family

ID=11724318

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/000196 WO2000041853A1 (fr) 1999-01-18 2000-01-18 Robot, unite principale de robot et unite de couplage de robot

Country Status (5)

Country Link
US (2) US6421585B1 (ja)
EP (1) EP1103352A1 (ja)
KR (1) KR20010041969A (ja)
CN (1) CN1293605A (ja)
WO (1) WO2000041853A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063505A (ja) * 2000-08-16 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 情報配信方法、情報配信センタ装置、情報配信端末装置及びキャラクタ人形
WO2002076686A1 (fr) * 2001-03-27 2002-10-03 Sony Corporation Appareil d'apprentissage d'actions et procede d'apprentissage d'actions pour systeme robotique, et support de memoire
JP2002307351A (ja) * 2001-01-30 2002-10-23 Nec Corp ロボット制御装置、制御方法、制御プログラム
WO2019003495A1 (ja) * 2017-06-30 2019-01-03 株式会社日立製作所 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6616464B1 (en) * 1999-05-10 2003-09-09 Sony Corporation Robot device
TWI236610B (en) * 2000-12-06 2005-07-21 Sony Corp Robotic creature device
JP4689107B2 (ja) * 2001-08-22 2011-05-25 本田技研工業株式会社 自律行動ロボット
US6999849B2 (en) * 2002-01-24 2006-02-14 John Clinton Bridges Folding robotic system
US8222840B2 (en) * 2002-12-12 2012-07-17 Sony Corporation Fuel cell mount apparatus and electric power supply system
US7761184B2 (en) * 2003-03-23 2010-07-20 Sony Corporation Robot apparatus and control method thereof
EP1571584A1 (en) * 2004-03-03 2005-09-07 Honda Research Institute Europe GmbH Integrating visual and object information in a pervasive computing environment
US20050267875A1 (en) * 2004-05-28 2005-12-01 Bentley Alfred Y Iii Autonomic management system
US7627538B2 (en) * 2004-12-07 2009-12-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Swarm autonomic agents with self-destruct capability
US7555363B2 (en) * 2005-09-02 2009-06-30 Neato Robotics, Inc. Multi-function robotic device
US8996172B2 (en) 2006-09-01 2015-03-31 Neato Robotics, Inc. Distance sensor system and method
US7984013B2 (en) 2007-02-07 2011-07-19 Samsung Electronics Co., Ltd Method and apparatus for learning behavior in software robot
KR100909532B1 (ko) * 2007-02-07 2009-07-27 삼성전자주식회사 소프트웨어 로봇의 행동 학습 방법 및 장치
US20090082879A1 (en) 2007-09-20 2009-03-26 Evolution Robotics Transferable intelligent control device
US20150138333A1 (en) * 2012-02-28 2015-05-21 Google Inc. Agent Interfaces for Interactive Electronics that Support Social Cues
US9873556B1 (en) 2012-08-14 2018-01-23 Kenney Manufacturing Company Product package and a method for packaging a product
KR20180051593A (ko) * 2015-09-09 2018-05-16 리치 로보틱스 리미티드 게임 로봇
KR20180050388A (ko) * 2015-09-09 2018-05-14 리치 로보틱스 리미티드 모듈러 로봇을 위한 연결 시스템
US10105845B1 (en) * 2016-02-05 2018-10-23 Boston Dynamics, Inc. Modular robot system
JP6879009B2 (ja) * 2017-03-30 2021-06-02 株式会社安川電機 ロボット動作指令生成方法、ロボット動作指令生成装置及びコンピュータプログラム
CN113727767B (zh) * 2018-10-17 2023-05-23 派拓艺(深圳)科技有限责任公司 机器动物拼插模型
CN117018639A (zh) * 2023-08-18 2023-11-10 蔡泽銮 一种拼装机器人玩具

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5766077A (en) * 1995-05-26 1998-06-16 Kabushiki Kaisha Bandai Game apparatus with controllers for moving toy and character therefor
EP0855335A2 (en) * 1997-01-23 1998-07-29 Sony Corporation Robot apparatus
JPH10217174A (ja) * 1996-07-08 1998-08-18 Sony Corp ロボツト装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3911613A (en) * 1974-02-15 1975-10-14 Marvin Glass & Associates Articulated figure toy and accessories
US4990839A (en) 1988-12-09 1991-02-05 Schonlau William J Modular robotic system
US5100362A (en) * 1990-12-03 1992-03-31 Fogarty A Edward Propellable articulating animal toy
US5172806A (en) * 1991-11-08 1992-12-22 S. R. Mickelberg Company, Inc. Animated toy in package
US5289916A (en) * 1991-11-08 1994-03-01 S. R. Mickelberg Company, Inc. Animated toy in package
US5428713A (en) 1991-11-25 1995-06-27 Kabushiki Kaisha Toshiba Compound module type manipulator apparatus
US5606494A (en) * 1993-11-25 1997-02-25 Casio Computer Co., Ltd. Switching apparatus
US5626505A (en) * 1996-02-06 1997-05-06 James Industries, Inc. Spring-animated toy figure
US5963712A (en) 1996-07-08 1999-10-05 Sony Corporation Selectively configurable robot apparatus
JPH11126017A (ja) * 1997-08-22 1999-05-11 Sony Corp 記憶媒体、ロボット、情報処理装置、並びに電子ペットシステム
JP3765356B2 (ja) * 1997-12-22 2006-04-12 ソニー株式会社 ロボツト装置
DE69943312D1 (de) * 1998-06-09 2011-05-12 Sony Corp Manipulator und verfahren zur steuerung seiner lage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5766077A (en) * 1995-05-26 1998-06-16 Kabushiki Kaisha Bandai Game apparatus with controllers for moving toy and character therefor
JPH10217174A (ja) * 1996-07-08 1998-08-18 Sony Corp ロボツト装置
EP0855335A2 (en) * 1997-01-23 1998-07-29 Sony Corporation Robot apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MASAHIRO FUJITA: "Reconfigurable Physical Agents", PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON AUTONOMOUS AGENTS, 9 May 1998 (1998-05-09), pages 54 - 61, XP002926032 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063505A (ja) * 2000-08-16 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 情報配信方法、情報配信センタ装置、情報配信端末装置及びキャラクタ人形
JP2002307351A (ja) * 2001-01-30 2002-10-23 Nec Corp ロボット制御装置、制御方法、制御プログラム
WO2002076686A1 (fr) * 2001-03-27 2002-10-03 Sony Corporation Appareil d'apprentissage d'actions et procede d'apprentissage d'actions pour systeme robotique, et support de memoire
US7216082B2 (en) 2001-03-27 2007-05-08 Sony Corporation Action teaching apparatus and action teaching method for robot system, and storage medium
WO2019003495A1 (ja) * 2017-06-30 2019-01-03 株式会社日立製作所 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置
JP2019010701A (ja) * 2017-06-30 2019-01-24 株式会社日立製作所 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置
US11440185B2 (en) 2017-06-30 2022-09-13 Hitachi, Ltd. Multi-operation unit integration device, control method therefor, and autonomous learning type robot device

Also Published As

Publication number Publication date
EP1103352A1 (en) 2001-05-30
US20020068993A1 (en) 2002-06-06
US20020143436A1 (en) 2002-10-03
US6591165B2 (en) 2003-07-08
CN1293605A (zh) 2001-05-02
KR20010041969A (ko) 2001-05-25
US6421585B1 (en) 2002-07-16

Similar Documents

Publication Publication Date Title
WO2000041853A1 (fr) Robot, unite principale de robot et unite de couplage de robot
AU768353B2 (en) Robot apparatus, method of controlling robot apparatus, method of display, and medium
US6697711B2 (en) Operational control method, program, and recording media for robot device, and robot device
US6381515B1 (en) Robot apparatus
US20030187653A1 (en) Action teaching apparatus and action teaching method for robot system, and storage medium
Zhu et al. Episodic reinforcement learning with associative memory
EP1508409A1 (en) Robot device and robot control method
JP2002301674A (ja) 脚式移動ロボット及びその運動教示方法、並びに記憶媒体
JP2006110707A (ja) ロボット装置
US6697708B2 (en) Robot apparatus and robot apparatus motion control method
WO2001050265A1 (fr) Systeme, appareil et procede de diagnostic
JP2004298975A (ja) ロボット装置、障害物探索方法
JP4556425B2 (ja) コンテンツ再生システム、コンテンツ再生方法、コンテンツ再生装置
JP4779226B2 (ja) ロボット装置、並びに、画像記憶方法及び画像記憶装置、並びに、制御プログラム及び記録媒体
JP2001157979A (ja) ロボット装置及びその制御方法
WO2021061717A1 (en) Upside-down reinforcement learning
JP2001157981A (ja) ロボット装置及びその制御方法
JP2005271137A (ja) ロボット装置及びその制御方法
JP2001191274A (ja) データ保持装置、ロボット装置、変更装置及び変更方法
JP2001282570A (ja) 診断システム、診断装置及び診断方法
JP2001191273A (ja) ロボット装置及びその行動制御方法
JP2002264057A (ja) ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体
JP2002269530A (ja) ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体
JP2005202609A (ja) コンテンツ管理装置及び方法並びにロボット装置及びその制御方法
JP2003033580A (ja) ネットワークシステム、情報提供装置及び情報提供方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00800042.5

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB

WWE Wipo information: entry into national phase

Ref document number: 2000900430

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020007010293

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 1020007010293

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2000900430

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2000900430

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1020007010293

Country of ref document: KR