視覚・接触情報を用いた状態空間の自律的生成
近年盛んに研究が行われている強化学習をはじめとする行動学習は,センサ情報からの特徴抽出など,学習するロボットにとって適切な形での変換を前提としている.実世界に適用するためには多次元のセンサ入力からロボット自身の身体性に即した状態変数を抽出する過程が重要である.本研究では,多次元センサ入力として視覚情報を用い,連続値の行動と状態空間を同時に自律的に生成する(Fig.1).即時的な2値の評価が与えられるものとし,最終的な報酬でなく,局所的な評価信号のみから適切な行動を生成することを目的とする.ベクトル量子化アルゴリズムのひとつであるTRN(Topology Representing Networks)アルゴリズムを用いて位相構造を保存した状態表現を用い,行動ごとに与えられる逐次的な評価にもとづいて状態を逐次分割する(Fig.2).行動はRBF(Radial Basis Function)を用いて位相近傍において修正・平滑化される.平滑化は,「すでに識別された状態同士に対して共通して良い評価を得るような行動を発見する」という考えに基づいている.本提案アルゴリズムは2次元平面上の円形対象物の押し操作(Fig.3)に適用される.シミュレーションにより,入力画素数によらない状態空間の生成(Fig.4)および連続値行動の平滑化が達成されることを示した.また,実験により視覚情報から直接に状態空間を生成することがシミュレーションにおけるモデル誤差を吸収する上で有効であることを確認した.また,2値の評価信号として外部から与えられる教師信号でなくマニピュレータ自身の持つ接触センサ情報をもとにした実機実験をおこない,接触状態に良い評価を与えるという方法で対象物に接触しつづけるような動作をオンラインで獲得した.
Keywords: State Space Segmentation, Radial Basis Function, Image Input
参考文献
Fig.1 状態・行動とタスクに対する評価 Fig.2 提案アルゴリズム
Fig.3 実験システム Fig.4 シミュレーション結果