身体モデルの構想 - 強いAIの実現方法　～実践的な作り方～

　本ブログでやろうとしていることは、外界－身体－AIの相互作用により、AIが意味を取り扱えるようにして、強いAI実現の突破口とする、外界－身体は、辞書レベルでモデル化したソフトウェアで良い。

　今回は、身体モデルについて、要件と作成方針を具体的に整理していく。言うなれば、意味を扱うことを目的とした人工生命モデルであり、そのために必要な要件を、大きな構成要素ごとに整理していく。

身体モデルの要件
①AIモデルに対し、外界とのインタフェースを担い、双方向の作用を及ぼすこと
②（意味とは差異だから）作用は差異として定義できれば良い
③人が単語として識別している（辞書に載っている）身体に関するものが存在すること。外界モデルで定義されたモデルに対応した、AIモデルとのインタフェースを有すること。
実体に関係する身体モデルの作成方針
　より具体化していく。まずは、物理的に存在するものの取り扱いについて。
　AIが、リンゴを認識することを考える。外界モデルでリストアップした、リンゴの意味（差異）は以下の通り。
・食べ物である
・表面は赤であり、中は白い
・芳香がする
・甘い味がする
・固い歯ごたえがある
・手のひらに乗る程度の大きさであり、口に入る大きさである

　上記に対応し、身体が具備すべき機能は以下の通り。
・食べ物を摂取するIFがあること
・食べ物を食べる必要があること（食べないと死んでしまうこと）
・視覚があること
　視覚の実装方法としては、以下の二つが考えられる。
①リンゴを見たらAIが「リンゴ」と分かる。
②色、大きさ、外形等からAIがリンゴと識別する。
　①の場合、AIは、名前を知っているものだけを識別できる。名前を知らないものを見た時に、人に名前を聞く等の学習プロセスがない。ただし、その学習プロセスが知能形成に必須ということがない限り、①でも良いと考える。実際に、人間は名前を知っているものしか識別できないのだ。また、外界も記号化されているので、名前を知っているものしか存在しない世界にエージェントは生きることになる。
　視覚については、時間が１ステップ進むごとに毎回視界内にある物体のリストアップをすることになる。単純にプログラムすると、地球の裏側にあるようなものまで常に視界内にあるかのチェックを行う必要があり、エージェントの数、対象の数により演算量が増えすぎるので、あらゆる物体の位置について、自分の属するセルにいるものだけチェックする等、プログラム的な工夫が必要。

・匂い、味が分かること（嗅覚、味覚）
　AIはリンゴの嗅いと味を知っていることになる。食べ物の好き嫌いはエージェントごとに変えられるので、エージェントの個性になり、世界が多様化していく要素になるが、好き嫌いを、AIモデルに入れるのか、身体モデルにいれるのか、というのが問題になる。
　ここでは、動物が実現しているような機能（好き嫌い、欲求、報酬系等）については、身体側とする。例えばリンゴを食べてまずいと感じるまでは身体モデル側ということだ。
・リンゴを手に取れること（アクチュエータ）
　物理的に模擬せず、１ｍ以内に近づけば取るか取らないかを選ぶ感じで良いと思う。

　以上は、リンゴに関係する身体モデルだが、実際には移動、疲れ、気温センサ、睡眠等、その他の実体に関する内容を盛り込んでいく。洗い出し方法は、辞書による。オントロジーという話もあるが、人間が見て意味が分かるように整理されただけでは意味が無い。やりたいことは、外界―身体が連接したオントロジーを定義し、その中で人工生命シミュレーションを行うということかもしれない。
実体の無い外界に関係する身体モデル？
　辞書を見ていくと、当然ながらリンゴとかとは異なり、実体の無い単語が多く出てくる。友情、努力、勝利、戦争等、社会に伴う概念が多い。友人と親友とかどうやって区別するのだろう。このような概念もモデルに入れ込まなくてはならない。信頼という言葉を考えると、獲物を取りに行く時に誰と一緒に行くかみたいな用途で、かなり原始的な社会でも出てくる概念に見えるため、初期段階からAI側にしろ身体側にしろ実装をしていくべきと考える。
　食欲を身体モデル側にいれるという方針の下では、友情も身体モデルで良いように見える。あるいは、前項で整理したように、動物で実現しているような機能は身体モデルとすると、友情はAIでも良いのかもしれない。
　やりたいことのゴールは、外界と複数のエージェントの存在により複雑になった人工生命プログラムで、欲求と報酬系でドライブされ言語能力を有する大規模深層学習系が、創発的に言語をしゃべることで知能を獲得する、ということであり、「友情」をAIモデルに入れる場合、深層学習系が自発的に友情という概念を獲得することになると考えるので、まずは身体モデル側で良いのではないかと思う。やりながら考えていく。
身体モデルのプログラム構造について
　以下のような構造の構造体を定義していくことになろう。「→」は物理的な状態に対応した感覚出力。リンゴを認識するだけでは済まないので、拡張していくことを前提に考える必要がある。
名前
位置（X,Y）
性別（男女）
年齢？
体力→満足感～空腹感→食欲
摂食インタフェース（口のこと）
視覚センサ→視界内の物体を認識。視界内の物体のリスト型構造体かな…。
味覚センサ→味の好み
聴覚→人の発言の認識（感覚出力では無いですが）
気温センサ→快不快
疲労→疲労感（不快感）
睡眠→睡眠欲（不快感）
…
　上記のようなリストが、人間の特性がある分だけ続くことになる。また、快不快→解決しようとする欲求、の組み合わせで、エージェントが行動していくことになるのであろう。欲求も（長い進化の中で）強化学習で身につけたものかもしれないが、当面は、欲求までは取得済みと考える。

　自分の状態に対応した欲求→何らかの行動の結果の報酬という系で、報酬を最大化する強化学習を施すことで賢いエージェントは育つだろうが、別の項で述べたように、新たな状況下で「こうすれば良い」と思いつけるようにはならないと思われる。また、脳内に報酬系があると言われるが、気温が低い時に火にあたって暖かくなり、不快状態がなくなるだけで良いのか、不快状態がなくなることで報酬系に出力があるのか等、人間のメカニズムに近づけた実装にしていきたい
欲求などが身体モデルに属するのかAIモデルに属するのか、について
　本来、欲求などは脳内でおきていることであり、AIモデルに組み込むものかもしれないが、動物にもある機能、本能に関するもの、は、身体モデル側にしておく、という考えで行く。
　言語能力は本能なのか、というのは、生成文法等の理解が出来ていないため発言するのもおこがましいが、母国語は教えられた環境で変わること（日本人でも英語が母国語になる）から、少なくとも文法等は後天的である。また、一切言語を習わないし周囲で誰も言語を使っていない場合、言語の習得はしないだろうし、ソシュールが正しければ、虹が何色かの認識も出来ないであろう。AIモデルにおいて、言語能力を付与していく。