制御工学の理論
2019/05/10 うつせみ
時空認識の説明の前準備です。
まず、『今のここ』の状況を主体化します。
ここでの話は、平凡で常識的なものです。
平凡で常識的な内容を土台として、次の章では、未知の内容を説明します。
8.6 今のここを主体化
平凡で退屈な内容から入ります。
「8.3 状況の主体化」で作成した制御システムのモデルを、実際の問題に適用してみます。
最も単純なモデルです。『今のここ』の状況を主体化してみます。
この単純な内容の延長として、次の章では、『時空認識』という未知の内容を説明します。
8.6.1 『今のここ』を主体化した制御システム
クラゲを例にして、『今のここ』の状況を主体化を説明します。
クラゲは、海の中を漂っています。その遊泳能力はあまり高くありません。
彼らは、温度や、光を感じる感覚細胞は持っていますから、自分の置かれている場所の状態、即ち、『今のここ』は知覚できます。しかし、眼は持っていないので、自分から離れた場所の状態は判りません。長期の記憶も期待できません。精々、直近の状態を記憶している程度です。
彼らは、今現在、この瞬間に自分の置かれている場所、即ち、『今のここ』の状態だけを主体化して生きています。『今のここ』の状態が、自己の生存に都合がいいかどうかだけを判断して生きています。この『今のここ』の状態だけを主体化して生きる自己保存系の制御について考察します。
このクラゲの自己保存の目的を、『最適な温度帯(20℃)に留まり続けること。』と仮定します。この状態を維持し続けることが、この自己保存系の『生きる。』という行為の意味だと、仮定します。(単純化の為)
そして、生きる事と直接結びついた数値を作り出す行為、即ち、『状況の主体化』を、次のような関数として定義します。そして、この行為の結果作り出される数値を、テンションと呼ぶことにします。
状況の主体化関数の定義 | テンション = 絶対値(現在の値 - 制御目標値) |
---|
現在の値と、制御目標値の差の絶対値を、テンション(状況を主体化した数値)と定義しています。
実際に、制御する場合は、この関数式は結構重要です。多分、指数関数的な性質を持っている必要があります。しかし、ここでは、話を単純化する為に、難しいことは考えません。現実と制御目標値との差の絶対値を、テンションと定義しています。
このクラゲのスペックを表に纏めると、下記のようになります。
クラゲのスペック | |
---|---|
項目 | スペック & 説明 |
制御目標 | 最適な温度帯(20℃)に留まり続けること。 |
運動性能 | 左右に動ける。 |
記憶力 | 直近の状態(過去)を、ひとつだけ、記憶出来る。 |
状況の主体化関数 | テンション = 絶対値(現在の値 - 制御目標値) |
クラゲの置かれている環境と制御 |
---|
最適な温度帯に留まり続けるクラゲのモデルです。 最適な温度は、20℃と仮定します。 左右に動くことが出来ると仮定します。 |
A点の状況を主体化
上図のA点にクラゲが存在している場合の状況の主体化を行ってみます。
- 自分が存在している『今のここ』の状況を主体化します。
- クラゲの制御目標値は、20℃ です。
- 一方、現実は、30 ℃ です。
- その差(テンション)は、定義された計算式に従えは、+10 となります。
A点のテンション = abs(30 - 20) = +10
テンションがゼロでないので、何らかの行動を起こす必要があります。
しかし、どう行動するかは、具体的には、前もって決めません。工学的には、テンションを計算する計算式と、行動のプログラムを結びつけません。
テンションがゼロでないので、行動を起こす必要がありますが、どのような行動を起こす必要があるか、まだ、決まっていない状況を想定します。
そこで、とりあえず、右側に動いてみます。
生物学用語では、この行動を探究反射と呼んでいます。発生したテンションの放出路が、まだ、確定していなので、デタラメに、運動器官に向かって放出する行為です。
今回は、たまたま、右側に向かって行動したと仮定しました。
行動前のテンションと行動後のテンションを比較します。
左に動くと温度がより高くなりますので、テンションは、増加します。
行動の結果、テンションが増加する場合、それは、適切な行動ではありません。
そこで、行動を変化させます。
左側に動いてみます。
探究反射を繰り返します。今度は、別の放出路に向かって、デタラメに放出します。
テンションが減少します。
そこで、この行動をそのまま、維持します。(テンションが減少する方向なので)
C点の状況を主体化
左側に動き続けるとC点に到達します。
C点の状況を主体化してみます。C点の温度は、20℃なので、制御目標値と同じです。従って、テンションはゼロになります。
C点のテンション = abs(20 - 20) = 0
C点では、テンションがゼロになるので、行動する必要がありません。
間違えて右に動いても、反対に左に動いても、テンションは増加してしまいますので、C点に引き戻されてしまいます。
行動は、このC点で止まってしまいます。
B点の状況を主体化
今度は、B点の状況を主体化してみます。A点とは反対に温度が低い環境です。
B点の現実は、10℃です。従って、テンションが発生して、その値は絶対値を取るので、10 です。テンションがゼロでないので、何らかの行動を起こす必要があります。
B点のテンション = abs(10 - 20) =abs(-10) = 10
その行動指針は、A点に置かれた場合と、同様です。テンションの計算式が絶対を取っている為です。
テンションが減少する方向に向かって行動します。C点に向かう行動が生じます。そして、やはりA点の場合同様に、C点で止まります。
生物の場合の事情
生物の場合、もう少し、事情が複雑です。神経細胞の制限が加わる為です。
神経細胞は、信号が『有るか。無いか。』しか、制御できません。つまり、マイナスの状態を知覚できません。
この為、寒さを感じる感覚細胞と暑さを感じる感覚細胞は別になっています。機能が分担されています。相反する2つの作用の拮抗として処理されています。この辺りは、現実をよく観察してみる必要があります。
工学的原則
工学的には、テンションは、絶対値を取る方法でも、問題なく制御可能です。ただし、より効率的に制御したい場合、生物と同じような発想の方が有効だと思われます。
行動の原則と制御セル | |
---|---|
項目 | 処理 |
テンション | テンション = 絶対値(現在の値 - 制御目標値) |
行動の原則 | 1)探究反射で、ランダムに行動してみる。 2)テンションが減少する方向が見つかれば、その行動を維持する つまり、テンションが減少する方向に向かって行動する。 |
行動方向は、予め決めません。つまり、具体的な行動手順をプログラムしません。
- 最初は、探究反射によって、適当に、ランダムに行動してみます。
- そのようなランダムな行動の中で、テンションが減少する行動が見つかれば、その行動方向を維持します。
- テンションがゼロ、或いは、極小値になるまで行動します。
- このテンションが極小値になるポイントを挟んで、振動を始めます。
結果として、システムは、この最適なポイントに留まり続けます。
この方法ですと、具体的な行動のプログラムを組む必要がなく、テンションの計算方法と、行動の原則を決めるだけで、制御目標値に留まり続けることができます。
環境の前提条件が、想定外に変化しても、比較的柔軟に対応可能となります。
このような単純な行動原則から構成された制御単位を、今後の話の展開の便宜上、制御セルと呼ぶことにします。
制御セル | テンションと行動原則から構成された単純な制御システムの単位。 行動の方向は、探究反射によって、システム自身が決定する。 |
---|
8.6.2 目的制御
生物の場合、行動手順の制御ではなくて、行動の目的、目標が制御されています。これらの目的は、階層構造を持っております。
上記のクラゲの行動制御で、もし、外部から制御目標値を変更可能なら、何が起こるでしょうか。
例えば、現在の制御目標値は、20℃ と仮定しましたが、これを外部から 22℃ に変更したら、どうなるでしょうか。20℃ で静止していたクラゲは、22℃ に向かって行動を始めます。制御目標値を外部から変更することによって、自己保存系に行動を生じさせることが可能となります。
自己保存系(制御セル)は、階層構造を持っていて、上位の自己保存系は、下位の自己保存系の制御目標値(目的)を制御しているならば、この目的の階層構造を論ずることによって、生物のような複雑な自己保存系を論理的に扱う道が開かれます。目的の階層構造を論ずること、イコール、制御セルの物理的配置を決定する問題に置きかることが可能となります。
目的の階層構造と自己保存系の行動
生物の場合、最も上位の目的が、『生きる。(自己保存)』です。生きる行為は、様々なサブ目的に分解されます。例えば、『獲物を捕まえる。』とか。『子供を作る。』とか言ったように。
獲物を捕まえる行為は、さらに様々なサブ目的から構成されます。前に向かって進むとか、獲物を臭いを嗅ぐとか。獲物に襲い掛かるとか。
前の向かって進むという行動も、さらに、下位のサブ目的から構成されています。4本の足を連携して動かす必要があります。
個々の足を動かすのも、さらに、サブ目的から構成されています。複数の足を構成する筋肉を、協調させながら、縮めたり、伸ばしたらしなければいけません。それらの動きは、勝手な単独の動きでは無くて、互いに連携した協調した動きになったいなければ、いけません。
獲物を捕まえるとか、前に向かって進むとかいった、簡単に言葉で表現できる行動も、分解すると、非常に、多くの要素から構成されています。個々のサブシステムの統合された結果として、これらの行動が形成されています。
上記のクラゲの例ですと、制御目標値 20℃ と仮定して、話を進めました。温度 20℃に留まり続けるシステムの例について話をしました。このシステムは、温度 20℃ の地点で最適な状態になるので、動きを止めます。厳密には、最適値を挟んで、微小振動しているかもしれませんが、マクロ的には、動きが止まったように見えます。
もし、さらに上位システムが存在して、上位システムが、この温度の制御目標値 20℃ を変更可能なら、クラゲにどのような変化が起るでしょうか。例えば、上位システムが制御目標値を、15℃ に変更してしまったら、どうなるでしょうか。
外界の温度が変化していないにも関わらず、 20℃ から、15℃ に向かう左向きの行動が発生してしまいます。上位システムが、下位システムの制御目標値を変更するだけで、行動が発生してしまいます。
逆に、外界の温度変化を相殺するように、上位システムが下位システムの制御目標値を変更可能なら、このシステムは、温度が変化しても、行動が生じません。つまり、外界の温度が、20℃ から、15℃ に変化したら、それに合わせて、制御目標値も、20℃ から、15℃ に変更してしまえば、行動は起りません。
上位システムが、下位システムの制御目標値を変更可能なら、上位システムは運動制御が可能になります。上位システムは、複雑な現実を直接制御する必要はありません。複雑な現実に対応するのは、下位システムの仕事です。ただ単に、に指令(目的)を与えるだけです。その指令(目的)を、現実との整合性を取りながら実行するのは、下の仕事です。
現実の動物の行動は、複数のサブ目的から構成されています。それらは、階層構造を構成しています。ひとつのサブ目的は、さらに、下位のサブ目的に分解されます。
もし、それらのサブ目的を、上のクラゲの例で作成した単純な制御セルで置換え可能なら、生物などのような複雑なシステムを設計、製造する道が開かれます。目的の階層を分析、設計すればいいからです。
複雑、難解な制御対象の現実を研究、分析して、その分析結果に基づいて、手続きをプログラムする必要が無くなります。最適なプログラムは、探究反射によって、システム自身が決めます。
探究反射の場合、環境の詳しい分析や、知識は不要です。ただ、単に、環境の関数としての性質さえ理解されていれば充分です。探究反射の為の練習行為が必要になるだけです。
目的制御 : | 目的と、その目的の階層構造を制御する。 |
---|
目的の階層構造のイメージ |
---|
動物の行動は、目的の階層構造の上に成り立っています。上位の目的は、下位の目的(目標値)を制御しています。 |
制御セルを、積み重ねて実装します。
ロボットを制御する場合も、ロボットを構成している個々の部品の詳細な特性を知る必要はありません。部品毎のバラツキも気にする必要がありません。ロボットの置かれる複雑な環境の解析も、それほど、精密に行う必要がありません。
目的の階層構造だけを設計し、それをロボットにセットするばよくなります。部品や環境の解析作業は、この目的の階層構造を設計するのに必要な知識の範囲内だけでよくなります。最適なプログラムは、システム自身が探究反射によって決めます。開発工数が実現可能なレベルにまで、減少します。
単純な制御システムを組むだけでも、制御対象や、制御システム自身の特性を分析するのに、大変は手間が掛かっていますが、それが、大幅に、省略されます。
牛や馬などのように、4本脚で歩く動物の場合、一本の足が欠損して、残り3本になっても、システムは動作可能です。探究反射を通して、目的を達成する為の新しい平衡点に移行するだけだからです。
環境変化や、事故などの想定外の変化に対しても、柔軟に対応するシステムの構築が可能になります。
ただひとつだけ、笑うに笑えない問題も発生します。ロボットも、我々動物同様に、最適なプログラムを見つける為に、練習(探究反射)が必要になります。この練習によって、現実の複雑さを吸収する必要があります。
目的制御の場合 ロボットにも、練習が必要になる。
8.6.3 脳と、DNAの制御原理は同じ
このように、目的は、それを、実行する為に、サブ目的に分解され、このような目的の階層構造のなかて、上位の目的が達成されていきます。
脳とDNAにおいても、断片的知識から判断する限り、この状況の主体化と、目的制御が成り立っているように見えます。
目から流入した視覚情報は、大脳視覚野に投影されますが、大脳視覚野においては、点に反応する神経細胞とか、直線に反応する神経細胞、2本の平行線に反応する神経細胞といったように、特定の状況に反応する細胞から構成されており、その集合体として、視覚情報が構成されています。
つまり、サブ目標毎に、状況が主体化されており、その主体化された状況の集合体として、全体の視覚情報が構成されています。
遺伝子(DNA)の場合も、これと似た状況のように見えます。遺伝子の場合も、目的と、目的の階層構造が制御されているように見えます。建築図面のように、外形がそのまま、遺伝子の上に記述されているのではない。あくまでも、目的が、記述されているように見えます。
例えは、犬の足の長さを品種改良によって変える場合、足の長さを決めている特定の少数の遺伝子だけを変更すればよく、図面全体の書き直しは、必要ないみたいです。建築図面だと、階の高さを変更したら、多くの図面の書き直しが必要になりますが、遺伝子の場合は、形が記述されている訳ではないので、その目的だけを変更すればいいみたいです。
遺伝情報を現実に向かって投影する場合も、我々が見ている形に投影されるのではなくて、目的の階層構造に向かって投影されているように見えます。
脳に関しても、遺伝子に関しても、この方面の情報が、極端に不足しており、断片的にしか理解することができませんが、その制御原理は、同じに見えます。
今後の作業方針としては、次の3つの作業を統合して、ひとつのプロジェクトとして、推進していけば、作業効率が上がると思われます。
- 脳の制御構造を解析する。
- 遺伝子の制御構造を解析する。
- 実際に、ロボットを作って、検証してみる。
- 上記、3つの作業から得られる知識を、互いにフィードバックさせ、相互に補い合いながら、前進していく。
とくに、遺伝子に関しては、時間尺度の問題があるので、全てを実験によって、直接確認することは不可能です。進化の時間尺度が、人間の一生より遥かに長い為に、断片的にしか検証できません。
時間尺度の問題を含んでいない現象、つまり、人間の一生の時間尺度の中で、何回も実験を繰り返すことが可能な『脳の解析』や、『ロボットを使った検証』から、情報をフィードバックすることは必要不可欠です。
なお、このホームページ全体が、実は、この方針に基づいて、組み立てられています。一見、無関係に見える複数のプロジェクトを同時にスタートさせ、そこで得られる知識を、互いにフィードバックさせ、全体で、前に向かって進んでいます。無謀に思えるかもしれませんが、全てが未知の状況では、ある特定の分野にだけ限定した一点突破は不可能です。全体のかさ上げが必要です。
全く異質な分野の全く異質な知識を、ゼロから組み立て直して、統合していく必要があります。『全ては、目的の為の手段に過ぎない。』と割り切って。
全ては、目的の為の手段に過ぎません。(孫氏の兵法)
参考1)空腹と心的システムの最適化
快楽原則
心的システムの目的は、自己を出来るだけ無興奮な状態にする事だと思われます。即ち、テンションが発生したら、出来るだけ、速やかに、放出してしまうことです。ストレスを発散して、心を穏やかで心地よい状態にすることです。
我々は、よく、仕事のストレスを、趣味やスポーツで発散しています。ストレスを発散すれば、また、仕事でストレスが溜まるまでは我慢できます。ストレスが溜まる原因(仕事)と、ストレスを発散する行為(スポーツ)の間には、何の関係もありませんが、とりあえず、体を動かせば、スカッとします。心的システムの、最も基本的な動作原理は、テンションを、外に向かって、放出して、自らは、無興奮で心地良い状態になることです。即ち、快楽を追求した行為 です。
現実原則
しかし、中には、このような方法では、処理できないストレスもあります。空腹が、その代表です。人間、腹が減ると、つい、イライラして、周囲に当り散らしますが(ストレスを発散しますが) 、しかし、それでも、空腹感は癒されません。次から次へと、テンションが生産され続けるからです。当たり散らして発散するよりも、生産量の方が多いからです。
そこで、ここで、始めて、コペルニクス的発想の大転換の必要に迫られます。
『臭い匂いを元から断つ』行動を起こす必要に迫られます。空腹によって、テンションが連続して大量に発生していますから、そのテンションの発生原因を、元から断つ行動が必要になります。
具体的には、『食事をする。』という行動です。野生のキツネの場合は、『獲物を捕まえて食べる。』という行動です。現実に即した行動を起こす必要があります。
ここに、始めて、画期的な出来事が起ります。『テンションの発生』と、『(獲物を捕まえる)行動』の間に、因果関係が成立します。欲望と行動の間に、因果関係が生まれます。
我々は、腹が減れば、当たり前のように、食べ物を探して食事をしますが、これは、因果関係のうえでは、画期的な出来事です。全く、関係のない2つの事象が結びついたのですから。『腹が減る。』という事象と、『食べ物を探す。』という事象が結びついたのですから。
食べ物を見つける行為は、簡単ではありません。我々人間を例にとれば、仕事を見つけて食っていくことは、大変な努力を要する行為です。簡単には、食っていけません。現実に目を向け、多くの挑戦的努力と、工夫が必要です。失敗と成功の繰り返しです。失敗を通して学んでいきます。痛い思いをして体で覚えないと、何事も身に付きません。
『脳は学習するものだ。』という先入観を捨てるべきかもしれません。いやいや、現実と向き合っているだけかもしれません。ペナルティがきついので。
欲望と行動の因果関係の成立 | |
---|---|
事象 | 行動 |
事象1 | テンションが発生する。 即ち、腹が減る。 |
事象2 | テンションの発生を止める行動が起こる。 即ち、獲物を捕まえる。 |
因果関係 | 事象1と事象2の間に、因果関係が生まれます。 即ち、『腹が減ったから、獲物を捕まえる。』という行動が成立します。 |
基本的欲望とその実現行動は、本能として、遺伝的にプログラムされていますが、それでも、人間やサルのような学習の依存度が高い動物の場合、多くの体験学習が必要です。