ニューラルネットワークの歴史と手法1

10.4K Views

May 10, 22

機械学習ニューラルネットワーク神経科学

スライド概要

大学院で使っているニューラルネットワークについての資料です．パーセプトロンまで書かれています．

藤田一寿

@k_fujita

スライド一覧

コンピュータを使って色々計算しています．個人的な技術に関するメモと講義資料が置いてあります．気が向いた時に資料を修正しています．公立小松大学臨床工学科准教授 https://researchmap.jp/read0128699

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 4.2MB)

各ページのテキスト

ニューラルネットワークの歴史と⼿法1 パーセプトロンまで公⽴⼩松⼤学藤⽥⼀寿 Ver. 20240514 かなりマニアックな部分があります．必ず元論⽂をチェックしましょう！！

神経科学⼈⼯ニューラルネットワークネットワーク化神経細胞（ニューロン）脳⼈⼯ニューラルネットワーク数理モデル化解剖学的知⾒に基づき精密に脳をモデル化した実⽤的な⼈⼯ニューラルネットワークはあるだろうか．機能をモデル化したものはたくさんあるだろう． 𝑓(𝒘! ⋅ 𝒙) ⼈⼯ニューロンネットワーク化⼈⼯ニューラルネットワーク⼈⼯ニューロンを組み合わせ（ネットワーク化し），様々な機能を実現したものを⼈⼯ニューラルネットワークと呼ぶ．かつては，⼈⼯ニューロンは神経細胞を数理モデル化したもので，ネットワークの構造も脳を意識しており，⼈⼯ニューラルネットワークは神経科学のと⾔えた．しかし，現在の⼈⼯ニューラルネットワークは神経細胞や脳の数理モデルから乖離しており，表⾯上は脳と関係ない．表⾯上関係ないが，学習機械として共通する理論や性質があるのかもしれない．

よく⾔われるニューラルネットワークの歴史 • 1943年McCullochとPittsによりニューロンモデルが提案される． • 1957年Rosenblattがパーセプトロン（ニューラルネットワーク）を発表する． • 1969年MinskyとPapertがパーセプトロンが線形分離不可能な問題が解けないことを⽰し，ニューラルネットワークの研究が下⽕になる． • 1986年Backpropagationによりパーセプトロンの多層化が容易にできるようになり，線形分離不可能な問題を解けるようになる． • 性能の頭打ち，サポートベクターマシンなどの他の⼿法の発展によりニューラルネットワークの研究が下⽕になる． • 2012年深層ニューラルネットワークが画像識別のコンペで優勝し深層ニューラルネットワークが注⽬される．ニューラルネットワークブーム 1950 1960 1957,1958 パーセプトロン 1943 McCulloch-Pitts model ニューラルネットワークブーム冬の時代 1970 1969 Minsky and Papert Perceptrons 1973 SOM 1980 1990 2000 1986 1989 LeNet Backpropagation 1980 Neocognitron 1983 Kohonenʼs SOM ニューラルネットワークブーム（深層学習ブーム）冬の時代 1995 Support vector machine 2010 2020 2012 AlexNet

神経科学の萌芽

ゴルジ染⾊（⿊い反応） 1873年 • ゴルジが発明した神経細胞の染⾊⽅法 • この染⾊法により脳の内部構造の理解が深まった．海⾺のスケッチ(Golgi, 1886) 元の文献をチェックしていない．

ニューロン 1891年，シナプス 1897 • Waldeyere-Heartzが独⽴した神経単位をニューロン，ニューロンとニューロンのつなぎ⽬をシナプスと命名した．

Neuron doctrine（ニューロン説）(1880s,1890s年) • Cajal（カハール）らが提唱した脳の構造の考え⽅． • 脳は独⽴したニューロン（神経細胞）からなる． Cajalによる海⾺のスケッチ Cajal • シナプス間隙が電⼦顕微鏡により確認され，Neuron doctrineが正しいことが分かった (Birks et al., 1960)． • ⼀⽅ゴルジはReticular theory（網状説）を提唱した． • 脳全体が合胞体(syncytium)であり、共通の細胞質を持つ連続した組織の塊である (Gazzaniga MS et al., 2013)． • 前述シナプス間隙があったため，Reticular theorは間違いであったことが分かった． • しかし，電気シナプスはギャップジャンクションで細胞膜がつながっているので Reticular theoryも正しいと⾔えるのでは？ • つまり，⽣物は単純ではないようです．元の文献をチェックしていない．

Receptive field（受容野）(1906年) • ⼀つのニューロンが受け持つ空間範囲のこと． 126 3 触覚の生理学に密接に連絡する周辺皮質領野で，どのように触覚情報が処理されているのかを • この考え⽅は畳み込みニューラルネットワークニューラルネットワークの畳み込みに対応する．概観する． 3.3.1 2 つの体性感覚野開頭して覚醒状態にあるヒトの中心後回皮質の各点を電気刺激すると，対側にある特定の体部位で触感覚が体験される．この現象を利用して，対側体表面全体 • 脳の視覚処理のRetinotopic mapに対応．にわたる皮質内表現である体部位局在再現が構成された 39）. このホムンクルスと呼ばれる半身像はヒトと相似ではなく，手，足，口などの皮府無毛部とその他の部位との対比が，著しく誇張されて描かれている（図 3 . 16） . ホムンクルスはヒ • 畳み込みニューラルネットワークにも第1次視覚野に⾒られるガボールフィルタ様の受容野が現れる．トの忠実なコピーではなく，各部位が機械受容ユニット密度に比例して拡縮されている．皮質内ニューロンからみると，手指のように大きく誇張して描かれた皮膚部位に対応する皮質ニューロンでは，それを活性化する皮膚領域が地図上の面積に反比例して小さくなる．例えば指尖は腹部の約 1/ 100 である． 1 次体性感覚野の下方，外側溝の縁に沿った内壁では，別の両側性体部位局在再現が構成され例体性感覚野では，体表⾯の特定の場所に対応したニューロンがある(Somatotopic map)．ニューロンの位置は体の場所と対応している．図 3 . 16 ヒトの 1 次体性感覚野におけるホムンクノレス像 (内川恵⼆編，聴覚・触覚・前庭感覚) Penfield Rasmussen, 1950の⽂献の図の改変左図では，対側の大まかand な投射位置と密度が表現されている．右図は左右を合体させ，ヒト型に表現し体部位局在再現を比織的に表現．実際には 3 次元から 2 次元への写像であるため，複雑な地図となる．初期の受容野の論文Sherrington, C S (1906); Hartline (1938) 元の文献を詳しくチェックしていない

All or none law (全か無かの法則) (1914年) • 全か無かの法則 • ニューロンは閾値未満の刺激では活動電位を発⽣させず，閾値を超えた刺激は，その全てが同じ振幅の活動電位を発⽣させる(カンデル神経科学)． • 単純化すると，ニューロンは⼊⼒が閾値を超えると1を出⼒し，そうでなければ0を出⼒する．⼊⼒出⼒活動電位の最⼤値⼊⼒の閾値 t0 ⼊⼒が閾値を超えたら1を出⼒をするという現象はステップ関数で表現できる．活性化関数でよく⽤いられるシグモイド関数は，その値を確率として捉えると⼊⼒が⼩さいと発⽕率が低く，⼊⼒が⼤きいと発⽕率が⾼いことを表していると⾔える（発⽕とはニューロンが活動電位を発すること）．ここでの発⽕率はニューロン単体のものとも解釈できるが，ニューロン集団のものだとも解釈することもできる．それではReLUはどのように解釈すればよいのだろうか？ t0 time ⼊⼒が閾値をこえるとニューロンは活動電位を発する．活動電位の⼤きさは⼀定である．この図は単純化のため活動電位（膜電位）を線で表現しているが，実際の膜電位変化は幅を持っている．実際のニューロンのダイナミクスはAll or non lawで表現できるほど単純ではない． Adrian E. D. (1914). The all-or-none principle in nerve. The Journal of physiology, 47(6), 460–474. 元の文献を詳しくチェックしていない．

10.

まとめ • 脳は神経細胞（ニューロン）からなることが分かった． • 脳の構造が分かり始めた． • ニューロンの応答の規則が分かり始めた．

11.

神経科学の理論的研究の始まり

12.

線形閾値素⼦

13.

神経細胞の信号伝達シナプス前活動電位シナプス前ニューロンシナプス後電位が誘発され続けると，いずれ閾値を超え，活動電位を発する． 𝑉 膜電位 𝑉 𝑡 シナプス前活動電位興奮性シナプス後電位閾値ℎ 𝑡 活動電位により，次のニューロンに信号が伝わる． 𝑉 シナプス後ニューロンシナプスに活動電位が到達すると，シナプス前部から神経伝達物質は放出され，シナプス後部でそれを受け取り，シナプス後電位 (postsynaptic potential: PSP)が発⽣する．発⽣するシナプス後電位の⼤きさはシナプ Figure 10-7 Synaptic transmission at chemical synapses involves several steps. An action potential arriving at the terminal of a presynaptic axon causes スの強度（重み，荷重）に依存する． voltage-gated Ca channels at the active zone to open. The influx of Ca produces a high concentration of Ca near the active zone, which in turn causes vesicles 2+ 2+ 2+ (Kandel, Principals of Neuroscience) containing neurotransmitter to fuse with the presynaptic cell membrane and release their contents into the synaptic cleft (a process termed exocytosis). The released neurotransmitter molecules then diffuse across the synaptic cleft and bind to specific receptors on the post-synaptic membrane. These receptors cause ion channels to open (or close), thereby changing the membrane conductance and membrane potential of the postsynaptic cell. The complex process of chemical synaptic transmission is responsible for the delay between action potentials in the pre- and post-synaptic cells compared with the virtually instantaneous transmission of signals at electrical 𝑡 ニューロン

14.

神経細胞の数理モデル化シナプス前ニューロン1 シナプス前ニューロン１が発⽕するとスパイクがニューロンに向かう．この場合，ニューロン１の出⼒𝑥!を1とする．逆に発⽕していなければ 𝑥! = 0となる．発⽕したら 𝑥! = 1 そうでなければ 𝑥! = 0 ニューロンは閾値ℎを持つ．シナプス前ニューロン2 𝑥" 𝑥# シナプス前ニューロン3 ニューロンには⼊⼒𝑥!が直接⼊⼒されない．シナプス 𝑤!を介してニューロンに⼊る．シナプスは⼊⼒に対し積の形で作⽤する．結果として，ニューロンはシナプス前ニューロン1から 𝑤!𝑥! の⼊⼒を受ける（シナプス後電位が発⽣する）． 𝑤% ℎ 𝑧が閾値を超えたら活動電位を発するので1を出⼒する．そうでなければ0を出⼒する．これはステップ関数 𝑓 𝑎 − ℎ で表せる．出⼒ニューロン 𝑧 𝑦 𝑓(⋅) ニューロンは複数の神経細胞から⼊⼒を受ける．⼊⼒の総和𝑎は， 𝑎 = # 𝑤! 𝑥! ! と書ける．𝑎を前活性(pre-activation)という．

15.

線形閾値素⼦(Linear threshold unit) • 線形閾値素⼦は図に⽰すニューロンの数理モデルである．閾値⼊⼒ 𝑥% • ⼊⼒𝑥! がニューロンに伝わる強さ 𝑤" を重 𝑥' み，結合荷重，シナプス荷重などと⾔う． • ⼊⼒𝑥" と重み𝑤" をかけたものの総和が閾値ℎを超えたら，ニューロンは1を出⼒する． • PSP (Post-synaptic potential)の蓄積の結果，膜電位が閾値を超えるとスパイクが発⽣する現象をモデル化したとも⾔える（右下図）． " 𝑤& 𝑥& 𝑤' 𝑥( ℎ 𝑤% & 𝑤( EPSP（興奮性PSP）により脱分極した膜電位が閾値を超えると発⽕する．シナプス前ニューロンからスパイクが到達するとEPSPが発⽣する． (Gerstner and Kistler, Spiking neuron models) 𝑦 閾値を超えたら1を出⼒そうでなければ0を出⼒結合荷重 • この閾値処理はAll or None law (全か無かの法則)に基づく．現代⼈の⽴場からMcCulloch-Pittsのニューロンモデルを書き直したものと⾔えるだろう．このスライドの記述は⽣物よりに書いている． 𝑓(⋅) 出⼒

16.

線形閾値素⼦(Linear threshold unit) • ⼊⼒を 𝑥" ，重みを 𝑤" ，ℎを閾値とすると前活性𝑎とニューロンの出⼒（活性）𝑦 は次のように書ける． • 𝑎 = ∑" 𝑤" 𝑥" • 𝑦 =𝑓 𝑎−ℎ • 𝑓(⋅)は活性化関数である．活性化関数にステップ関数を使⽤した場合， 𝑓(𝑎)は次のように書ける．⼊⼒ 1 • 𝑓 𝑎 =0 0 if 𝑎 > 0 otherwise 閾値 𝑥! 𝑥" 活性化関数 𝑥# ０ 𝑎 ( 𝑤$ 𝑥$ 𝑤" 𝑓(𝑎) ℎ 𝑤! 𝑓(⋅) 出⼒ 𝑦 $ 𝑤# 重み閾値を超えたら1を出⼒そうでなければ0を出⼒

17.

AND演算を実現する • AND演算を実現するために図のような2⼊⼒1出⼒のネットワークを考える． • 𝑤- = 𝑤. = 1, ℎ = 1.5とすると，⼊⼒と出⼒の関係は次のように書ける． • 𝑦 = 𝑓(𝑥- + 𝑥. − 1.5) • この式はAND演算を実現している． • 重みや閾値を⼈間の決め打ちではなく⾃動で決めたい！！ AND演算 𝑥& 𝑥' 𝑦 0 0 0 1 0 0 1 1 0 1 0 1 ネットワークの各数値 𝑥& 𝑥' 𝑥, + 𝑥- − 1.5 𝑦 ネットワーク⼊⼒𝑥% 𝑤% 𝑦 𝑥' 𝑤' 0 0 0 1 −1.5 −0.5 0 0 1 1 0 1 −0.5 0.5 0 1

18.

McCullochとPittsのニューラルネットワークモデル

19.

McCulloch-Pitts neuron neural network model (1946年) • McCullochとPittsは1946年の論⽂でニューラルネットワークで様々な論理演算ができるといっている． • 閾値論理素⼦の提案 • 神経細胞は論理計算を⾏える． • McCulloch-Pittsのneuron model • ニューラルネットワークの提案 • 様々な論理演算をするネットワークを構築することができる． • McCullochとPittsの論⽂に記載されている前提条件 • ニューロンの活動は全か無かの法則に従う． • ニューロンを興奮させるためには、ある期間内に⼀定の数のシナプスが興奮していなければならない．この数は以前の活動やニューロン上の位置に依存しない． • 神経系の中で唯⼀の重要な遅延はシナプスの遅延である． • 抑制性シナプスの活動は，その時点でのニューロンの興奮を絶対に阻⽌する． • ネットワークの構造は時間とともに変化しない． (McCulloch and Pitts 1946) 分かりにくい論⽂

20.

前提条件に対する私⾒ • McCullochとPittsの論⽂に記載されている前提条件 • ニューロンの活動は全か無かの法則に従う． • この考え⽅に基づいて活性化関数にステップ関数やシグモイド関数が採⽤されている． • ニューロンを興奮させるためには、ある期間内に⼀定の数のシナプスが興奮していなければならない．この数は以前の活動やニューロン上の位置に依存しない． • 現在のニューラルネットワークでも，ニューロンの応答の履歴はそのニューロンの応答に影響を与えない（フィードバックとして間接的に影響を受ける場合はあるだろうが）． • 現在のニューラルネットワークでも，シナプスの位置を考慮しない • 神経系の中で唯⼀の重要な遅延はシナプスの遅延である． • シナプスの遅延は現在のニューラルネットワークでは考慮されていないが，リカレント構造で遅延を実現している． • しかし，ここで⾔う遅延は各ニューロン（各層）の処理を逐次的に⾏うといった意味にもとれる．現在のニューラルネットワークもその考え⽅で動いている． • 抑制性シナプスの活動は，その時点でのニューロンの興奮を絶対に阻⽌する． • 現在のニューラルネットワークでは興奮性と抑制性のシナプスの区別をつけていない． • ネットの構造は時間とともに変化しない． • これも現在のニューラルネットワークにつながる考え⽅だろう． • 学習のときは変化するが，実際に利⽤するときはシナプス荷重を変化させない．

21.

McCulloch-Pitts neural network model McCullochとPittsによる様々なネットワーク．これらはすべて対応する論理計算が存在する． Kleene によるニューラルネットワークによる論理計算の例．⿊丸は興奮，⽩丸は抑制性結合を表す． P三⾓の中の数字は閾値を表す．つまり，J, K, Lが発⽕し，M, Nが発⽕しなければPは発⽕するネットワークである．これを論理式になおすと 4 ⋅𝑁 4 𝑃 =𝐽⋅𝐾⋅𝐿⋅𝑀 となる． (Kleene, 1951) (McCulloch and Pitts, 1946)

22.

McCulloch-Pitts neural network model • McCullochとPittsの研究から，神経細胞が論理素⼦であると考えれば，論理素⼦で実現できるあらゆる計算を脳が⾏うことができると考えることもできる． • ニューラルネットワークでNAND回路も実装可能なので，ニューラルネットワークであらゆる論理回路が当然実現可能だろう． • この研究の段階ですでに，時間遅れ，フィードバック接続など考えられている．この考えは後のリカレントネットワークで開花する． (McCulloch and Pitts, 1946)

23.

Hebbian learning（ヘブ学習）(1949年) • Hebbが提案した脳の学習の理論 • シナプス前ニューロンが繰り返し発⽕し，シナプス後ニューロンの発⽕を助けたとき，そのシナプスは成⻑する．ニューロンの応答ニューロンの応答 time time 学習によりシナプスが成⻑する．ニューロンの応答 time Hebbの本では，当時おばあさん細胞説とpopulation codingが議論されていて，population codingが主流であると述べている．Hebbはおばあさん細胞説に基づき議論している．なかなか⾯⽩い．ニューロンの応答 time (Hebb, 1949)

24.

線形閾値素⼦を⽤い⾃動で⽬的の演算を実現するには • ニューロン（線形閾値素⼦）を組み合わせる（ネットワーク化）することで，様々な計算が出来るかもしれないことが分かった． • 線形閾値素⼦の接続の重みを変えることで，線形閾値素⼦の演算能⼒が変わる． • つまり，ネットワークにさせたい演算に合わせて重みの変更（シナプスの学習）を⾏えば良い． • しかし，どのように学習すればネットワークに意図した演算をさせることができるだろうか？

25.

ニューラルネットワーク研究の隆盛と冬の時代

26.

よく⾒るパーセプトロンの説明

27.

分類問題 • データをクラスに分ける問題学習判断未知のデータ 2 2 2 1 2 1 2 １ 2 2 2 1 2 2 2 １ラベル付きデータ（答えがついているデータ）を⽤意する．三⾓データにクラス1，丸データにクラス2というラベルが付いている．１ 2 １１ 2 １ラベルがついているデータを分けるための線（決定境界）を⾒つける．学習により習得した決定境界を使い，未知のデータを分ける．⽤意された三⾓データと丸データをそれぞれ1と2のラベルを付けられる線を⾒つける．データの場所が線の左ならクラス1，右ならクラス2に分類される．未知のデータを⼊⼒し，クラス分けする（ラベルを付ける）．ネットワークは未知のデータが線より左なら1，右なら2のラベルを付ける．

28.

AND演算と分類 • AND演算は2つの⼊⼒から1つの出⼒を得ている． • 2つ⼊⼒する数値があることは，⼊⼒は2つの数値を持った何か，すなわち2次元のベクトルであると⾔える • また，出⼒は2次元ベクトルについたラベルであると考えられる． • つまり，AND演算は⼊⼒をラベル0とラベル1に分ける問題だと⾔える． • ニューラルネットワークはAND演算が解ける． • ニューラルネットワークはデータを分ける線を引いてAND演算を解いている． AND演算 𝑥& 𝑥' 𝑦 0 0 0 1 0 0 1 1 0 1 0 1 𝑥& と𝑥' の2つの値が⼊⼒ 𝑦は出⼒ (0, 1) 0 1 (1, 1) (0, 0) 0 0 (1, 0) 機械学習では⼊⼒ベクトルに 0か1かのラベルを付ける．ラベルをつけるために，データを分ける線を学習により求める必要がある．データとなる数値が𝒙 = (𝑥& , 𝑥' )のベクトル 𝑦はラベル

29.

パーセプトロンの簡単な紹介 • パーセプトロンは⼼理学者Rosenblattが開発した学習が可能なニューラルネットワーク（1957, 1958）である． • パーセプトロンは2層のニューラルネットワークで，それらの重みは教師あり学習により最適化する（答えと出⼒を⽐べ，それの結果を⽤い重みを学習する）． • 分類問題がとける（データを分ける線を⾒つけられる）．

30.

パーセプトロンの簡単な説明 • 2クラス問題が解ける（ラベルが2種類のみ）． • ⼊⼒層と出⼒層からなるニューラルネットワークである． • ⼊⼒層は⼊⼒の値そのものを出⼒層のニューロンに送る． • 出⼒層は閾値素⼦である．出⼒層⼊⼒層 x0 x1 w0 w1 y 出⼒ wi xi ⼊⼒ベクトル 𝒙 = 𝑥% , 𝑥! , … , 𝑥$ , … , 𝑥& ' 重みベクトル 𝒘 = 𝑤% , 𝑤! , … , 𝑤$ , … , 𝑤& '

31.

[beta]

パーセプトロンの数式表現
• ⼊⼒ベクトルを𝒙 = 𝑥; , 𝑥- , … , 𝑥" , … , 𝑥< ! とする．

パーセプトロンは，⼊⼒ベクトルと重みベクトルの内積
（w !x = w x cos θ）が正か負かを基準に，⼊⼒ベクト
ルを分ける．⾔い換えれば，⼊⼒ベクトルと重みベクト
ルがおおよそ同じ⽅向を向いている（⼊⼒ベクトルが重
みベクトルに対し，±90度）かどうか調べている．

• ただし𝑥) = 1である．𝑤)𝑥)をバイアスという．

• 重みベクトルを𝒘 = 𝑤; , 𝑤- , … , 𝑤" , … , 𝑤< ! とする．

⼀般化線形モデル
𝑤と𝑥の掛け算の和を⾮線形活性化関数で変換しているモ
デル．

• 次の⼀般化線形モデルを構成する．
• 𝑦 = 𝑓 ∑<
"=; 𝑤" 𝑥"

!

= 𝑓(𝒘 ⋅ 𝒙)

• ここで⾮線形活性関数𝑓(⋅)を
• 𝑓 𝑢 =0

1 if 𝑢 ≥ 0
−1 otherwise

• とする．これをステップ関数と呼ぶ．

⼊⼒層

出⼒層

𝑥0

𝑤0
𝑤1

𝑥1

𝑦

出⼒

𝑤𝑖

𝑥𝑖
⼊⼒ベクトル
𝒙 = 𝑥% , 𝑥! , … , 𝑥$ , … , 𝑥& '

重みベクトル
𝒘 = 𝑤% , 𝑥! , … , 𝑤$ , … , 𝑤& '

32.

[beta]

パーセプトロンの学習
• パーセプトロンでは，学習により出⼒と𝑡を⼀致させることが⽬的となる．
• データ点𝒙( に対し，ラベル𝑡> が付属するとする．𝑡> ∈ {−1,1}である．
• 例えば，データ点がクラス𝐶%に所属するとき𝑡* = 1，クラス𝐶'に所属するとき𝑡* =
− 1とする．

• あるデータ点𝒙. を⼊⼒したとき，出⼒がラベルと⼀致しなければ次の式で重
みを更新する．
⼊⼒層

• 𝒘 ← 𝒘 + 𝜆𝒙* 𝑡*

𝑥0

• 𝜆は学習率である．
更新式は次のように次のような意味を持つ．𝑡" = 1のときは，𝒘を 𝒙" に少し向
ける． 𝑡" = −1のときは，𝒘を少し𝒙" の反対に向ける．
また，𝜆は⼩さな数値である．𝜆があるため1回の学習で 𝒘が⼤きく変化しない．
𝜆の値が⼤き場合，𝒘が更新のたび⼤きく変わってしまう．これは，1回の学習
ごとに⼊⼒に対し過剰に適応してしまうことを意味するだろう．つまり， 最適
な𝒘 がいつまでも求まらない可能性が⾼くなる．また，最適な𝒘が求まってい
たとしても，次の学習で最適な𝒘から⼤きくずれる可能性が⾼くなる．

出⼒層

𝑤0
𝑦

𝑤1
𝑥1

𝑥𝑖

出⼒

𝑤𝑖
重みベクトル
𝒘 = 𝑤% , 𝑥! , … , 𝑤$ , … , 𝑤& '

⼊⼒ベクトル𝒙 = 𝑥% , 𝑥! , … , 𝑥$ , … , 𝑥& '

33.

重み修正の様⼦ 1. 出⼒を1でなければならないところを−1になってしまったため，𝒘に 𝜆𝒙を⾜した． 2. 決定境界が更新された． 3. 出⼒を1でなければならないところを−1になってしまったため，𝒘に 𝜆𝒙を⾜した． 4. 決定境界が更新された．その結果，⾚丸と⻘丸が境界で正しく区分けされた． 1 2 3 4

34.

パーセプトロン規準と更新式 • パーセプトロンでは正しく分類された場合誤差を0とし，誤分類された⼊⼒𝒙* に対しては−𝒘+ 𝒙* 𝑡* の最⼩化を試みる． • つまり，誤差の総和は • 𝐸, 𝒘 = − ∑*∈. 𝒘/ 𝒙* 𝑡* • これをパーセプトロン規準という．𝑀は誤分類された⼊⼒の集合を表す． • これの𝒘についての微分をとると • ∇𝐸, 𝒘 = − ∑*∈. 𝒙* 𝑡* • 勾配法を⽤いてパーセプトロン規準を最⼩にする𝒘を求める．各ステップでデータ点が⼀つしか⼿に⼊らないため ∇𝐸0 𝒘 = −𝒙* 𝑡* となる．よって • 𝒘*12 = 𝒘 − 𝜆∇𝐸, 𝒘 = 𝒘 + 𝜆𝒙* 𝑡* • となり，先の更新式が得られる．

35.

パーセプトロンの学習例 • ⼊⼒層は３つのユニット，出⼒層は1つのユニットで構成されるネットワークを考える． • このネットワークでAND演算を実現してみよう．ネットワークに覚えさせる⼊出⼒の関係（AND演算） x0 x1 x2 t 1 0 0 -1 1 0 1 -1 1 1 0 -1 1 1 1 1 ここではTrueを1，Falseを-1としている．出⼒層⼊⼒層 x0 x1 w0 w1 wi xi y 出⼒

36.

パーセプトロンの学習例 • 初期値：𝑤; = 0, 𝑤- = 1, 𝑤. = 1, 𝜆 = 0.5とする． • このとき，出⼒は𝑦 = 𝑓(𝑥- + 𝑥. )と書ける． • ネットワークにそれぞれの⼊⼒を代⼊してみる． • 𝑥; = 1, 𝑥- = 0, 𝑥. = 0を⼊⼒すると，𝑦 = 1となり不正解 • 𝒘 + 𝜆𝒙𝑡 = 0,1,1 + 0.5× 1,0,0 × −1 = (−0.5, 1, 1) • この学習により，出⼒は次のようになる． • 𝑦 = 𝑓(−0.5𝑥; + 𝑥- + 𝑥. )

37.

パーセプトロンの学習例 • 𝑦 = 𝑓(−0.5𝑥; + 𝑥- + 𝑥. ) • 𝑥; = 1, 𝑥- = 0, 𝑥. = 1を⼊⼒すると，𝑦 = 1となり不正解なので学習する． • 𝒘 + 𝜆𝒙𝑡 = −0.5,1,1 + 0.5× 1,0,1 × −1 = (−1, 1, 0.5) • この学習により，出⼒は次のようになる． • 𝑦 = 𝑓(−𝑥; + 𝑥- + 0.5𝑥. )

38.

パーセプトロンの学習例 • 𝑦 = 𝑓(−𝑥; + 𝑥- + 0.5𝑥. ) • 𝑥; = 1, 𝑥- = 1, 𝑥. = 0を⼊⼒すると，𝑦 = 1となり不正解なので学習する． • 𝒘 + 𝜆𝒙𝑡 = −1,1,0.5 + 0.5× 1,1,0 × −1 = (−1.5, 0.5, 0.5) • この学習により，出⼒は次のようになる． • 𝑦 = 𝑓(−1.5𝑥; + 0.5𝑥- + 0.5𝑥. )

39.

パーセプトロンの学習例 • 𝑦 = 𝑓(−1.5𝑥; + 0.5𝑥- + 0.5𝑥. ) • 𝑥; = 1, 𝑥- = 1, 𝑥. = 1を⼊⼒すると，𝑦 = −1となり不正解なので学習する． • 𝒘 + 𝜆𝒙𝑡 = −1.5,0.5,0.5 + 0.5× 1,1,1 × 1 = (−1, 1, 1) • この学習により，出⼒は次のようになる． • 𝑦 = 𝑓(−𝑥; + 𝑥- + 𝑥. )

40.

パーセプトロンの学習例 • 𝑦 = 𝑓(−𝑥; + 𝑥- + 𝑥. ) • 𝑥; = 1, 𝑥- = 0, 𝑥. = 0を⼊⼒すると，𝑦 = −1となり正解 • 𝑥; = 1, 𝑥- = 0, 𝑥. = 1を⼊⼒すると，𝑦 = 1となり不正解なので学習する． • 𝒘 + 𝜆𝒙𝑡 = −1,1,1 + 0.5× 1,0,1 × −1 = (−1.5, 1, 0.5) • この学習により，出⼒は次のようになる． • 𝑦 = 𝑓(−1.5𝑥; + 𝑥- + 0.5𝑥. )

41.

パーセプトロンの学習例 • 𝑦 = 𝑓(−1.5𝑥; + 𝑥- + 0.5𝑥. ) • 𝑥; = 1, 𝑥- = 1, 𝑥. = 0を⼊⼒すると，𝑦 = −1となり正解 • 𝑥; = 1, 𝑥- = 1, 𝑥. = 1を⼊⼒すると，𝑦 = 1となり正解 • 𝑥; = 1, 𝑥- = 0, 𝑥. = 0を⼊⼒すると，𝑦 = −1となり正解 • 𝑥; = 1, 𝑥- = 0, 𝑥. = 1を⼊⼒すると，𝑦 = −1となり正解 • よって，すべての⼊⼒に対し正解したので学習を終了する．出⼒層⼊⼒層 x0 AND演算ができるニューラルネットワーク x1 xi 𝑤% = −1.5 𝑤! = 1 y 𝑤" = 0.5 出⼒

42.

よく⾔われるパーセプトロンの⽋点 • 線形分離不可能な問題（直線で分けられない問題）は解けない． • 例：XOR演算が解けない • これは2層のパーセプトロンの問題である． • 活性化関数（Activation function）の連続関数化とBackpropagationによりパーセプトロンの多層化が可能となり解消したと⾔われる． • MinskyとPapertによる指摘によりニューラルネットワークブームが終わったと⾔われることが多い． XOR演算 AND演算 (0, 1) 0 1 (1, 1) (0, 1) 1 0 (1, 1) (0, 0) 0 0 (1, 0) (0, 0) 0 1 (1, 0) ANDの場合，直線で分けられる（線形分離可能）．⼊⼒を座標，出⼒を⽩⿊（それぞれ0,１に対応）で表現している． XORの場合，直線で分けられない（線形分離不可能）． MinskyとPapertのPerceptronsでは，パーセプトロンはx=yを判別することができないことを⽰している．

43.

Rosenblattのパーセプトロン

44.

Rosenblatt （1958）のパーセプトロン • 4層もしくは3層構造である． • ランダム接続を持つ． • 受容野構造を持つ． • 層内，層間の抑制性結合を持つ． • フィードバック接続を持つ． • 脳のモデルでもあり，並列計算機でもある． • フィードフォワード学習である（Rosenblatt, 1962）． • 誤差のバックプロパゲーションも考えている（Rosenblatt, 1962）． • これらを⾒ると，かなり先進的なモデルであったことが伺える．

45.

パーセプトロンのネットワーク構造 • Rossenblatt, 1958で提案されたパーセプトロンは4層で構成される． • 閾値素⼦で構成される（all-or-nothing rule）． • Retina (S-points)の出⼒はAIに送られる．興奮性と抑制性の接続を想定している．AIはRetinaに受容野を持ち，重みはある点を中⼼に指数関数的に減衰する．AIは省略される事がある． • AIとAIIはランダムに接続している． • AIIとRはランダムに接続している．接続は相互接続（フィードフォワードとフィードバック）である．

46.

Rossenblattのsimple perceptron (1958) • Rossenblattは3層のパーセプトロンも提案している． • RossenblattもMinskyとPapertも基本的に3層のパーセプトロンについて議論している．モデル図．点線は抑制性接続． Rossenblatt⽈くベン図．⽩丸は抑制性接続．⾊付きの領域はR1が応答したときに活性化するunitsのセット． A-unitはそれぞれランダムにretinaに接続している．ランダム接続は，輪郭線というより同期領域を捉える（Rossenblattは時間変化も考慮している）．抑制性接続により，R1が応答した場合，R2に関連するunitsのセットの応答は抑えられる．学習するためには，A-unitか接続を変更する必要がある．

47.

Rossenblattのパーセプトロンではランダム接続がある． • RetinaとA-unitsはランダムに接続している． • ランダム接続には含蓄がある．

48.

ランダム接続の含蓄（役割） • 2層のパーセプトロンは線形分離可能な問題しか解けない．このスライドでは⼊⼒層も1層として考え，パーセプトロンを2層としている． • 線形分離不可能な問題を解くにはどうすればよいか？ • ⼊⼒をどうにか変形して線形分離可能にする． • ランダム接続で⼊⼒を変換し，偶然線形分離可能な形になることを期待する． S-units A-units x0 ランダム接続で変換 R-units 出⼒ x1 y xi ランダム接続で変換⼊⼒線形分離不可能 A-unitsの出⼒線形分離可能になるかもあくまでも概念図です．

49.

ランダム接続の含蓄（受容野） • ⼊⼒の特徴を捉える特別な接続（受容野）を考えることもできる． • 特別な接続を作るのは難しい．⼀⽅で，ランダム接続を作るのは簡単である（ Minsky and Papert, 1968）． • 畳み込みニューラルネットワークは，学習により局所特徴を捉える特別な接続を作ることができる．極端な例を考えると，S-unitsとA-unitsの接続を⽂字の形にしてしまえば，A-unitsは⽂字それぞれの⽂字に対応して応答する．Xの形の接続を持つA-unitはXのみに応答する．しかし，そのような接続では，⽂字の⼤きさが変わると対応できない． MinskyとPapertはS-unitsとA-unitsの接続について⾊々考察している．受容野 (Minsky and Papert, 1968)

50.

ランダム接続の含蓄（深い多層パーセプトロン） • 通常，層間の接続はランダムな値で初期化される． • ランダムなネットワークは，⼊⼒を何らかのパターンに変換する． • 深いネットワークでは，⼊⼒層に近いランダムなネットワークが⼊⼒を変換し，そのランダムネットワークの出⼒パターンを出⼒層に近いネットワークが学習するという現象が起こる． • ランダムネットワークの出⼒パターンを⽤いればデータを識別できてしまうため，⼊⼒に近い層は学習する必要がない． • つまり，深い多層パーセプトロンではランダムネットワークと識別ネットワークの2重構造になる． • この構造は，Rosenblattのパーセプトロンと同じである． • 以上のような現象が起こるため，無闇にネットワークを深くしてもランダムネットワークが⼤きくなるだけで意味がないかもしれない．ランダムな値に初期化⼊⼒ランダムな値のまま出⼒⼊⼒学習が進む出⼒学習出⼒層に近いネットワークがランダムネットワークで変換されたパターンを覚える．

51.

ランダム接続の含蓄（結局運次第か） • パーセプトロンの識別能⼒はランダム接続で⼊⼒の特徴を捉えられるかどうかで決まる．つまり，運次第ということである． • ニューラルネットワークの能⼒は運次第であるという考え⽅は，深層ニューラルネットワークにも当てはまるかもしれない． • 深層ニューラルネットワークでは，当たりのランダムな接続が存在し，当たりの接続を探しそれを学習すれば⾼性能になるという，宝くじ仮説というものもある (Frankle and Carbin, 2019)．（この説明は不正確なため元論⽂をチェックしよう）

52.

ランダム接続の含蓄（Liquid state machine） • ランダム接続を持つニューラルネットワークは現在でも研究されている． • Rosenblattのパーセプトロンは層間をランダムに接続した． • 現在よく研究されているランダム接続を持つニューラルネットワークは，層内の接続がランダムであるニューラルネットワークである． • Liquid state machine (Maass, 2002), Echo state network (Jaeger, 2001; 2002)，リザーバーコンピューティング • Rosenblattはパーセプトロンで時系列を学習させることに限界を感じていたようだ（ Rosenblatt, 1958）．しかし，Liquid state machineなどでは層内接続をランダムにし接続間の信号伝達に時間遅れを⼊れることで，時系列の特徴を捉えることを可能にしている． • Rosenblattは惜しい所まで来ていた． liquid or reserver ⼊⼒出⼒

53.

フィードバック接続 • A層とR層にフィードバック接続がある． • これは，現在のリカレントニューラルネットワーク（RNN）に繋がる． • RNNは時系列を学習できるニューラルネットワークである． • RNNは信号処理や⾃然⾔語処理などで活⽤できる． • Rosenblattはパーセプトロンで時系列を学習させることの限界をRosenblatt, 1958のまとめで述べている． • Rosenblattのパーセプトロンが連続時間であることが処理を難しくしているのだろうか？

54.

パーセプトロンの学習 • RosenblattのNeurodynamicsに書かれている学習 • Hebbian learningを採⽤している． • α-system reinforcementの例 • ユニットiが活性化したとき，それと接続するユニットjとの間の重みは次の式で更新される． • Δ𝑤01 = 𝜂 𝑤./ i j • MinskyとPepertのPerceptronsに書かれている学習の１例 • 今Percetronの学習として伝わっている，学習⼿法が書かれている．

55.

パーセプトロンは脳型ニューラルネットワークである． • Rossenblattも脳の⽣理学的，解剖学的知⾒に基づきパーセプトロンを作成，考察している． • 連続時間を考慮したモデル． • そもそものニューラルネットワークは脳のニューラルネットワークのモデルであった． • 時代が進むにつれニューラルネットワークが⼈⼯ニューラルネットワークになった．

56.

パーセプトロンは並列計算をするコンピュータである • パーセプトロンは並列計算をするコンピュータも⽬指している． • コンピュータの歴史 • 1946年 ENIAC • 1951年 UNIVAC 1 汎⽤コンピュータ • 1952年 IBM701 商⽤科学技術計算機 Mark 1 perceptron • 1954年 IBM704 • Rosenblattはまず，これを使ってパーセプトロンを動かす． • 後にパーセプトロンをハード的に実装したMark 1 perceptronを作る． • ランダム接続を前提としているから正確な配線が必要なかった． • 重みはボリューム（potentiometer）で実装され，その重みはモーターで⾃動的に変えられる． • 1956年 FORTRAN プログラミング⾔語 • 1961年 IBM7030 • 1964年 System/360 メインフレームおまけコンピュータの計算⼒が低い時代，シミュレーションはコンピュータを使うのではなく電気回路でやっていた（数理モデルを等価回路に置き換え，実際にその電気回路を組み，その回路に電流を流すことで数理モデルを解く）．

57.

Rosenblattのc-system • Rosenblattの開発したc-systemは畳み込みニューラルネットワークの元祖と呼べるかもしれない． (Rosenblatt, 1967)

58.

よく⾔われるニューラルネットワークの冬の時代 • パーセプトロンの当時，ニューラルネットワークがブームになったと⾔われている． • しかし，MinskyとPaperのPerceptronsという書籍で，パーセプトロンの限界が⽰された（パーセプトロンは線形分離不可能な問題が解けない）ため，ニューラルネットワークの研究が下⽕になり，冬の時代が訪れたと⾔われている． • 本当にそうなのだろうか？ • 彼らは多層のパーセプトロンに対しても制限があると間違った推測した．そのため，ニューラルネットワークへの熱意が下がり，1970 年代から1980 年代初頭にかけてニューラルネットワークに対する関⼼と資⾦が不⾜する原因となった(Bishop and Bishop, 2023)． • そのわりにはIvakhnenkoの多層ニューラルネットワーク(1971)やvon der Marlsberg(1973) ，Amari(1980)，Kohonen(1983)の⾃⼰組織化マップ，FukushimaのNeocognitoron(1980) ，HopfieldのHopfield network(1982)などニューラルネットワークの重要な研究が冬の時代に⾏われている．

59.

なぜニューラルネットワークの冬の時代が来たのか • MinskyとPapertのPerceptronsによりこれまでの多くの研究が徒労であることが分かった． • Perceptronsの改訂版で述べている． • Perceptronsでは，Perceptronに対し様々な考察をしている． • 彼らはPerceptronではなく，研究者を痛烈に批判している． • 彼らはPerceptronに敬意を払っている．本の中であつかう計算アルゴリズムを Perceptronとあえて⾔っているのは敬意から． • MinskyとPapertが⼗分Perceptronを調べた． • ⿇⽣, 1988はMinskyとPapertが区切りをつけたと述べている．

60.

なぜニューラルネットワークの冬の時代が来たのか • 並列処理から逐次処理へ (⽢利, 1985) • Perceptronはアナログ並列計算機． • 計算量が膨⼤問題 (Minsky and Papert, 1969; ⽢利ら, 2002)

61.

ニューラルネットワークの歴史を振り返る • 第⼀次ニューラルネットワークブーム（今のようなコンピュータは無いよ） • Perceptron • 冬の時代 • 興味がニューラルネットワークから離れる • ノイマン型コンピュータの登場 • 並列処理から逐次処理へ (⽢利 1985) • 計算量が膨⼤問題 (⽢利 2002) • 予算削減(Bishop and Bishop, 2023) • 簡単にパーセプトロンマシーンを作れるか？（私⾒） • 第⼆次ニューラルネットワークブーム • Backpropagation • 神経科学からの離脱 (Crick 1988) • ニューラルネットワークから⼈⼯ニューラルネットワークになる（私⾒）． • 冬の時代 • ⼈⼯ニューラルネットワークから機械学習へ興味が移⾏した（私⾒）． • SVMなど学習⼿法の選択肢が増える(私⾒)． • ⼈⼯ニューラルネットワークが機械学習に取り込まれる（私⾒）． • 第三次ニューラルネットワークブーム • データ量，コンピュータの計算⼒の増⼤，開発プラットフォームの整備

62.

神経科学も含めたニューラルネットワークの歴史 • 1873年ゴルジ染⾊ • 1987年 Neuron doctrine 脳の構造が⾒えた脳は独⽴したニューロンからなるニューロンの応答規則が少し分かった • 1906年 Receptive field • 1914年 All or none law • 1946年 McCulloch-Pitts model • 1957年 Perceptron • 1968年 Primary visual cortex • 1980年 Neocognitron • 1986年 Backpropagation, Autoencoder, Recurrent network • 1989年 LeNet • 1997年 LSTM • 2002年 Liquid state machine • 2006年 Deep belief network • 2012年 Alexnet • 2017年 Transformer 詳しい年表はQiitaにあります．https://qiita.com/KazuhisaFujita/items/b40f2363558c373bde55 ニューラルネットワークは計算ができるようだ 1層のニューラルネットワークの学習ができる第1次視覚野の情報処理が分かった畳み込みニューラルネットワークの元祖登場多層のニューラルネットワークの学習ができた深層学習がすごいことが知られた⼤規模⾔語モデルの基礎技術ができた

ニューラルネットワークの歴史と手法1

藤田一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 2 (能動的推論2)

Active inference 1 (能動的推論1)

クラスタリング

自由エネルギー原理2 -期待自由エネルギー-

各ページのテキスト

ニューラルネットワークの歴史と手法1

藤田 一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 2 (能動的推論2)

Active inference 1 (能動的推論1)

クラスタリング

自由エネルギー原理2 -期待自由エネルギー-

各ページのテキスト

藤田一寿