ニューラルネットワークの歴史と手法1

9.3K Views

May 10, 22

スライド概要

大学院で使っているニューラルネットワークについての資料です.パーセプトロンまで書かれています.
たまに更新しています.

profile-image

コンピュータを使って色々計算しています.個人的な技術に関するメモと講義資料が置いてあります.気が向いた時に資料を修正しています. 公立小松大学臨床工学科准教授 https://researchmap.jp/read0128699

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ニューラルネットワークの 歴史と⼿法1 パーセプトロンまで 公⽴⼩松⼤学 藤⽥ ⼀寿 Ver. 20240514 かなりマニアックな部分があります. 必ず元論⽂をチェックしましょう!!

2.

神経科学 ⼈⼯ニューラルネットワーク ネットワーク化 神経細胞(ニューロン) 脳 ⼈⼯ニューラル ネットワーク 数理モデル化 解剖学的知⾒に基 づき精密に脳をモ デル化した実⽤的 な⼈⼯ニューラル ネットワークはあ るだろうか.機能 をモデル化したも のはたくさんある だろう. 𝑓(𝒘! ⋅ 𝒙) ⼈⼯ニューロン ネットワーク化 ⼈⼯ニューラル ネットワーク ⼈⼯ニューロンを組み合わせ(ネットワーク化し),様々な機能を実現したものを⼈⼯ニューラルネットワークと呼ぶ. かつては,⼈⼯ニューロンは神経細胞を数理モデル化したもので,ネットワークの構造も脳を意識しており,⼈⼯ニューラルネッ トワークは神経科学のと⾔えた.しかし,現在の⼈⼯ニューラルネットワークは神経細胞や脳の数理モデルから乖離しており,表 ⾯上は脳と関係ない.表⾯上関係ないが,学習機械として共通する理論や性質があるのかもしれない.

3.

よく⾔われるニューラルネットワークの歴史 • 1943年McCullochとPittsによりニューロンモデルが提案される. • 1957年Rosenblattがパーセプトロン(ニューラルネットワーク)を発表する. • 1969年MinskyとPapertがパーセプトロンが線形分離不可能な問題が解けないことを⽰し,ニューラ ルネットワークの研究が下⽕になる. • 1986年Backpropagationによりパーセプトロンの多層化が容易にできるようになり,線形分離不可能 な問題を解けるようになる. • 性能の頭打ち,サポートベクターマシンなどの他の⼿法の発展によりニューラルネットワークの研究 が下⽕になる. • 2012年深層ニューラルネットワークが画像識別のコンペで優勝し深層ニューラルネットワークが注 ⽬される. ニューラルネッ トワークブーム 1950 1960 1957,1958 パーセプトロン 1943 McCulloch-Pitts model ニューラルネット ワークブーム 冬の時代 1970 1969 Minsky and Papert Perceptrons 1973 SOM 1980 1990 2000 1986 1989 LeNet Backpropagation 1980 Neocognitron 1983 Kohonenʼs SOM ニューラルネット ワークブーム(深 層学習ブーム) 冬の時代 1995 Support vector machine 2010 2020 2012 AlexNet

4.

神経科学の萌芽

5.

ゴルジ染⾊(⿊い反応) 1873年 • ゴルジが発明した神経細胞の染⾊⽅法 • この染⾊法により脳の内部構造の理解が深まった. 海⾺のスケッチ(Golgi, 1886) 元の文献をチェックしていない.

6.

ニューロン 1891年,シナプス 1897 • Waldeyere-Heartzが独⽴した神経単位をニューロン,ニューロンとニューロ ンのつなぎ⽬をシナプスと命名した.

7.

Neuron doctrine(ニューロン説)(1880s,1890s年) • Cajal(カハール)らが提唱した脳の構造の考え⽅. • 脳は独⽴したニューロン(神経細胞)からなる. Cajalによる海⾺のスケッチ Cajal • シナプス間隙が電⼦顕微鏡により確認され,Neuron doctrineが正しいことが分かっ た (Birks et al., 1960). • ⼀⽅ゴルジはReticular theory(網状説)を提唱した. • 脳全体が合胞体(syncytium)であり、共通の細胞質を持つ連続した組織の塊である (Gazzaniga MS et al., 2013). • 前述シナプス間隙があったため,Reticular theorは間違いであったことが分かった. • しかし,電気シナプスはギャップジャンクションで細胞膜がつながっているので Reticular theoryも正しいと⾔えるのでは? • つまり,⽣物は単純ではないようです. 元の文献をチェックしていない.

8.

Receptive field(受容野)(1906年) • ⼀つのニューロンが受け持つ空間範囲のこと. 126 3 触覚 の 生理学 に 密接 に 連絡 す る 周 辺皮質領野で, ど の よ う に 触覚情報が処理 さ れ て い る の か を • この考え⽅は畳み込みニューラルネットワークニューラルネットワークの畳み 込みに対応する. 概観す る . 3.3.1 2 つ の体性感覚野 開頭 し て 覚醒状態 に あ る ヒ ト の 中 心後回皮質 の 各点 を 電気刺激す る と , 対側 に あ る 特定 の 体部位 で触感覚が体験 さ れ る . こ の現象 を 利 用 し て , 対側体表面全体 • 脳の視覚処理のRetinotopic mapに対応. に わ た る 皮質 内表現であ る 体部位局在再現が構成 さ れた 39). こ の ホ ム ン ク ル ス と 呼 ばれ る 半身 像 は ヒ ト と 相似 で は な く , 手, 足, 口 な ど の皮府無毛部 と そ の 他の 部位 と の 対比が, 著 し く 誇張 さ れ て 描 かれ て い る ( 図 3 . 16) . ホ ム ン ク ル ス は ヒ • 畳み込みニューラルネットワークにも第1次視覚野に⾒られるガボールフィルタ様の 受容野が現れる. ト の 忠実 な コ ピ ー で は な く , 各部位が機械受容 ユ ニ ッ ト 密度 に比例 し て 拡縮 さ れ て い る . 皮 質 内 ニ ュ ー ロ ン か ら み る と , 手指 の よ う に 大 き く 誇張 し て 描 か れ た 皮 膚部位 に 対応 す る 皮質ニ ュ ー ロ ン で は , そ れ を 活性化す る 皮膚領域が地図上 の 面 積 に 反比例 し て 小 さ く な る . 例 え ば指尖 は 腹部 の 約 1/ 100 で あ る . 1 次体性感覚 野の下方, 外側溝 の 縁 に 沿 っ た 内壁 で は , 別 の 両側性体部位局在再現が構成 さ れ 例 体性感覚野では,体表⾯の特定の場所に対応し たニューロンがある(Somatotopic map). ニューロンの位置は体の場所と対応している. 図 3 . 16 ヒ ト の 1 次体性感覚野に お け る ホ ム ン ク ノレ ス 像 (内川恵⼆編,聴覚・触覚・前庭感覚) Penfield Rasmussen, 1950の⽂献の図の改変 左 図 で は , 対側 の 大 ま かand な投射位置 と 密度 が 表現 さ れ て い る . 右 図 は 左 右 を 合体 さ せ, ヒ ト 型 に表現 し 体部位局在再 現 を 比織的 に 表現. 実 際 に は 3 次元か ら 2 次元 へ の 写 像 で あ る た め , 複 雑 な 地 図 と な る . 初期の受容野の論文Sherrington, C S (1906); Hartline (1938) 元の文献を詳しくチェックしていない

9.

All or none law (全か無かの法則) (1914年) • 全か無かの法則 • ニューロンは閾値未満の刺激では活動電位を発⽣させず,閾値を超えた刺激は,そ の全てが同じ振幅の活動電位を発⽣させる(カンデル神経科学). • 単純化すると,ニューロンは⼊⼒が閾値を超えると1を出⼒し,そうでなければ0を出⼒する. ⼊⼒ 出⼒ 活動電位の最⼤値 ⼊⼒の閾値 t0 ⼊⼒が閾値を超えたら1を出⼒をするという現象はステップ関数で表現できる. 活性化関数でよく⽤いられるシグモイド関数は,その値を確率として捉えると⼊⼒が⼩さ いと発⽕率が低く,⼊⼒が⼤きいと発⽕率が⾼いことを表していると⾔える(発⽕とはニ ューロンが活動電位を発すること).ここでの発⽕率はニューロン単体のものとも解釈で きるが,ニューロン集団のものだとも解釈することもできる. それではReLUはどのように解釈すればよいのだろうか? t0 time ⼊⼒が閾値をこえるとニューロンは活動電位を発する. 活動電位の⼤きさは⼀定である. この図は単純化のため活動電位(膜電位)を線で表現し ているが,実際の膜電位変化は幅を持っている. 実際のニューロンのダイナミクスはAll or non lawで表現できるほど単純ではない. Adrian E. D. (1914). The all-or-none principle in nerve. The Journal of physiology, 47(6), 460–474. 元の文献を詳しくチェックしていない.

10.

まとめ • 脳は神経細胞(ニューロン)からなることが分かった. • 脳の構造が分かり始めた. • ニューロンの応答の規則が分かり始めた.

11.

神経科学の理論的研究の始ま り

12.

線形閾値素⼦

13.

神経細胞の信号伝達 シナプス前活動電位 シナプス前 ニューロン シナプス後電位が誘発され続 けると,いずれ閾値を超え, 活動電位を発する. 𝑉 膜電位 𝑉 𝑡 シナプス 前活動電 位 興奮性シ ナプス後 電位 閾値ℎ 𝑡 活動電位により,次のニ ューロンに信号が伝わる . 𝑉 シナプス後 ニューロン シナプスに活動電位が到達すると,シナプ ス前部から神経伝達物質は放出され,シナプ ス後部でそれを受け取り,シナプス後電位 (postsynaptic potential: PSP)が発⽣する. 発⽣するシナプス後電位の⼤きさはシナプ Figure 10-7 Synaptic transmission at chemical synapses involves several steps. An action potential arriving at the terminal of a presynaptic axon causes スの強度(重み,荷重)に依存する. voltage-gated Ca channels at the active zone to open. The influx of Ca produces a high concentration of Ca near the active zone, which in turn causes vesicles 2+ 2+ 2+ (Kandel, Principals of Neuroscience) containing neurotransmitter to fuse with the presynaptic cell membrane and release their contents into the synaptic cleft (a process termed exocytosis). The released neurotransmitter molecules then diffuse across the synaptic cleft and bind to specific receptors on the post-synaptic membrane. These receptors cause ion channels to open (or close), thereby changing the membrane conductance and membrane potential of the postsynaptic cell. The complex process of chemical synaptic transmission is responsible for the delay between action potentials in the pre- and post-synaptic cells compared with the virtually instantaneous transmission of signals at electrical 𝑡 ニューロン

14.

神経細胞の数理モデル化 シナプス前ニューロン1 シナプス前ニューロン1が発⽕するとスパイクがニューロンに向かう. この場合,ニューロン1の出⼒𝑥!を1とする.逆に発⽕していなければ 𝑥! = 0となる. 発⽕したら 𝑥! = 1 そうでなければ 𝑥! = 0 ニューロンは閾値ℎを持つ. シナプス前ニューロン2 𝑥" 𝑥# シナプス前ニューロン3 ニューロンには⼊⼒𝑥!が直接⼊⼒されない.シナプス 𝑤!を介してニューロンに⼊る.シナプスは⼊⼒に対 し積の形で作⽤する.結果として,ニューロンはシナ プス前ニューロン1から 𝑤!𝑥! の⼊⼒を受ける(シナプス後電位が発⽣する). 𝑤% ℎ 𝑧が閾値を超えたら活動電位を発するので1を出⼒する. そうでなければ0を出⼒する.これはステップ関数 𝑓 𝑎 − ℎ で表せる. 出⼒ ニューロン 𝑧 𝑦 𝑓(⋅) ニューロンは複数の神経細胞から⼊⼒を受ける. ⼊⼒の総和𝑎は, 𝑎 = # 𝑤! 𝑥! ! と書ける.𝑎を前活性(pre-activation)という.

15.

線形閾値素⼦(Linear threshold unit) • 線形閾値素⼦は図に⽰すニューロンの数 理モデルである. 閾値 ⼊⼒ 𝑥% • ⼊⼒𝑥! がニューロンに伝わる強さ 𝑤" を重 𝑥' み,結合荷重,シナプス荷重などと⾔う. • ⼊⼒𝑥" と重み𝑤" をかけたものの総和が閾 値ℎを超えたら,ニューロンは1を出⼒す る. • PSP (Post-synaptic potential)の蓄積の結果, 膜電位が閾値を超えるとスパイクが発⽣する現 象をモデル化したとも⾔える(右下図). " 𝑤& 𝑥& 𝑤' 𝑥( ℎ 𝑤% & 𝑤( EPSP(興奮性PSP)により脱分極した 膜電位が閾値を超えると発⽕する. シナプス前ニューロンからスパイクが到 達するとEPSPが発⽣する. (Gerstner and Kistler, Spiking neuron models) 𝑦 閾値を超えたら1を出⼒ そうでなければ0を出⼒ 結合荷重 • この閾値処理はAll or None law (全か無かの法 則)に基づく. 現代⼈の⽴場からMcCulloch-Pittsのニューロンモデルを書き直したものと⾔え るだろう.このスライドの記述は⽣物よりに書いている. 𝑓(⋅) 出⼒

16.

線形閾値素⼦(Linear threshold unit) • ⼊⼒を 𝑥" ,重みを 𝑤" ,ℎを閾値とすると前活性𝑎とニューロンの出⼒(活性)𝑦 は次のように書ける. • 𝑎 = ∑" 𝑤" 𝑥" • 𝑦 =𝑓 𝑎−ℎ • 𝑓(⋅)は活性化関数である.活性化関数にステップ関数を使⽤した場合, 𝑓(𝑎)は次 のように書ける. ⼊⼒ 1 • 𝑓 𝑎 =0 0 if 𝑎 > 0 otherwise 閾値 𝑥! 𝑥" 活性化関数 𝑥# 0 𝑎 ( 𝑤$ 𝑥$ 𝑤" 𝑓(𝑎) ℎ 𝑤! 𝑓(⋅) 出⼒ 𝑦 $ 𝑤# 重み 閾値を超えたら1を出⼒ そうでなければ0を出⼒

17.

AND演算を実現する • AND演算を実現するために図のような2⼊⼒1出⼒のネットワークを考える. • 𝑤- = 𝑤. = 1, ℎ = 1.5とすると,⼊⼒と出⼒の関係は次のように書ける. • 𝑦 = 𝑓(𝑥- + 𝑥. − 1.5) • この式はAND演算を実現している. • 重みや閾値を⼈間の決め打ちではなく⾃動で決めたい!! AND演算 𝑥& 𝑥' 𝑦 0 0 0 1 0 0 1 1 0 1 0 1 ネットワークの各数値 𝑥& 𝑥' 𝑥, + 𝑥- − 1.5 𝑦 ネットワーク ⼊⼒𝑥% 𝑤% 𝑦 𝑥' 𝑤' 0 0 0 1 −1.5 −0.5 0 0 1 1 0 1 −0.5 0.5 0 1

18.

McCullochとPittsのニューラ ルネットワークモデル

19.

McCulloch-Pitts neuron neural network model (1946年) • McCullochとPittsは1946年の論⽂でニューラルネットワークで様々な論理演算ができるといってい る. • 閾値論理素⼦の提案 • 神経細胞は論理計算を⾏える. • McCulloch-Pittsのneuron model • ニューラルネットワークの提案 • 様々な論理演算をするネットワークを構築することができる. • McCullochとPittsの論⽂に記載されている前提条件 • ニューロンの活動は全か無かの法則に従う. • ニューロンを興奮させるためには、ある期間内に⼀定の数のシナプスが興奮していなければならない.この数は 以前の活動やニューロン上の位置に依存しない. • 神経系の中で唯⼀の重要な遅延はシナプスの遅延である. • 抑制性シナプスの活動は,その時点でのニューロンの興奮を絶対に阻⽌する. • ネットワークの構造は時間とともに変化しない. (McCulloch and Pitts 1946) 分かりにくい論⽂

20.

前提条件に対する私⾒ • McCullochとPittsの論⽂に記載されている前提条件 • ニューロンの活動は全か無かの法則に従う. • この考え⽅に基づいて活性化関数にステップ関数やシグモイド関数が採⽤されている. • ニューロンを興奮させるためには、ある期間内に⼀定の数のシナプスが興奮していなければなら ない.この数は以前の活動やニューロン上の位置に依存しない. • 現在のニューラルネットワークでも,ニューロンの応答の履歴はそのニューロンの応答に影響を与えない (フィードバックとして間接的に影響を受ける場合はあるだろうが). • 現在のニューラルネットワークでも,シナプスの位置を考慮しない • 神経系の中で唯⼀の重要な遅延はシナプスの遅延である. • シナプスの遅延は現在のニューラルネットワークでは考慮されていないが,リカレント構造で遅延を実現し ている. • しかし,ここで⾔う遅延は各ニューロン(各層)の処理を逐次的に⾏うといった意味にもとれる.現在の ニューラルネットワークもその考え⽅で動いている. • 抑制性シナプスの活動は,その時点でのニューロンの興奮を絶対に阻⽌する. • 現在のニューラルネットワークでは興奮性と抑制性のシナプスの区別をつけていない. • ネットの構造は時間とともに変化しない. • これも現在のニューラルネットワークにつながる考え⽅だろう. • 学習のときは変化するが,実際に利⽤するときはシナプス荷重を変化させない.

21.

McCulloch-Pitts neural network model McCullochとPittsによる様々なネットワーク. これらはすべて対応する論理計算が存在する. Kleene によるニューラルネットワークによる論理計 算の例. ⿊丸は興奮,⽩丸は抑制性結合を表す. P三⾓の中の数字は閾値を表す. つまり,J, K, Lが発⽕し,M, Nが発⽕しなければPは 発⽕するネットワークである. これを論理式になおすと 4 ⋅𝑁 4 𝑃 =𝐽⋅𝐾⋅𝐿⋅𝑀 となる. (Kleene, 1951) (McCulloch and Pitts, 1946)

22.

McCulloch-Pitts neural network model • McCullochとPittsの研究から,神経細胞が論理素 ⼦であると考えれば,論理素⼦で実現できるあら ゆる計算を脳が⾏うことができると考えることも できる. • ニューラルネットワークでNAND回路も実装可能な ので,ニューラルネットワークであらゆる論理回路 が当然実現可能だろう. • この研究の段階ですでに,時間遅れ,フィードバ ック接続など考えられている.この考えは後のリ カレントネットワークで開花する. (McCulloch and Pitts, 1946)

23.

Hebbian learning(ヘブ学習)(1949年) • Hebbが提案した脳の学習の理論 • シナプス前ニューロンが繰り返し発⽕し,シナプス後ニューロンの発⽕を助け たとき,そのシナプスは成⻑する. ニューロンの応答 ニューロンの応答 time time 学習によりシナプスが成⻑する. ニューロンの応答 time Hebbの本では,当時おばあさん細胞説とpopulation codingが議論されていて,population codingが 主流であると述べている.Hebbはおばあさん細胞説に基づき議論している.なかなか⾯⽩い. ニューロンの応答 time (Hebb, 1949)

24.

線形閾値素⼦を⽤い⾃動で⽬的の演算を実現するには • ニューロン(線形閾値素⼦)を組み合わせる(ネットワーク化)することで,様 々な計算が出来るかもしれないことが分かった. • 線形閾値素⼦の接続の重みを変えることで,線形閾値素⼦の演算能⼒が変わる. • つまり,ネットワークにさせたい演算に合わせて重みの変更(シナプスの学習) を⾏えば良い. • しかし,どのように学習すればネットワークに意図した演算をさせることができ るだろうか?

25.

ニューラルネットワーク研究 の隆盛と冬の時代

26.

よく⾒るパーセプトロンの説 明

27.

分類問題 • データをクラスに分ける問題 学習 判断 未知のデータ 2 2 2 1 2 1 2 1 2 2 2 1 2 2 2 1 ラベル付きデータ(答え がついているデータ)を ⽤意する. 三⾓データにクラス1,丸データにクラス2と いうラベルが付いている. 1 2 1 1 2 1 ラベルがついているデ ータを分けるための線 (決定境界)を⾒つけ る. 学習により習得した決 定境界を使い,未知の データを分ける. ⽤意された三⾓データと丸データをそれぞれ1と2のラベル を付けられる線を⾒つける.データの場所が線の左ならクラ ス1,右ならクラス2に分類される. 未知のデータを⼊⼒し,クラス分けする(ラベルを 付ける).ネットワークは未知のデータが線より左 なら1,右なら2のラベルを付ける.

28.

AND演算と分類 • AND演算は2つの⼊⼒から1つの出⼒を得ている. • 2つ⼊⼒する数値があることは,⼊⼒は2つの数値を持った何か,すなわち2次元の ベクトルであると⾔える • また,出⼒は2次元ベクトルについたラベルであると考えられる. • つまり,AND演算は⼊⼒をラベル0とラベル1に分ける問題だと⾔える. • ニューラルネットワークはAND演算が解ける. • ニューラルネットワークはデータを分ける線を引いてAND演算を解いている. AND演算 𝑥& 𝑥' 𝑦 0 0 0 1 0 0 1 1 0 1 0 1 𝑥& と𝑥' の2つの値が⼊⼒ 𝑦は出⼒ (0, 1) 0 1 (1, 1) (0, 0) 0 0 (1, 0) 機械学習では⼊⼒ベクトルに 0か1かのラベルを付ける. ラベルをつけるために,デー タを分ける線を学習により求 める必要がある. データとなる数値が𝒙 = (𝑥& , 𝑥' )のベクトル 𝑦はラベル

29.

パーセプトロンの簡単な紹介 • パーセプトロンは⼼理学者Rosenblattが開発した学習が可能なニューラル ネットワーク(1957, 1958)である. • パーセプトロンは2層のニューラルネットワークで,それらの重みは教師あり 学習により最適化する(答えと出⼒を⽐べ,それの結果を⽤い重みを学習す る) . • 分類問題がとける(データを分ける線を⾒つけられる).

30.

パーセプトロンの簡単な説明 • 2クラス問題が解ける(ラベルが2種類のみ) . • ⼊⼒層と出⼒層からなるニューラルネットワークである. • ⼊⼒層は⼊⼒の値そのものを出⼒層のニューロンに送る. • 出⼒層は閾値素⼦である. 出⼒層 ⼊⼒層 x0 x1 w0 w1 y 出⼒ wi xi ⼊⼒ベクトル 𝒙 = 𝑥% , 𝑥! , … , 𝑥$ , … , 𝑥& ' 重みベクトル 𝒘 = 𝑤% , 𝑤! , … , 𝑤$ , … , 𝑤& '

31.
[beta]
パーセプトロンの数式表現
• ⼊⼒ベクトルを𝒙 = 𝑥; , 𝑥- , … , 𝑥" , … , 𝑥< ! とする.

パーセプトロンは,⼊⼒ベクトルと重みベクトルの内積
(w !x = w x cos θ)が正か負かを基準に,⼊⼒ベクト
ルを分ける.⾔い換えれば,⼊⼒ベクトルと重みベクト
ルがおおよそ同じ⽅向を向いている(⼊⼒ベクトルが重
みベクトルに対し,±90度)かどうか調べている.

• ただし𝑥) = 1である.𝑤)𝑥)をバイアスという.

• 重みベクトルを𝒘 = 𝑤; , 𝑤- , … , 𝑤" , … , 𝑤< ! とする.

⼀般化線形モデル
𝑤と𝑥の掛け算の和を⾮線形活性化関数で変換しているモ
デル.

• 次の⼀般化線形モデルを構成する.
• 𝑦 = 𝑓 ∑<
"=; 𝑤" 𝑥"

!

= 𝑓(𝒘 ⋅ 𝒙)

• ここで⾮線形活性関数𝑓(⋅)を
• 𝑓 𝑢 =0

1 if 𝑢 ≥ 0
−1 otherwise

• とする.これをステップ関数と呼ぶ.

⼊⼒層

出⼒層

𝑥0

𝑤0
𝑤1

𝑥1

𝑦

出⼒

𝑤𝑖

𝑥𝑖
⼊⼒ベクトル
𝒙 = 𝑥% , 𝑥! , … , 𝑥$ , … , 𝑥& '

重みベクトル
𝒘 = 𝑤% , 𝑥! , … , 𝑤$ , … , 𝑤& '

32.
[beta]
パーセプトロンの学習
• パーセプトロンでは,学習により出⼒と𝑡を⼀致させることが⽬的となる.
• データ点𝒙( に対し,ラベル𝑡> が付属するとする.𝑡> ∈ {−1,1}である.
• 例えば,データ点がクラス𝐶%に所属するとき𝑡* = 1,クラス𝐶'に所属するとき𝑡* =
− 1とする.

• あるデータ点𝒙. を⼊⼒したとき,出⼒がラベルと⼀致しなければ次の式で重
みを更新する.
⼊⼒層

• 𝒘 ← 𝒘 + 𝜆𝒙* 𝑡*

𝑥0

• 𝜆は学習率である.
更新式は次のように次のような意味を持つ.𝑡" = 1のときは,𝒘を 𝒙" に少し向
ける. 𝑡" = −1のときは,𝒘を少し𝒙" の反対に向ける.
また,𝜆は⼩さな数値である.𝜆があるため1回の学習で 𝒘が⼤きく変化しない.
𝜆の値が⼤き場合,𝒘が更新のたび⼤きく変わってしまう.これは,1回の学習
ごとに⼊⼒に対し過剰に適応してしまうことを意味するだろう.つまり, 最適
な𝒘 がいつまでも求まらない可能性が⾼くなる.また,最適な𝒘が求まってい
たとしても,次の学習で最適な𝒘から⼤きくずれる可能性が⾼くなる.

出⼒層

𝑤0
𝑦

𝑤1
𝑥1

𝑥𝑖

出⼒

𝑤𝑖
重みベクトル
𝒘 = 𝑤% , 𝑥! , … , 𝑤$ , … , 𝑤& '

⼊⼒ベクトル𝒙 = 𝑥% , 𝑥! , … , 𝑥$ , … , 𝑥& '

33.

重み修正の様⼦ 1. 出⼒を1でなければならないところ を−1になってしまったため,𝒘に 𝜆𝒙を⾜した. 2. 決定境界が更新された. 3. 出⼒を1でなければならないところ を−1になってしまったため,𝒘に 𝜆𝒙を⾜した. 4. 決定境界が更新された.その結果, ⾚丸と⻘丸が境界で正しく区分け された. 1 2 3 4

34.

パーセプトロン規準と更新式 • パーセプトロンでは正しく分類された場合誤差を0とし,誤分類された⼊⼒𝒙* に対 しては−𝒘+ 𝒙* 𝑡* の最⼩化を試みる. • つまり,誤差の総和は • 𝐸, 𝒘 = − ∑*∈. 𝒘/ 𝒙* 𝑡* • これをパーセプトロン規準という.𝑀は誤分類された⼊⼒の集合を表す. • これの𝒘についての微分をとると • ∇𝐸, 𝒘 = − ∑*∈. 𝒙* 𝑡* • 勾配法を⽤いてパーセプトロン規準を最⼩にする𝒘を求める.各ステップでデータ 点が⼀つしか⼿に⼊らないため ∇𝐸0 𝒘 = −𝒙* 𝑡* となる.よって • 𝒘*12 = 𝒘 − 𝜆∇𝐸, 𝒘 = 𝒘 + 𝜆𝒙* 𝑡* • となり,先の更新式が得られる.

35.

パーセプトロンの学習例 • ⼊⼒層は3つのユニット,出⼒層は1つのユニットで構成されるネットワーク を考える. • このネットワークでAND演算を実現してみよう. ネットワークに覚えさせる⼊ 出⼒の関係(AND演算) x0 x1 x2 t 1 0 0 -1 1 0 1 -1 1 1 0 -1 1 1 1 1 ここではTrueを1,Falseを-1としている. 出⼒層 ⼊⼒層 x0 x1 w0 w1 wi xi y 出⼒

36.

パーセプトロンの学習例 • 初期値:𝑤; = 0, 𝑤- = 1, 𝑤. = 1, 𝜆 = 0.5とする. • このとき,出⼒は𝑦 = 𝑓(𝑥- + 𝑥. )と書ける. • ネットワークにそれぞれの⼊⼒を代⼊してみる. • 𝑥; = 1, 𝑥- = 0, 𝑥. = 0を⼊⼒すると,𝑦 = 1となり不正解 • 𝒘 + 𝜆𝒙𝑡 = 0,1,1 + 0.5× 1,0,0 × −1 = (−0.5, 1, 1) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−0.5𝑥; + 𝑥- + 𝑥. )

37.

パーセプトロンの学習例 • 𝑦 = 𝑓(−0.5𝑥; + 𝑥- + 𝑥. ) • 𝑥; = 1, 𝑥- = 0, 𝑥. = 1を⼊⼒すると,𝑦 = 1となり不正解なので学習する. • 𝒘 + 𝜆𝒙𝑡 = −0.5,1,1 + 0.5× 1,0,1 × −1 = (−1, 1, 0.5) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−𝑥; + 𝑥- + 0.5𝑥. )

38.

パーセプトロンの学習例 • 𝑦 = 𝑓(−𝑥; + 𝑥- + 0.5𝑥. ) • 𝑥; = 1, 𝑥- = 1, 𝑥. = 0を⼊⼒すると,𝑦 = 1となり不正解なので学習する. • 𝒘 + 𝜆𝒙𝑡 = −1,1,0.5 + 0.5× 1,1,0 × −1 = (−1.5, 0.5, 0.5) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−1.5𝑥; + 0.5𝑥- + 0.5𝑥. )

39.

パーセプトロンの学習例 • 𝑦 = 𝑓(−1.5𝑥; + 0.5𝑥- + 0.5𝑥. ) • 𝑥; = 1, 𝑥- = 1, 𝑥. = 1を⼊⼒すると,𝑦 = −1となり不正解なので学習する. • 𝒘 + 𝜆𝒙𝑡 = −1.5,0.5,0.5 + 0.5× 1,1,1 × 1 = (−1, 1, 1) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−𝑥; + 𝑥- + 𝑥. )

40.

パーセプトロンの学習例 • 𝑦 = 𝑓(−𝑥; + 𝑥- + 𝑥. ) • 𝑥; = 1, 𝑥- = 0, 𝑥. = 0を⼊⼒すると,𝑦 = −1となり正解 • 𝑥; = 1, 𝑥- = 0, 𝑥. = 1を⼊⼒すると,𝑦 = 1となり不正解なので学習する. • 𝒘 + 𝜆𝒙𝑡 = −1,1,1 + 0.5× 1,0,1 × −1 = (−1.5, 1, 0.5) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−1.5𝑥; + 𝑥- + 0.5𝑥. )

41.

パーセプトロンの学習例 • 𝑦 = 𝑓(−1.5𝑥; + 𝑥- + 0.5𝑥. ) • 𝑥; = 1, 𝑥- = 1, 𝑥. = 0を⼊⼒すると,𝑦 = −1となり正解 • 𝑥; = 1, 𝑥- = 1, 𝑥. = 1を⼊⼒すると,𝑦 = 1となり正解 • 𝑥; = 1, 𝑥- = 0, 𝑥. = 0を⼊⼒すると,𝑦 = −1となり正解 • 𝑥; = 1, 𝑥- = 0, 𝑥. = 1を⼊⼒すると,𝑦 = −1となり正解 • よって,すべての⼊⼒に対し正解したので学習を終了する. 出⼒層 ⼊⼒層 x0 AND演算ができ るニューラルネッ トワーク x1 xi 𝑤% = −1.5 𝑤! = 1 y 𝑤" = 0.5 出⼒

42.

よく⾔われるパーセプトロンの⽋点 • 線形分離不可能な問題(直線で分けられない問題)は解けない. • 例:XOR演算が解けない • これは2層のパーセプトロンの問題である. • 活性化関数(Activation function)の連続関数化とBackpropagationによりパーセプトロン の多層化が可能となり解消したと⾔われる. • MinskyとPapertによる指摘によりニューラルネットワークブームが終わった と⾔われることが多い. XOR演算 AND演算 (0, 1) 0 1 (1, 1) (0, 1) 1 0 (1, 1) (0, 0) 0 0 (1, 0) (0, 0) 0 1 (1, 0) ANDの場合,直線で分けられる(線形分離可能). ⼊⼒を座標,出⼒を⽩⿊(それぞれ0,1に対応)で 表現している. XORの場合,直線で分けられない(線形分離不可能). MinskyとPapertのPerceptronsでは,パーセプトロンはx=yを判別す ることができないことを⽰している.

43.

Rosenblattのパーセプトロン

44.

Rosenblatt (1958) のパーセプトロン • 4層もしくは3層構造である. • ランダム接続を持つ. • 受容野構造を持つ. • 層内,層間の抑制性結合を持つ. • フィードバック接続を持つ. • 脳のモデルでもあり,並列計算機でもある. • フィードフォワード学習である(Rosenblatt, 1962). • 誤差のバックプロパゲーションも考えている(Rosenblatt, 1962). • これらを⾒ると,かなり先進的なモデルであったことが伺える.

45.

パーセプトロンのネットワーク構造 • Rossenblatt, 1958で提案されたパーセプトロンは4層で構成される. • 閾値素⼦で構成される(all-or-nothing rule). • Retina (S-points)の出⼒はAIに送られる.興奮性と抑制性の接続を想定している.AIはRetinaに受容野を持ち,重 みはある点を中⼼に指数関数的に減衰する.AIは省略される事がある. • AIとAIIはランダムに接続している. • AIIとRはランダムに接続している.接続は相互接続(フィードフォワードとフィードバック)である.

46.

Rossenblattのsimple perceptron (1958) • Rossenblattは3層のパーセプトロンも提案している. • RossenblattもMinskyとPapertも基本的に3層のパーセプトロンについて議論 している. モデル図.点線は抑制性接続. Rossenblatt⽈くベン図.⽩丸は抑制性接続.⾊付きの領域はR1が応答 したときに活性化するunitsのセット. A-unitはそれぞれランダムにretinaに接続している. ランダム接続は,輪郭線というより同期領域を捉える(Rossenblattは時間変化も考慮している). 抑制性接続により,R1が応答した場合,R2に関連するunitsのセットの応答は抑えられる. 学習するためには,A-unitか接続を変更する必要がある.

47.

Rossenblattのパーセプトロンではランダム接続がある. • RetinaとA-unitsはランダムに接続している. • ランダム接続には含蓄がある.

48.

ランダム接続の含蓄(役割) • 2層のパーセプトロンは線形分離可能な問題しか解けない. このスライドでは⼊⼒層も1層と して考え,パーセプトロンを2層 としている. • 線形分離不可能な問題を解くにはどうすればよいか? • ⼊⼒をどうにか変形して線形分離可能にする. • ランダム接続で⼊⼒を変換し,偶然線形分離可能な形になることを期待する. S-units A-units x0 ランダム接続で変換 R-units 出⼒ x1 y xi ランダム接続で変換 ⼊⼒ 線形分離不可能 A-unitsの出⼒ 線形分離可能になるかも あくまでも概念図 です.

49.

ランダム接続の含蓄(受容野) • ⼊⼒の特徴を捉える特別な接続(受容野)を考えることもできる. • 特別な接続を作るのは難しい.⼀⽅で,ランダム接続を作るのは簡単である( Minsky and Papert, 1968). • 畳み込みニューラルネットワークは,学習により局所特徴を捉える特別な接続を作 ることができる. 極端な例を考えると,S-unitsとA-unitsの接 続を⽂字の形にしてしまえば,A-unitsは⽂字 それぞれの⽂字に対応して応答する.Xの形 の接続を持つA-unitはXのみに応答する.しか し,そのような接続では,⽂字の⼤きさが変 わると対応できない. MinskyとPapertはS-unitsとA-unitsの接続 について⾊々考察している. 受容野 (Minsky and Papert, 1968)

50.

ランダム接続の含蓄(深い多層パーセプトロン) • 通常,層間の接続はランダムな値で初期化される. • ランダムなネットワークは,⼊⼒を何らかのパターンに変換する. • 深いネットワークでは,⼊⼒層に近いランダムなネットワークが⼊⼒を変換し,そのランダムネット ワークの出⼒パターンを出⼒層に近いネットワークが学習するという現象が起こる. • ランダムネットワークの出⼒パターンを⽤いればデータを識別できてしまうため,⼊⼒に近い層は学 習する必要がない. • つまり,深い多層パーセプトロンではランダムネットワークと識別ネットワークの2重構造になる. • この構造は,Rosenblattのパーセプトロンと同じである. • 以上のような現象が起こるため,無闇にネットワークを深くしてもランダムネットワークが⼤きくな るだけで意味がないかもしれない. ランダムな値に初期化 ⼊⼒ ランダムな値のまま 出⼒ ⼊⼒ 学習が進む 出⼒ 学習 出⼒層に近いネットワークがランダムネットワークで変換されたパターンを覚える.

51.

ランダム接続の含蓄(結局運次第か) • パーセプトロンの識別能⼒はランダム接続で⼊⼒の特徴を捉えられるかどうか で決まる.つまり,運次第ということである. • ニューラルネットワークの能⼒は運次第であるという考え⽅は,深層ニューラ ルネットワークにも当てはまるかもしれない. • 深層ニューラルネットワークでは,当たりのランダムな接続が存在し,当たりの接 続を探しそれを学習すれば⾼性能になるという,宝くじ仮説というものもある (Frankle and Carbin, 2019).(この説明は不正確なため元論⽂をチェックしよう)

52.

ランダム接続の含蓄(Liquid state machine) • ランダム接続を持つニューラルネットワークは現在でも研究されている. • Rosenblattのパーセプトロンは層間をランダムに接続した. • 現在よく研究されているランダム接続を持つニューラルネットワークは,層内の接続が ランダムであるニューラルネットワークである. • Liquid state machine (Maass, 2002), Echo state network (Jaeger, 2001; 2002),リザーバーコ ンピューティング • Rosenblattはパーセプトロンで時系列を学習させることに限界を感じていたようだ( Rosenblatt, 1958).しかし,Liquid state machineなどでは層内接続をランダムにし接 続間の信号伝達に時間遅れを⼊れることで,時系列の特徴を捉えることを可能にしてい る. • Rosenblattは惜しい所まで来ていた. liquid or reserver ⼊⼒ 出⼒

53.

フィードバック接続 • A層とR層にフィードバック接続がある. • これは,現在のリカレントニューラルネットワーク(RNN)に繋がる. • RNNは時系列を学習できるニューラルネットワークである. • RNNは信号処理や⾃然⾔語処理などで活⽤できる. • Rosenblattはパーセプトロンで時系列を学習させることの限界をRosenblatt, 1958の まとめで述べている. • Rosenblattのパーセプトロンが連続時間であることが処理を難しくしているのだろ うか?

54.

パーセプトロンの学習 • RosenblattのNeurodynamicsに書かれている学習 • Hebbian learningを採⽤している. • α-system reinforcementの例 • ユニットiが活性化したとき,それと接続するユニットjとの間の重みは次の式で更新される. • Δ𝑤01 = 𝜂 𝑤./ i j • MinskyとPepertのPerceptronsに書かれている学習の1例 • 今Percetronの学習として伝わっている,学習⼿法が書かれている.

55.

パーセプトロンは脳型ニューラルネットワークである. • Rossenblattも脳の⽣理学的,解剖学的知⾒に基づきパーセプトロンを作成,考 察している. • 連続時間を考慮したモデル. • そもそものニューラルネットワークは脳のニューラルネットワークのモデルで あった. • 時代が進むにつれニューラルネットワークが⼈⼯ニューラルネットワークになった.

56.

パーセプトロンは並列計算をするコンピュータである • パーセプトロンは並列計算をするコンピュータも⽬指している. • コンピュータの歴史 • 1946年 ENIAC • 1951年 UNIVAC 1 汎⽤コンピュータ • 1952年 IBM701 商⽤科学技術計算機 Mark 1 perceptron • 1954年 IBM704 • Rosenblattはまず,これを使ってパーセプトロンを動かす. • 後にパーセプトロンをハード的に実装したMark 1 perceptronを作る. • ランダム接続を前提としているから正確な配線が必要なかった. • 重みはボリューム(potentiometer)で実装され,その重みはモーターで⾃動的に変えられる. • 1956年 FORTRAN プログラミング⾔語 • 1961年 IBM7030 • 1964年 System/360 メインフレーム おまけ コンピュータの計算⼒が低い時代,シミュレーションはコンピュー タを使うのではなく電気回路でやっていた(数理モデルを等価回路 に置き換え,実際にその電気回路を組み,その回路に電流を流すこ とで数理モデルを解く).

57.

Rosenblattのc-system • Rosenblattの開発したc-systemは畳み込みニューラルネットワークの元祖と 呼べるかもしれない. (Rosenblatt, 1967)

58.

よく⾔われるニューラルネットワークの冬の時代 • パーセプトロンの当時,ニューラルネットワークがブームになったと⾔われている. • しかし,MinskyとPaperのPerceptronsという書籍で,パーセプトロンの限界が⽰さ れた(パーセプトロンは線形分離不可能な問題が解けない)ため,ニューラルネット ワークの研究が下⽕になり,冬の時代が訪れたと⾔われている. • 本当にそうなのだろうか? • 彼らは多層のパーセプトロンに対しても制限があると間違った推測した.そのため,ニュー ラルネットワークへの熱意が下がり,1970 年代から1980 年代初頭にかけてニューラル ネッ トワークに対する関⼼と資⾦が不⾜する原因となった(Bishop and Bishop, 2023). • そのわりにはIvakhnenkoの多層ニューラルネットワーク(1971)やvon der Marlsberg(1973) ,Amari(1980),Kohonen(1983)の⾃⼰組織化マップ,FukushimaのNeocognitoron(1980) ,HopfieldのHopfield network(1982)などニューラルネットワークの重要な研究が冬の時代 に⾏われている.

59.

なぜニューラルネットワークの冬の時代が来たのか • MinskyとPapertのPerceptronsによりこれまでの多くの研究が徒労であること が分かった. • Perceptronsの改訂版で述べている. • Perceptronsでは,Perceptronに対し様々な考察をしている. • 彼らはPerceptronではなく,研究者を痛烈に批判している. • 彼らはPerceptronに敬意を払っている.本の中であつかう計算アルゴリズムを Perceptronとあえて⾔っているのは敬意から. • MinskyとPapertが⼗分Perceptronを調べた. • ⿇⽣, 1988はMinskyとPapertが区切りをつけたと述べている.

60.

なぜニューラルネットワークの冬の時代が来たのか • 並列処理から逐次処理へ (⽢利, 1985) • Perceptronはアナログ並列計算機. • 計算量が膨⼤問題 (Minsky and Papert, 1969; ⽢利ら, 2002)

61.

ニューラルネットワークの歴史を振り返る • 第⼀次ニューラルネットワークブーム(今のようなコンピュータは無いよ) • Perceptron • 冬の時代 • 興味がニューラルネットワークから離れる • ノイマン型コンピュータの登場 • 並列処理から逐次処理へ (⽢利 1985) • 計算量が膨⼤問題 (⽢利 2002) • 予算削減(Bishop and Bishop, 2023) • 簡単にパーセプトロンマシーンを作れるか?(私⾒) • 第⼆次ニューラルネットワークブーム • Backpropagation • 神経科学からの離脱 (Crick 1988) • ニューラルネットワークから⼈⼯ニューラルネットワークになる(私⾒). • 冬の時代 • ⼈⼯ニューラルネットワークから機械学習へ興味が移⾏した(私⾒). • SVMなど学習⼿法の選択肢が増える(私⾒). • ⼈⼯ニューラルネットワークが機械学習に取り込まれる(私⾒). • 第三次ニューラルネットワークブーム • データ量,コンピュータの計算⼒の増⼤,開発プラットフォームの整備

62.

神経科学も含めたニューラルネットワークの歴史 • 1873年 ゴルジ染⾊ • 1987年 Neuron doctrine 脳の構造が⾒えた 脳は独⽴したニューロン からなる ニューロンの応答規則が 少し分かった • 1906年 Receptive field • 1914年 All or none law • 1946年 McCulloch-Pitts model • 1957年 Perceptron • 1968年 Primary visual cortex • 1980年 Neocognitron • 1986年 Backpropagation, Autoencoder, Recurrent network • 1989年 LeNet • 1997年 LSTM • 2002年 Liquid state machine • 2006年 Deep belief network • 2012年 Alexnet • 2017年 Transformer 詳しい年表はQiitaにあります.https://qiita.com/KazuhisaFujita/items/b40f2363558c373bde55 ニューラルネットワーク は計算ができるようだ 1層のニューラルネット ワークの学習ができる 第1次視覚野の情報処理 が分かった 畳み込みニューラルネッ トワークの元祖登場 多層のニューラルネット ワークの学習ができた 深層学習がすごいことが 知られた ⼤規模⾔語モデルの基礎 技術ができた