242 Views
August 15, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
6章 教師なし学習 p.169 3コマ目 • 荒木雅弘(著), 渡まかな(作画), ウェルテ(制作) : 『マンガでわかる機械学習』 (オーム社, 2018年) • サポートページ
6章のストーリー • 清原の所属する健康福祉課では、市内の高齢者に対して内容 をカスタマイズしたメールマガジンを送っている • 誰にどのような内容を送るかというノウハウは定年間近の課 長が持っているが、ルール化できず誰も引き継げない • 清原は教師なし学習でこの問題に取り組む
教師なし学習 • 教師なし学習とは • 正解情報が付いていないデータに対して、何らかの規則性を発見 する手法 • 規則がカバーする範囲によって問題が分かれる • データ全体をカバー:クラスタリング • データの部分集合をカバー:行列分解
クラスタリング • クラスタリングとは • 同一の性質を持つと見なされるデータのまとまりを見つけること 例)マーケティングでのユーザグループ発見 • クラスタリングの手法 • 階層的手法 • ボトムアップ的にデータをまとめてゆく • 分割最適化手法 • トップダウン的にデータ集合を分割してゆく
階層的クラスタリング • 1データ1クラスタから始めて、近いクラスタを合併してゆく • 近さの基準の選択によって、結果が異なる
分割最適化クラスタリング • k-means法 • k個の平均値をランダムに決めるところから始めて、所属する データを基準に適切な位置を決める
行列分解 • 推薦システムの基本手法 • サイズが大きく、ほとんど値が埋まっていないデータが対象 大きな値になりそうな 要素を予測 ユーザN人 商品M種類
行列分解 似ている商品は、似ている ベクトルで表現される • 行列の低次元分解 商品情報M×K行列 商品M種類 ユーザN人 × = U ユーザ情報N×K行列 振る舞いが似ているユーザ は、似ているベクトルで表 現される VT
行列分解 • 低次元分解の解釈 𝑥𝑛𝑚 = 𝑤1𝑛 𝑣1𝑚 + 𝑤2𝑛 𝑣2𝑚+...+𝑤𝐾𝑛𝑣𝐾𝑚 𝑤1𝑛 女性 . . . 𝑣1𝑚 𝑤𝐾𝑛 甘いもの 好き ユーザN人 潜在因子K個 𝑣𝐾𝑚 商品M種類
行列分解の方法 • 元の行列との誤差を最小化 • 問題点:値が埋まっていないところを0と解釈 • 値が埋まっているところだけで最小化 • 正則化が必要
Factorization Machine • 別途入手可能な補助情報を用いることができる 疎な行列 予想したい値y (ユーザiが商品jを買うか) 買い物好き? 商品M種類 ユーザiの バイアス ユ ー ザ に 関 す る 補 助 情 報 ユ ー ザ N 人 商品に関する補助情報 密な行列 定数項 よく売れる? 商品jの バイアス 交互作用: 潜在因子からなるk次 元ベクトルの内積 補助情報を含めた任意 の要素間で定義可能