LIFULL AI Hub 100ミニッツ #1_LLM（大規模言語モデル）の研究開発

2.4K Views

December 28, 23

#lifull #ai #llm #AI #コミュニケーション #推薦システム #大規模言語モデル #振り返り

スライド概要

LIFULL AI Hub 100ミニッツ ♯1「LLM（大規模言語モデル）の研究開発」の講演およびトークセッション資料です。

各所でLLMが盛り上がりを見せる中、第1回のLIFULL AI Hub 100ミニッツでは、「プロンプト・エンジニアリング」と「LLM開発」の間にあるAI開発にスポットをあてて、今後の研究開発を一緒に考える会。
具体的には、LLMベースのAIエージェント研究の論文などを紹介。サービスやプロダクトの中での実現性や、アイデアの活きる開発のしどころなどを講演とトークセッションを通じて、皆さんと考察しました。

株式会社LIFULL

@LIFULL

スライド一覧

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

pmconf2023【プロダクトマネジメントで高速PDCA】アウトカムが激増したLIFULL HOME’Sのグロース事例

プロダクトマネジメントプロダクトマネージャー lifull

株式会社LIFULL 26.5K

CloudWatch LogsからGrafana Lokiにログ基盤を移行

lifull aws grafana ログ

株式会社LIFULL 25K

HNSWの内部構造

lifull hnsw search

株式会社LIFULL 23.1K

PrometheusとGrafanaで追求する、より良いアプリケーションの可観測性

lifull grafana ログ kuberentes

株式会社LIFULL 20.9K

100人超のエンジニア組織の統合、60以上のアプリケーションの基盤集約、日本最大級の不動産・住宅情報サイト『LIFULL HOME'S』を支え続けるエンジニアリング＿長沢翼

lifull lifull home's cto keel engineering technology

株式会社LIFULL 19.8K

#ED6103との付き合い方

アクセシビリティコントラスト wcag apca

株式会社LIFULL 15.1K

各ページのテキスト

• 主催について LIFULL AI Hub 100min • LIFULL AI HUB 100minとは • イベント開会に伴うご案内

LIFULL データサイエンスグループ研究開発を通じた AI技術シーズの創出と活用によって LIFULL事業/プロダクトを牽引する組織

LIFULL AI Hub 100min

Concept LIFULLでAIの研究開発を推進するデータサイエンスグループが 100分でAIを語るトークと交流会のイベント今後も継続的に開催していく予定です。

Cingulate, inc

株式会社シンギュレイト代表鹿内学, 博士（理学） Dr. SHIKAUCHI, Manabu. 1. 最初のキャリア：大学教員・研究者京都大学医学研究科特定助教など心理学、生理学、データサイエンス 2. 転身：ピープルアナリティクスと出会う jp o. c . e t a ul 国内大手人材企業 2社新規事業開発企画、営業／マーケ、リーン開発 g n i c ka@ shi 3. 株式会社シンギュレイト Facebook 起業、複業、経営マネジメント、 etc 信頼、マネジメント、働き方／組織づくりピープルアナリティクス協会上席研究員 LIFULL データサイエンスパートナー Cingulate, inc 名刺：Eight

^&* Cingulate, inc

コミュニケーションの3つの課題 1. 通信技術の課題どのようにして、コミュニケーションの 2. TV会議（Zoom）記号を正確に伝達できるか意味にかかわる課題どのようにして、伝達された記号が、伝えたい 3. 自然言語（ChatGPT）意味を正確に伝えるか効果にかかわる課題どのようにして、受け取られた意味が、発信者の望むように相手の行動に影響を与えるか次世代の生成AI 影響力 SHANNON, Claude E. & WEAVER, Warren. The Mathematical Theory of Communication, 1949 （『コミュニケーションの数学的理論』明治図書出版, 1969） Cingulate, inc

10.

推薦システム守 1. 物件の理解（ex. 印象評価） a. 人間にとってどう見える物件なのかを、AIが評価できるようになる破 2. ユーザーの行動をうながす a. コンバージョンを上げるような画像を検証＆予測（推薦） Cingulate, inc 離 3. ユーザー行動の理解 a. 行動理由・要因を把握し、新しい物件条件の表示に活かす

11.

LLMにもタスクをふるだけのマネジメントでは足りない!? Cingulate, inc

12.

「まず、深呼吸をしよう。」「そして、この問題を一歩ずつ、順に取り組もう。」 Take a deep breath and work on this problem step by step by Chengrum +, 2023 Yang, Chengrun & Wang, Xuezhi & Lu, Yifeng & Liu, Hanxiao & Le, Quoc & Zhou, Denny & Chen, Xinyun. (2023). Large Language Models as Optimizers. Cingulate, inc

13.

Yang, Chengrun & Wang, Xuezhi & Lu, Yifeng & Liu, Hanxiao & Le, Quoc & Zhou, Denny & Chen, Xinyun. (2023). Large Language Models as Optimizers. Cingulate, inc

14.

ふりかえり（Reﬂection）大事 by Park +, 2023 Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). Cingulate, inc

15.

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). 1. 2. 3. 舞台は、カフェ、バー、公園、学校、寮、家などがある、とある小さな街 25名の個性豊かなエージェントが住んでいて、街の中を移動したり、相互に会話をする 2日間にわたるシミュレーション 2日間に起こったことなどをエージェントに質問し、正しく回答できている精度を評価。 1日に何度かふりかえりをするエージェント vs ふりかえりナシのエージェントふりかえりをするエージェントが正しく回答！ …というか、ログが残っていてアクセスできるのに、ふりかえりしないと、正しく回答できないことに驚く Cingulate, inc

16.

[beta]

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy
Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human
behavior." arXiv preprint arXiv:2304.03442 (2023).

𝜇 = 29.89, 𝜎 = 0.72：Full Architecture
𝜇 = 26.88, 𝜎 = 0.69：No Reﬂection
𝜇 = 25.64, 𝜎 = 0.68：No {Reﬂection, Plan}

?

𝜇=
𝜎 = 0.70：No {Reﬂection, Plan, Observation}
の効果
り21.21,

え
）
ふりか 用がなければ

作
（交互 𝜇 = 22.95, 𝜎 = 0.69：Human

Obsavationの効果?：4.43
Plan の効果?：3.01
Reﬂectionの効果?：1.24
Cingulate, inc

17.

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). 、の他にもりえかふり。）がある n a l P （計画ふりかえりのトリガー、頻度 1. 重要度スコアの合計がある閾値を超えた時に発生 2. 実際には、1日に2-3回程度のリフレクションがあるなぜ振り返りが必要（考察）？ 1. エージェントの観察記憶だけでは一般化や推論が難しい 2. 何時間か経過した後に振り返ることで、記憶の羅列からより一般化した結論が得られる 3. リフレクションの結果も記憶の一種なので、他のメモリストリームに入れられる（引用されたメモリオブジェクトのポインタも含む） Cingulate, inc

18.

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). 重要度スコア 1. Recency：最近の出来事 a. 直近の出来事であればあるほど高いスコアを与える b. 時間が経つごとにスコアは指数関数的に減衰させ、減衰係数は 0.99 を使用 2. Importance：稀な出来事 a. ありふれた出来事（歯を磨くなど）は低いスコアを与え、 b. 衝撃的な出来事（別れ、合格通知）は高いスコアを与える 3. Relevance：関連性の高い出来事 a. 関連性が高い出来事ほど高いスコアを与える b. 勉強の話題の時に、朝食の記憶は関連性は低く、学校の記憶は関連性が高い Cingulate, inc

19.

研究実施のためのヒント｜エージェントへの実験課題の作成 2日にわたるシミュレーション後にエージェントにおこなった5つの質問 1. 2. 3. 4. 5. Self-knowledge a. 自己紹介、典型的な平日予定の説明など Memory a. 他のエージェントの名前などの事実確認の質問 Plans a. ex. 明日の10時にあなたは何をしますか？ Reactions： a. ex. 朝食が燃えています！あなたならどうしますか？ Reﬂections a. ex. 最近会った人の中で1人と過ごすとしたら、それは誰で、なぜですか？エージェントの態度・行動の一貫性を評価するために（本物の人間らしさを評価するために）、単に、事実確認（Self-Knowlegde、Memory）だけでなく、次の計画性（Plans）、状況による行動特性（Reactions、Reﬂections）を評価する課題に！ Cingulate, inc

20.

研究実施のためのヒント｜人間による評価指標 & データセットの作成人間もLLMと同様の課題を実施 1. 評価者（人間）が、回答の信憑性についてランク付けしたランクデータを100セット用意 2. 解釈可能な比較のため、TrueSkill 評価を行った 3. a. XBox Live では対戦ゲームのパフォーマンスからプレイヤーのランキングに使われる b. プレイヤーのスキルを正規分布で特徴づける TrueSkill： Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). Cingulate, inc

21.

研究実施のためのヒント｜エージェント（LLM）への質問をLLMで作成ふりかえり質問生成用のLLMに、 Memory Streamの「対象者について回答できる、最も顕著で高レベルな3つの質問はなんですか？」と聞いて、質問文を自動作成。例質問生成LLM 「What topic is Klaus Mueller passionate about?」 (Klaus が情熱を注いでいるトピックはなんですか？) エージェント「Klaus Mueller is dedicated to his research on gentriﬁcation」 (Klaus はジェントリフィケーションに関する研究に専念している) このエージェントの回答は、引用したポインタを含めて、Memory Streamに保存されていく。 Cingulate, inc Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023).

22.

同僚としては、一緒に働きにくいLLM。。。あれができておいて、なぜ、これができない（苦笑）能力に予測がつかない相手のマネジメントしにくい。。 Cingulate, inc

23.

ハルシネーション（Hallucination、幻覚） LLMは、実在しない情報や参照を、事実のように生成することがある。 ~~~~~~~~~~~~~~~~~~ LLMに敬意を表し、もしくは、LLMに意図（悪意）がないことは自明!?なので、嘘（ウソ）とは呼ばないことにします。 Cingulate, inc

24.

1. GPT4 の論理的思考能力を調査 a. 21の推論タスクを実施 i. 単純な計算・論理・推理問題 b. いずれのタスクも解けない場合があることから論理的思考はないと結論付け Arkoudas, K. (2023). GPT-4 Can't Reason. arXiv preprint arXiv:2308.03762. Cingulate, inc

25.

計算問題 2023年8月実施（植野さん実施）本日実施（鹿内実施）正解は 1,996,313 Cingulate, inc

26.

推論 2023年8月実施（植野さん実施）本日実施（鹿内実施） Cingulate, inc

27.

バーチャルステージングハリがあるとエアコンはつかない北欧風の部屋に模様替えして幻覚の発生 1. 2. 建物の構造を変更してしまっている不動産サービスでは、景品表示法の優良誤認に問われるリスク Cingulate, inc

28.

バーチャルステージング: 幻覚を排除した部屋画像生成単純な画像生成元画像生成画像奥行き推定３D構造の推定 Cingulate, inc

29.

LLMを利用してユーザー（人間）を理解する Cingulate, inc

30.

推薦システム｜不動産を買ってもらう・借りてもらう、ユーザーのことを知りたいユーザー人格形成幼少期の体験教育環境遺伝く？どっちに聞自然言語プロンプト人格プログラミングデジタルクローン Cingulate, inc

31.

ユーザーのペルソナのヒアリングを自動化｜PsyCoT Psychological Questionnaire as Chain-of-Thought 対話形式で、用意したアイテム（質問項目）を提示して、性格を診断。 cf. 適応型テスト：項目反応理論 Tao Yang, Tianyuan Shi, Fanqi Wan, Xiaojun Quan, Qifan Wang, Bingzhe Wu, Jiaxiang Wu. PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection GitHub：https://github.com/TaoYang225/PsyCoT Cingulate, inc

https://github.com/TaoYang225/PsyCoT

32.

ユーザー人格形成幼少期の体験教育環境遺伝ない！？ゃじちっこ自然言語プロンプト LLMクローンPJ 人格プログラミングデジタルクローン 1. 2. 何がほしいか、聴き放題言語的に理由も聞ける（意味がわかる）まずは、グループのメンバーのクローンを作成中！ Cingulate, inc

33.

性格は埋め込める 1. 性格プログラミング a. プロンプト・エンジニアリングにより、LLM （PaLM）に異なるパーソナリティを埋め込む b. 104の性格形容詞を使用、9段階のレベルで性格特性を形成するプロンプトを開発 2. IPIP-NEOという性格主要5因子を計測するパーソナリティ・テストをLLMにうけさせ、異なるパーソナリティが確認できた Cingulate, inc Safdari, M., Serapio-García, G., Crepy, C., Fitz, S., Romero, P., Sun, L., ... & Matarić, M. (2023). Personality traits in large language models. arXiv preprint arXiv:2307.00184.

34.

心理学者、言語学者の研究 1. 「メタラーニング」という認知機能を検証 a. 人間は、新しい概念と既存の概念を体系的に組み合わせることができる b. ex. スキップ；2周する i. スキップで2周する 2. トランスフォーマーで実現することを検証 a. 背景）NNでは、メタラーニングの認知テストには苦戦する 3. 人間と同様の、帰納的推論のバイアス（不正解パターン）を再現する a. 人間が認知テストをした場合とも比較 Department of Psychology and Center for Data Science, New York University, New York, NY, USA Department of Translation and Language Sciences, Universitat Pompeu Fabra, Barcelona, Spain Cingulate, inc

35.

課題づくりが Nature メタラーニングの厳密な操作的定義｜系統的構成性がある課題をつくり、系統的汎化ができる課題 1. Primitives：4つの基本単語 a. 単語から出力記号へのマッピング b. dax：🔴、wif：🟢、lug：🔵、zup：🟡 2. Function1〜3：関数 a. Fuction1：fep i. 出力を3回繰り返す b. Fuction2：blicket i. 先に来た単語で後に来た単語を挟む c. Fuction3：kiki i. 単語の順序を入れ替える 3. Function compositions：合成 Cingulate, inc

36.

課題づくりが Nature メタラーニングの厳密な操作的定義｜系統的構成性がある課題をつくり、系統的汎化ができる課題人間が、入力と出力の関連付けをどのように学習するかを調査（実験参加者は25人） 1. 実験内容 a. 最初に Primitives と、3つの Function を、それぞれ2つの例で学習する b. 次に、組み合わせの例を学習する c. それが終わった後、戦略についてヒアリング d. 問題を解いてもらう 2. 結果 a. b. c. Cingulate, inc 回答時間の平均 23分（最短 8分41秒、最長 41分19秒） 80.7% で完全に一致する出力シーケンスを生成できた 72.5% で学習時よりも長い出力配列に正しく汎化した

37.

LLMが行動をうながすためのミッシングリンクはどこに？ Cingulate, inc

38.

推薦システム守 1. 物件の理解（ex. 印象評価） a. 人間にとってどう見える物件なのかを、AIが評価できるようになる b. 必要なこと i. 人間による印象評定破 2. ユーザーの行動をうながす a. コンバージョンを上げるような画像を検証＆予測（推薦） b. 必要なこと i. 人間による印象評定 ii. 行動データ（コンバージョン） Cingulate, inc 離 3. ユーザー行動の理解 a. 行動理由・要因を把握し、新しい物件条件の表示に活かす b. 必要なこと i. 人間による印象評定 ii. 行動データ（コンバージョン） iii. 評価に耐えうる実験課題

39.

コミュニケーションの3つの課題 1. 通信技術の課題どのようにして、コミュニケーションの 2. TV会議（Zoom）記号を正確に伝達できるか意味にかかわる課題どのようにして、伝達された記号が、伝えたい 3. 自然言語（ChatGPT）意味を正確に伝えるか効果にかかわる課題どのようにして、受け取られた意味が、発信者の望むように相手の行動に影響を与えるか人間科学の知識・理論で、個人の行動変容を促しつつ（サービス＆データサイエンス）、影響力（会話行動）のデータを蓄積しつつ（データ集積）、影響力の生成AIを構築（次世代生成AI）。次世代の生成AI 影響力 SHANNON, Claude E. & WEAVER, Warren. The Mathematical Theory of Communication, 1949 （『コミュニケーションの数学的理論』明治図書出版, 1969） Cingulate, inc

40.

マネジメントをより深く。サイエンスをより近くに。 Cingulate, inc