データ連携部会 RAG分科会(情報通信白書の活用)

>100 Views

March 12, 26

スライド概要

2024年3月15日に行った生成AI協会(GAIS)での講演スライドです。
データ連携部会 RAG分科会の報告として、公開データである「情報通信白書」をChatGPT、Gemini、Claudeに読み込ませて検証しています

profile-image

アステリア株式会社 エバンジェリスト。生成AI協会(GAIS)エバンジェリスト。データ連携・ノーコード・生成AIなどの技術をテーマに、企業の業務変革や新技術の社会実装について発信しています。講演、執筆、コミュニティ活動を通じて、難しい技術を分かりやすく伝えることを得意としています。DIME連載「生成AIやってみた!」や「マンガでわかる生成AI」の原作も担当。AI・ノーコード・データ連携を軸に、企業の業務自動化や新しいIT活用の可能性を探っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

データ連携部会 RAG分科会 第9回 ジェネレーティブAI勉強会 2024年3⽉15⽇ © Copyright 2023 GAIS. All Rights Reserved

2.

データ連携部会 「RAG分科会」 n発⾜したばかりの企業・組織でのデータを 踏まえたLLMの使い⽅を調査、研究する 「分科会」 n当分科会ではRAGの意味は広めにとっており、 LLMに含まれない外部の情報を踏まえる⼿法 全般のこと指している n分科会の初期の活動として公開されている データを使い、活⽤させてみることとした 2024/3/15 2 © Copyright 2023 GAIS. All Rights Reserved

3.

対象データ n 政府、各省庁発⾏の〇〇⽩書等、公開⽂書 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 3

4.

まずは1ファイルを対象として n IT⽅⾯の⽅が多いかと思い、 馴染のある「情報通信⽩書」を 対象としてみました nファイルサイズは22.5MB n図表を多く含む307ページ 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 4

5.

そのままChatGPTに添付して読み込んでみた n ChatGPT Plus で実施 (無料のものは添付できない) n GPT4を利⽤ (GPTsやプラグインは 使⽤していない) n 添付はできたものの、 「直接的な情報は⾒つかり ませんでした。」と 回答された。 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 5

6.

表紙、目次、概要部分を削除 n 情報通信⽩書は表紙の後に図表を 多く使った全体の概要部分が存在 します n表紙、⽬次、概要部分をカットし 容量を減らしました nファイルサイズは9.3MB 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 6

7.

表紙と目次を削除、容量を半分以下に n なぜか冒頭は英語で返され たものの、内容としては正 しいと思える回答が返って きた nデータサイズによるものか、 図表が多かったことが原因 かは判断つかないが、デー タの整理加⼯は効果あり 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 7

8.

GPT の Knowledge にそのまま登録 n元のファイル(22.5MB)をGPT のKnowledgeにセット nネット上の情報は検索しない設 定にした n初回実施時にはエラーとなった が再実⾏で回答が返ってきた nデータを整理しないと不安定に なる傾向あり? 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 8

9.

ちなみに流行りの Claude では? nClaude では無料版でもファイル 添付OK nPDFも対応している n読み込んだファイルもプロンプト のサイズ制限にカウントされる n1セクションのみのPDFにしてみた が上限を超えてしまった 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 9

10.

Google Gemini では? nGemini では無料版でもファイル 添付OK n画像のみOKでPDFはNGだった 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 10

11.

多数のファイルを扱う n 各省庁のファイル全般を扱う⽅法として n全ファイルをまとめたPDFを作る n 容量、内容的に不安定になりそう nGPTs に複数ファイルを設定する n 20ファイルが上限? nGoogle Drive に⼊れて Gemini で取り扱う n そのまま置くだけでOK? 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 11

12.

Gemini で Google Drive を参照してみた n Gemini ではアクセス許可を すれば⾃分のGoogle Driveを 参照可能 n 「@Google Drive」をつけて 明⽰的に参照を指⽰ n回答は得られた上に参照元の ドキュメントを教えてくれた 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 12

13.

まとめ n 今回の検証結果 n 参照するファイルは容量、内容を精査する必要あり n GPTsで使うにしても加⼯、修正は効果あり n 現状、複数ファイルであればGoogle Driveは⼿軽に試せる n 注意点など n 企業や組織として使う場合は規約等のチェックは必要 n 現状、⼤きくコストを掛けてRAG環境を作っても状況が 変わる速度が早い 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 13

14.

今後の活動 n ⽐較表など? 直近の活動としては 検討せず n ⾮営利団体として意義はあるかも n 現状作っても来週には状況が変わっている? n RAG の深堀り、検証 n VectorStoreを使う検証 n PDFから MarkDown への変換など n テキストの区切り⽅ n 精度向上⽅法 直近では GPTs等、開発 不要なものでの活⽤法を 検証 n ⽉1の勉強会では何らかの報告ができるように 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 14

15.

メンバー募集中 n RAG 分科会では 随時メンバー募集中です n 調査や実証実験等に積極的に関わりたい⽅はご連絡ください 「gais.jp」の 「お問い合わせ」から ご連絡ください n 情報収集がメインと考えている⽅は毎⽉の勉強会で聞けます 2024/3/15 © Copyright 2023 GAIS. All Rights Reserved 15