エシカルデータの潮流

69.1K Views

January 27, 24

スライド概要

新潟大学若手データサイエンスコロキウム2024 で発表した資料です。

tokoroten

@tokoroten

スライド一覧

高機能雑用

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 5.17MB)

各ページのテキスト

1 エシカルデータの潮流 2023/01/26 新潟大学若手データサイエンスコロキウム2024 株式会社NextInt 中山心太

2 自己紹介 • 中山心太（ところてん） • @tokoroten • 株式会社NextInt 代表 • 著書 • • • • 仕事に役立つ必修科目情報I（10/27 発売） ChatGPT 攻略仕事ではじめる機械学習データサイエンティスト養成読本ビジネス活用編 • お仕事 • • • • • 機械学習システム構築に関する技術顧問各種スポットデータ分析業、ビジュアライズ業務改善コンサルティング、DX支援・研修新規事業コンサルティング、PoC構築ゲームディレクター

https://twitter.com/tokoroten

3 エシカルデータの潮流 • この講演はChatGPT攻略に掲載されているコラムに基づいています（紙面都合でかなりカットされた） • 全文を載せたブログ記事もあります • 「エシカルデータの潮流」でググってください • https://tokoroten.medium.com/%E3%82%A8%E3%82%B 7%E3%82%AB%E3%83%AB%E3%83%87%E3%83%BC% E3%82%BF%E3%81%AE%E6%BD%AE%E6%B5%814973bd4be5b7 • 「エシカルデータ」は講演者の造語です、私以外に使っている人はいません、他所で使うと恥かくかも • 発表者はAIの専門家ではありません • Webで公開されている資料を整理・未来予測を行ったものです

https://tokoroten.medium.com/エシカルデータの潮流-4973bd4be5b7

4 目次 • エシカルとは？、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは？ • エシカルデータの潮流 • 1984年へ

5 エシカル（Ethical）とは？ • 「倫理的な」 • 身近な利用例だと「エシカル消費」が有名 • エシカル消費 • フェアトレード等を包括する概念として新たに登場 • SDGsの12番「つくる責任使う責任」が該当 • 生産消費活動における「負の外部性」に着目し、負の外部性が低い商品を優先的に選択することを推奨する活動 • 負の外部性 • 生産・消費活動によって、第三者に対して害を及ぼし、長期的に全人類に負の影響が発生すること、「共有地の悲劇」 • 企業は営利活動を追及すると自然と、貧困、人権問題、自然破壊等が起こってしまう（一例：紛争ダイヤモンド、水俣病、焼き畑農業、交通事故）

6 エシカルの背景にあるPRI署名、ESG投資 • PRI:責任投資原則 • 機関投資家にESG投資(Environment、 Social、Governance)の視点を組み入れることを求める国連提唱の投資原則 • GPIF（日本の年金基金）をはじめ、世界中の機関投資家がPRIに署名している • GPIFはESG投資インデックスを採用することで、ESG投資を実現 • 機関投資家はESGに配慮した企業への投資を重視するようになった出典：「サステナブルな企業価値創造に向けたサステナビリティ関連データの効率的な収集と戦略的活用」（経済産業省） https://www.meti.go.jp/shingikai/economy/hizaimu_joho/data_wg/pdf/001_04_00.pdf

https://www.meti.go.jp/shingikai/economy/hizaimu_joho/data_wg/pdf/001_04_00.pdf

7 GPIF（年金基金）のESG投資 • GPIFはPRI署名によりESG投資を実行 • ESGを重視した企業が組み入られたETF(投資信託)を大量保有 • 企業の株価は、ESG ETFに採用されるかどうかに強く依存するようになった、ESGやSDGsが株価対策と言われる所以はこのあたり https://www.gpif.go.jp/esg-stw/esginvestments/

https://www.gpif.go.jp/esg-stw/esginvestments/

8 PRI署名によるゲームルールの変化 • 企業の営利活動と、ESG、SDGsは基本的には相いれない、 ESG、SDGsを無視した経済活動をしたほうが利益が出る • PRI署名により機関投資家の行動が変化、彼らがESGやSDGsを重視した企業の株を買うことで、当該企業の株価が上昇 • 企業は上昇した株価を利用して、低金利の借入や株式転換社債、新株発行などを行い資本調達を行う • これにより、資本コストが低下し、市場競争力が改善する • このほかにも株式交換によるM&Aなども可能 • PRI署名は、企業のESGやSDGsの活動（人類の長期的利益）と、営利活動（企業の短期的利益）の両立を可能にした • 二宮尊徳「経済なき道徳は戯言であり、道徳なき経済は犯罪である」

9 SDGs、持続可能な開発の要請 • ESGはマルチステークホルダにおける、中長期的な企業戦略の考え方 • SDGsは、このままだと人類全体の持続的な発展が困難であることが前提の考え方 • SDGsは人類の自主規制 • 資本主義（株主資本主義）の仕組みに任せていくと、搾取的な構造や不平等な仕組み、環境破壊が自然と起こってしまうので、自粛をしましょう • ESGは企業と株式市場の約束、 SDGsは企業等が行うアクションの関係性 https://www.unic.or.jp/activities/economic_social_development/ sustainable_development/2030agenda/sdgs_logo/

https://www.unic.or.jp/activities/economic_social_development/sustainable_development/2030agenda/sdgs_logo/

10.

10 余談）上場企業と非上場企業の考え方の違い • 非上場企業では、ESGやSDGsに取り組んでも、株価は変わらないため、直接的には競争力に寄与しない、別の考え方が必要 • BtoC取引で消費者には選好されやすくなるように、ESGやSDGsをアピールして、エシカル消費を狙う • SDGsの概念の普及により、 SDGsに配慮した製品を選好する消費者や上場企業が増えたため、SDGsを推進することは、企業利益と相反することは無くなりつつある（ということになってる） • 上場企業とのBtoB取引で、上場企業がESGやSDGsに貢献したことになる製品・サービスが求められる • CO2排出量の少ない製品を上場企業に販売、上場企業は株主説明会でCO2排出量を報告 • IFRS（国際会計基準）ではGHGプロトコルによるCO2排出量の開示が要求

11.

11 目次 • エシカルとは？、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは？ • エシカルデータの潮流 • 1984年へ

12.

12 エシカルとAIの関係性 • 2010年代にビッグテックがAIが散々やらかした結果、「エシカルAI」という概念が誕生（私見） • AIの出力結果に差別的な問題が含まれていないか • AIがなぜそのような出力をしたのかの理由を説明する（説明可能AI、XAI） • AIの出力結果によって差別的な構造が再生産されないようにする • 現代社会を教師データにすると、現代社会が抱えている偏見がそのまま学習されてしまう • 何も考えずに機械学習を行うと、自然と差別的なAIが生まれてしまう • AIの出力結果に暗黙的に従うと、差別的な構造が再生産されてしまう • データがあれば、ボタン一つで学習できる、というのは幻想 • 実際にはデータの精査、出力結果の精査が必要、大量のマンパワーが必要 • データ中心のAI（Data-Centric AI）等に発展（今回は割愛）

13.

13 医者と看護師の問題 • Grad-CAMという説明可能AIの論文の中の例題 • https://arxiv.org/abs/1610.02391 • 医者と看護師を2値分類するAIを作った • 医師と看護師の画像をそれぞれ250枚用意（検索して拾ってきた） • 男女比は全体として1:1になるように調整した • 教師データとテストデータを1:1に分割 • 学習時の精度は良かったが、実際に使ってみると駄目だった • 女性医師の画像を入れると、高確率で看護師と誤認識された • 男性看護師の画像を入れると、高確率で医者と誤認識された • なぜ失敗モデルができてしまったのだろう？

https://arxiv.org/abs/1610.02391

14.

14 普通にAIを作ると、普通に偏見を学習する • Grad-CAMに説明させると、失敗モデルは、いずれも顔に着目してしまっていた • つまり、男性なら医者、女性なら看護師と分類するAIが出来上がっていた • インターネット上の画像は、現実の医者と看護師の男女比を反映していた • 医者は男性率78%、看護師は女性率93% • 職業を当てるAIを作っているはずが、性別を当てるAIが出来上がってしまっていた • 2クラスなら簡単に気づけるが、これが多クラスだとどうだろう？ • 各クラスの男女比を均等にして再学習を行ったものが右列 • 半袖ならナース、長袖で聴診器なら医者という説明がなされていると考えられる入力画像失敗モデル修正後モデル https://arxiv.org/abs/1610.02391

https://arxiv.org/abs/1610.02391

15.

15 マイクロソフトの失敗 • 2016年、MSが開発したChatBot TayががTwitter上で公開、即日サービス終了 • ユーザとのコミュニケーションを元に学ぶ仕組みがハックされた • 大量の偏った情報を入力され、誘導尋問によって不適切発現を連発 • ユーザから入力された情報を精査するプロセスが抜けていた • 不適切情報のフィルターが甘かった • 学習率が高すぎた、もっとゆっくりと学習させるべきであった https://twitter.com/geraldmellor/status/712880710328139776

https://twitter.com/geraldmellor/status/712880710328139776

16.

16 Googleの失敗 • 2015年、Google Photoが黒人の写真に「ゴリラ」とタグ付けしてしまう問題が発覚 • Googleをはじめとする各社は、写真に対して「ゴリラ」とラベルを付けるのを現在でも避けている • データセットの中に十分な量の黒人の写真がなかったことが問題であると言われている • Googleのような何億人も利用するアプリでは、ほんの僅かな誤分類がSNSでシェアされて大問題になる • 黒人に「ゴリラ」と付ける人種差別主義者は一定量存在するので、ユーザからの入力をそのまま学習データとするのは危険 https://gigazine.net/news/20150702-google-photos-gorilla/

https://gigazine.net/news/20150702-google-photos-gorilla/

17.

17 Amazonの失敗 • 2014年、Amazonは採用支援AIを開発 • アメリカの履歴書に性別欄はない • 経歴の中に「女子大学」や「女子チェス部」といった項目があると、マイナス評価してしまった • これまで応募した人、採用した人の履歴書を学習データとしていた • システム開発関連職では男女比が偏っており、女性差別するAIが生まれてしまった • Amazonは最終的にAIの運用を中止した https://www.businessinsider.jp/post-177193

https://www.businessinsider.jp/post-177193

18.

18 リクルートの失敗 • 2019年、リクルートは就活生の「内定辞退確率」を選考に利用しないという条件で販売 • リクナビ内での行動履歴から予測を実施 • 内定辞退率が高い学生に対して、不当な取り扱いをする可能性 • 「内定辞退率10%」と「内定辞退率90%」の就活生が居たら、どちらに内定を出したいか？ • 内定を出し過ぎてしまった場合、誰に内定辞退を強要するか？ https://www.nikkei.com/article/DGXMZO48076190R0 0C19A8MM8000/

https://www.nikkei.com/article/DGXMZO48076190R00C19A8MM8000/

19.

19 Facebookの失敗 • 2012年、Facebookはタイムラインに表示されるポストをコントロールすることで、利用者の心理をコントロールできるかどうかの実験を実施 • ポジティブなポスト、ネガティブなポストを優先して見せることで、感情が伝搬するかを調査 • 人の感情をポジティブ、ネガティブに操ることに成功 • 現代の倫理観では完全にNG • SNSでマインドコントロールが可能であるという実験結果なので、マジでアカン https://www.itmedia.co.jp/news/articles/1406/ 29/news007.html

https://www.itmedia.co.jp/news/articles/1406/29/news007.html

20.

20 2010年代の失敗を元にルール整備 • 2019年、内閣府はAI の7原則を策定 • 大企業はエシカルAIの規定を作成 • IBM：AI倫理、AI Ethics • アクセンチュア：責任ある AI • 富士通：AI倫理技術 • 日立：AI倫理原則 • NEC： NECグループAIと人権に関するポリシー • Google：責任あるAI • リクルート：AIガバナンス https://www5.cao.go.jp/keizaishimon/kaigi/special/reform/wg7/20191101/shiryou1.pdf

https://www5.cao.go.jp/keizai-shimon/kaigi/special/reform/wg7/20191101/shiryou1.pdf

21.

21 目次 • エシカルとは？、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは？ • エシカルデータの潮流 • 1984年へ

22.

22 現代の反AI活動とAI倫理 • 現在の反AI活動は、主に「学習データ」の倫理的側面に起因している • ここではいくつかの例を紹介 • OpenAI社のGPTの学習プロセスの問題、学習データに対する問題 • ハリウッドのストライキ • 画像生成AIの学習データに対する問題 • これらの問題が解決しなければ、AIの健全な利用は望めない

23.

23 OpenAI社のアウトソーシングの問題 • TIME紙はOpenAI社がケニアの労働者に対して、時給2ドル以下でアノテーション作業をアウトソーシングしていたと報道 • どのような文章が、児童性的虐待、獣姦、殺人、自殺、拷問、自傷行為、近親相姦といった不適切なコンテンツに該当するのかをラベリングする作業に従事 • 一日中そのような文章を読んだ結果、精神疾患を患う人が続出 • 国内で行うと大問題になる仕事を、途上国に発注して良いのか？ • これは「精神的産業廃棄物の国外投棄は認められるか？」という問題に発展する https://time.com/6247678/openai-chatgpt-kenya-workers/

https://time.com/6247678/openai-chatgpt-kenya-workers/

24.

24 GPT3のデータソースの問題 • Common Crawlは世界中のウェブサイトを巡回して収集されたデータセット、学習は合法だが、ウェブサイトの権利者はAI開発に使われることを許諾していない • WebText2はRedditから収集されたWebTextを拡張されて作られている • Books1と、Books2は海賊版書籍サイトから収集されたと考えられている • OpenAI社は作家との集団訴訟をいくつか抱えている https://arxiv.org/pdf/2005.14165.pdf

https://arxiv.org/pdf/2005.14165.pdf

25.

25 OpenAI社からのクローラを拒否する流れ • 2023年8月頃から、OpenAI社の Webクローラが巡回中 • 追加学習用のデータセットを自ら作成する動き • Common Crawlの更新タイミング（2か月に1回）に合わせないと知識が更新できないという問題を回避するためだと考えられる • GPTが不足している知識を自ら考えて自ら探索しているとも考えられる？ • ニューヨークタイムスなどは GPTBotをrobots.txtで拒絶 https://www.theverge.com/2023/8/21/23840705/newyork-times-openai-web-crawler-ai-gpt

https://www.theverge.com/2023/8/21/23840705/new-york-times-openai-web-crawler-ai-gpt

26.

26 ハリウッド：エキストラ俳優のストライキ • 2023年7月頃、AIをめぐるエキストラ俳優のストライキが発生 • 同時に脚本家のストも発生、こちらは生成AIによる脚本家の失職に対する恐怖から • 映画にはエキストラを3Dスキャンして作られる3Dモデルが使われている • ストライキは以下の2点で争議 • 3Dモデルを他の作品で使えるようにする包括契約（他の作品に3Dモデルが出演しても報酬が発生しない） • 複数の3Dモデルを混ぜて、新たな3Dモデルを作るようにすること • AIの普及によって、1回撮影したらもう次はない、という状態になる可能性が高いため、ストが発生 • ゲームのキャラクターエディットの多様性を考えたら、たぶん早晩そうなる • 組合との労働争議によって、データの提供元に対して利益を還元するような業界規制を敷くことができるという考え方に繋がる https://jp.reuters.com/article/idUSKBN2Z4090/

https://jp.reuters.com/article/idUSKBN2Z4090/

27.

27 画像生成AIの法的リスク • 現状で著作権周りの法的リスクはほとんどない • 出力されたものが、既存著作物と過度に似ている場合は、著作権法や、不正競争防止法が適用される • 既存の著作権はキャラクターを保護対象にするが、作風は保護対象にならない • 右図はいずれもStable Diffusion 1.5 で生成したもの • 「ドラゴンボールの孫悟空」（右上）は現行法で割とアウト • 「ドラゴンボールに登場するネコ」（右下）は現行法でOK Super saiyan Son Goku in DragonBallZ drawn by Toriyama Akira. TV series. • 著作権者に許諾を取らないで、機械学習を行っていることが、現在「倫理的な問題」になっている • 多くの画像生成AIは、LAION-5Bという画像データベースで学習している、これがだいぶマズい cat in dragonballz

28.

28 著作権侵害の要件 • 文化庁としては、基本的には現行法と同様に判断するよ • 文化庁の出した資料はみんな読んでくれ！！！ • https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf

https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf

29.

29 AI生成画像は常識的範囲では合法 • 類似性、依拠性が問題ないなら、画像生成AIを使っても大丈夫 • 類似性（似ていること） • 他者が著作権を持つ別キャラクターを想起しないか？ • ミッキーを描いたらアカンよ • 依拠性（依存していること） • 他者が著作権を持つものに依存していないか？ • コピペ、トレスは当然駄目よ • 他者の著作物を知りながら似せるのはだめよ（知識の依存） • 知らずに偶然似てしまうのは問題ないという判例が存在 https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf

https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf

30.

30 AIの学習は日本の著作権的には問題ない • 著作権者の許諾を得ない学習は、基本的には問題が無い • AIの学習は「享受」ではないため、許諾無く行える • 一部のクリエイターはこれに猛反発している https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf

https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf

31.

31 余談）日本は二次創作のどこに寛容的なのか？ • 類似性・依拠性については、日本は比較的寛容 • 既存キャラクターが同人誌に登場していても基本的には文句を言わない • 類似性のある二次創作はよっぽどでない限り、原作者は侵害を主張しない • キャラクターはある種の公共物である、というような運用がなされる • 東浩紀の「動物化するポストモダン」における「データベース消費」の考え方 • 二次創作が原作者の育成の場（≒修行、道）という考え方もある • 直接利用の類似性・依拠性については、日本はとても厳しい • コピペ、トレスを行ってオリジナルと主張する人に対して極めて厳しい • 逆に明言していると、練習として納得される • このダブルスタンダードが軋轢の元

32.

32 余談）著作権に対する寛容さの違い • 日本には「道」の考え方 • • • • 「道」を究めるには、模倣、マネが必要コピーしてはいけないがマネをする必要はある、守破離の考え方二次創作は一次創作の土壌という出版社（著作者）の文化と思惑二次創作には緩く、コピペやトレスをオリジナルと称することには厳しい • コピペやトレスは明言していれば割と許されるのもまた「道」の考え方 • 英米は「フェアユース」の考え方 • • • • • • 一定の条件を満たせば著作物の利用が認められるという考え教育・研究目的の利用、公共の利益非営利性があること使用する量が少ないこと市場への影響が小さいこと元著作物を変化させていること

33.

33 反AI派はどこで燃えているのか？ • 著作権のある画像が生成できるからダメだ派 • これは類似性・依拠性の問題で、既存の法で裁けるので問題ないはずだが？ • 「道」から発展した、原作リスペクト無罪派 • 二次創作はリスペクトがあるから無罪である、画像生成AIはリスペクトがないからダメだ • 類似性・依拠性による著作権侵害の判定は、リスペクトに依存していると勝手に解釈 • 「道」の考え方からすると、画像生成AIは「ズルい」「道を踏み外している」となる • さらに著作権侵害は親告罪であることを忘れているので無理スジ • 著作権のある画像から学習されているからダメだ派 • • • • • Stable DiffusionやMidjourneyは、著作者の許諾を得ていないLAION-5Bから学習これは2018年の著作権法の改正で法的に問題なくなった、しかし倫理的には問題がある画像生成AIを通じて、クリエイターの売り上げが間接的に減少する可能性法が追い付いていないだけ、という考えもできる、業界規制や立法待ちの状態この問題をクリアしたAdobe Fireflyも登場してきているが、まだまだ微妙 • img2imgで著作権のある画像をデータソースにできるからダメだ派 • これは依拠性の問題で、既存の法で裁けるかどうかは、判例待ち

34.

34 諸悪の根源 LAION-5B • SDやMidjourneyの教師データに使われている画像データ集 • Web上から収集された50億（5 Billion）枚超の画像のキャプションとURL • 著作権が存在する画像も大量に収集されている • 医療データ、YouTubeのサムネ、アニメ切り抜き画像、Pinterestの画像、無修正ポルノ、児童ポルノなども含まれている • Pinterestには有名イラストレーターの画像が多く転載されており、それらが大量に含まれている、これが割とマズイ • 2024年1月現在は、児童ポルノが含まれていることが表面化、画像検索サービスがシャットダウンされている • 参考資料 • https://www.infoq.com/jp/news/2022/06/laion-5b-image-text-dataset/ • https://atmarkit.itmedia.co.jp/ait/articles/2301/18/news011.html • https://texal.jp/2023/12/21/stable-diffusion-and-other-image-generationais-were-found-to-have-been-trained-using-child-sexual-abuse-images/

35.

35 LAION-5Bの検索結果 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false&query=onepiece

https://rom1504.github.io/clip-retrieval/?back=https://knn.laion.ai&index=laion5B-H-14&useMclip=false&query=onepiece

36.

36 LAION-5Bの検索結果 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false&query=FinalFantasy

https://rom1504.github.io/clip-retrieval/?back=https://knn.laion.ai&index=laion5B-H-14&useMclip=false&query=FinalFantasy

37.

37 LAION-5Bの検索結果 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false&query=your+name

https://rom1504.github.io/clip-retrieval/?back=https://knn.laion.ai&index=laion5B-H-14&useMclip=false&query=your name

38.

38 LAION-5Bが児童ポルノで燃える • LAION5Bは、2024年1月現在、児童ポルノが含まれていることが判明し、炎上中 • プログラムが既存の児童ポルノデータベース（Project Arachnid、画像の"指紋"を利用した判定）と照合し、候補を抽出 • 多くの画像URLがまだ生きていることも判明 • 画像生成AIは、実在の児童の性虐待を元にした画像や、ディープフェイクが作れることになってしまった • 「実在の児童の性虐待を元にした画像が生成できるAI」を使うことは倫理的に許されるだろうか？ https://stacks.stanford.edu/file/druid:kh752sm9123/ml _training_data_csam_report-2023-12-20.pdf

https://stacks.stanford.edu/file/druid:kh752sm9123/ml_training_data_csam_report-2023-12-20.pdf

39.

39 アーティストの抗議活動が活発化 • Stable Diffusionは現役のアーティストの絵が学習データに使われており、現役のアーティストの絵柄を模倣した絵を作ることができる • 現役のアーティストの売上を奪っているのではないか？ people using virtual reality wearing Oculus Quest in edo era, by Katsushika Hokusai • 「アーティストの権利を侵害している」として抗議活動が発生、反画像生成AIの活動が活発化 • StableAI社は現在はいくつかの訴訟が進行中 • 右の図にはイラストレーターの村田蓮爾や Jeremy Lipkingの成分を入れて作られている、これは認められるだろうか？ • イラストレータの名前、作品名をダイレクトに入れるのは、さすがにマズイんじゃねーの？という空気感が形成されつつある Digital painting of a close up face portrait of an elegant, beautiful, sophisticated, fashionable, pretty young burmese - japanese victoria justice, the rings of saturn. intricate ornate detail, eye focus, by artgerm, range murata, jeremy lipking, trending on pinterest, artstation hq, vivid 8 k, film still. 上記はStable Diffusion1.5で生成

40.

倫理的な問題をクリアした画像生成AIの登場 • Adobe Firefly • https://www.adobe.com/jp/sensei/generative-ai/firefly.html • PhotoshopにGenerative Fillや、Illustratorの生成再配色としてすでに統合 • 学習データを厳選、倫理的リスクを回避 • 著作権が切れた画像（パブリックドメイン） • オープンデータ（自由に学習して良いとされているもの） • Adobe Stockに投稿された画像で、AI学習許諾が取れたもの • 出力データを精査、フェイクニュースを抑制 • 攻撃的なものや、有名人などは出力しにくくなっている • AI生成の履歴がファイル内に残る仕組み • 法的リスクサポート、訴訟費用保障 • エンタープライズ版では、著作権周りで訴訟された場合、Adobeが補償する

https://www.adobe.com/jp/sensei/generative-ai/firefly.html

41.

Adobe Fireflyに対する攻撃も発生している • 他の生成AIサービスで、イラストレーターの名前を入れた画像を生成 • Adobe Stockに投稿、AI学習許可 • 登録時にイラストレーターの名前を入れる • Adobe FireflyやPhotoshop の Generative Fill に学習されることを期待 • Adobe社を経由した、著作権ロンダリングを狙っている https://twitter.com/VoQn/status/1692842271790731742

https://twitter.com/VoQn/status/1692842271790731742

42.

42 「パブリックドメイン」はパブリックドメインではない • ポケモンの公式画像が詰め込まれたデータセットが、パブリックドメインライセンスで公開されていたりする（しかもKaggle上で） • 公開データセットは割と無法地帯、パブリックドメインのデータセットを使っているAIだから問題ない、ということにはならない

43.

43 目次 • エシカルとは？、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは？ • エシカルデータの潮流 • 1984年へ

44.

44 エシカルAIからエシカルデータへエシカルAIのカバー範囲データ収集アノテーション学習 • 権利者から許諾を得ているか？ • アノテーションを行った人に対 • 大規模学習におけるCO2排出量 • 権利者・第三者の将来利益を奪うことにならないか？して適切な賃金が支払われていが、AI利用時の利益を上回るるか？か？運用 • 差別的・法的問題・ポリコレNG な出力が行われていないか？ • 偏見を排除できているか？ • プライバシーが保護されているか？ • アノテーション業務によって過度な精神的苦痛を受けていないか？ • 構造的問題が拡大するような出力が行われていないか？ • 出力結果をAIが説明できるか（説明可能AI、XAI） • 他者の権利を侵害していないか？ • どのように使われるかが権利者 • アノテーションに偏見が含まれ • 学習データに含まれている個人 • 不適切な出力が行われた際に、情報を匿名化できてているか？即座に再学習をして、出力しないようにできるか？ • 補償はなされているか？に伝わっているか？ • 幅広い人種・属性の人からサンプリングされているか？ • どのようにサンプリングされたデータなのか？ていないか？ • アノテーションを行った人の多様性は？ • 学習データを過学習してそのまま出力していないか？ • 運用時の消費電力は適切か？ • アノテーション結果の検査は？ • データの権利者が許諾した用途 • フェイクニュースが生成されなへの学習か？いか

45.

45 エシカルAIの概念の拡張（未来予測） • 従来のエシカルAIは運用に重きが置かれていた • これからはデータとアノテーションもカバー範囲に含まれるようになる＝エシカルデータ • 学習データに対する透明性と補償が重視される • アノテーション業務の透明化が重視される • 教師データの監査が求められるようになる • 第三者機関が監査を行い、エシカリティが確認されたAIについては、「エシカルデータ認定」が付与される • 現在の「ISO9001」や「ISO14001」「Pマーク」の流れ

46.

46 機械学習における非対称性 • AIが今後人々の労働を大きく変えていくのは間違いない • 機械学習には大きな非対称性がある • データの提供元は低所得者や、途上国の人 • データを利用して機械学習を利益を得るのはビッグテックと、利用する人々 • この非対称性は倫理的にどうなの？ • AIによる社会の変革における「負の外部性」なのではないか？ • データの提供元に対して補償しないことは「持続可能」なのか？ • こういった疑問を解消するには、透明性と補償が必要になってくるのではないか？

47.

47 学習元データの透明性と補償 • OpenAI社はニュースメディアに対してライセンス料の支払いを開始 • 他のAI事業者もこれに倣うのでは？ • データセットに対して、透明性と補償のメタデータが必要になってくる • どのような属性の人から収集データのなのか？ • 年齢、性別、人種、国籍、土地、時刻、 etcのメタ情報が必要 • そのデータの提供元の人にいくらの支払いがなされたのか？ • その学習データがどのようなAIに使われたのかの情報が別途必要 • AIが生み出した利益に応じて、データの提供元に還元する仕組み

48.

48 アノテーション業務の透明化 • 機械学習においても「フェアトレード」の概念が必要 • OpenAI社がケニアに時給2ドルで発注していたような事例は、さすがにアカンやろ感はある • NSFWコンテンツのアノテーション業務については、AIを開発している企業の国内で行うか、その国の最低賃金と同額でアウトソーシングされるべきではないか？ • 東京都の最低賃金は1113円、ニューヨーク市は16ドル • 学習データにはアノテーションのメタ情報が必要になってくる • 誰がアノテーションしたのか、その人はどこの国の人で、どのような属性の人で、いくらの賃金が支払われたのか

49.

49 学習データのエシカリティのメタ情報 • データとアノテーションがエシカルであるためのメタ情報が義務化されるのではないか？ • どのような属性の人から収集データのなのか？ • 年齢、性別、人種、国籍、土地、時刻、etc • どのような属性の人がアノテーションをしたのか？ • 国籍、性別、人種、バックグラウンド、報酬、etc • メタ情報を監査することで、AIのエシカリティが評価できるようになる • 数億件にもなる学習データを全件監査するのは困難であるため、サンプリング調査や、AIによる監査、そのための技術開発が必要になってくる • AIのエシカリティを監査するための組織が必要になってくる

50.

50 監査からESG、株式市場への接続 • 上場企業は会計監査を受けなければ、上場が維持できない • 同様に、上場企業が使うAIは、学習元データのエシカリティ監査を受ける必要が出てくる • 現にLAION-5Bに児童ポルノが含まれていることが判明して炎上中 • 「LAION-5Bを学習データに使っているAIを使っている企業は、エシカルデータ認定が外され、ESGの評価スコアを下がる」ということが起こりうる • 倫理的ではないAIを使っていた場合、ESG ETFから外され、株価が暴落、資本コストが悪化し利益率低下が起こりうる • これを避けるために、上場企業はエシカルデータに気を付けることになる • 余談）監査法人は監査項目を増やしたいニーズがある • IFRSはGHGプロトコルによる温室効果ガス排出量の開示を要求 • ESGの項目の中にAI監査が含まれるようにロビイングすることが考えられる

51.

51 エシカルなアノテーション事業者の台頭 • エシカルデータ認定が普及すると、どのアノテーション事業者を利用したのかで評価されるようになる • 例）バオバブ社 • https://baobab-trees.com/ • 障害者、外国人、難民等をアノテーターとして雇用、経済的自立を支援 • 処理量ではなく、時間に応じて、最低でも東京都の最低賃金を支払い • 精神的苦痛が大きいタスクはスキップしても良い https://baobab-trees.com/news/143.html

52.

52 大企業はAI規制強化にインセンティブ • AI規制に賛成するのは、既存のAI事業者 • 高い規制に対応するためには資金力勝負になる • 監査のデータ量が膨大になるので、監査のためのAIを作れるには、既存のAI事業者が有利 • AIの規制強化がなされると、新規プレイヤーの参入が困難になる • EUのRoHS規制やGDPRによる非関税障壁の構築を思い出せ • RoHSは環境保護の名目で様々な規制を導入、CEマークを取得できなかった途上国の製品が、欧州から締め出された • GDPRで欧州内の個人情報保護の規制が強化、Yahoo! Japanは欧州から撤退 • 最近は10年間の家電修理受付の義務化で、保守部品を持たない業者を排除 https://www.jetro.go.jp/biznews/2023/12/8a6cd52f78d376b1.html

https://www.jetro.go.jp/biznews/2023/12/8a6cd52f78d376b1.html

53.

53 文化庁はAIと著作権に関する素案を公開 • https://www.bunka.go.jp/seisaku/bu nkashingikai/chosakuken/hoseido/r0 5_05/pdf/93980701_01.pdf • 深層学習のために2018年に著作権法を改正したが、生成AIが出てくることを予見していなかった、そのため再調整が必要 • 生成AIを前提とした、著作権の議論を行う必要がある • 学習データをそのまま出力しちゃうヤツはさすがにダメじゃない？ • 現在、パブコメを募集中 • https://public-comment.egov.go.jp/servlet/Public?CLASSNAME =PCMMSTDETAIL&id=185001345&M ode=0 https://www.nikkei.com/article/DGXZQOUE158X 30V10C24A1000000/

54.

54 エシカルデータの展望 • エシカルデータの概念は、AIを開発していく上では避けては通れない • エシカルデータは今後の新たな研究領域、ビジネス分野になりうる • エシカルデータを重視したAI事業者の台頭 • 例）Adobe Firefly（今一歩だけど…） • エシカルデータを重視したアノテーション事業者の台頭 • 例)バオバブ社 • エシカルデータ認定を行うAI監査法人の登場 • デロイトトーマツあたりが仕込んでいそう • https://www2.deloitte.com/jp/ja/pages/strategy/articles/ipa/ai-ethics.html • エシカルデータ認定とESG、株式市場との結びつき • IFRSはGHGがひと段落ついたら、この辺やるんじゃねーかなと思ってる • これはあくまでも2024年1月現在の市況から予想した話

https://www2.deloitte.com/jp/ja/pages/strategy/articles/ipa/ai-ethics.html

55.

55 目次 • エシカルとは？、ESG、SDGsとの関係性 • 失敗したAI、そこから生まれたエシカルAI • 反AI活動、LAION5Bのヤバさ、OpenAIのデータソースは？ • エシカルデータの潮流 • 1984年へ

56.

56 注意！ここからは1984のネタバレが入ります当然みんな読んでるよね？

57.

57 エシカルデータ認定の暗黒の未来 • 国家の外郭団体や息のかかった NPO法人がエシカル認定を発行する組織になりうる • 国の意見と一致している教師データは「エシカル」と認定 • そうではない教師データは「エシカル」ではないとして修正する • 文科省は教科書検定で散々やってるので、教育用LLMはその延長線で「検定」されると思われる「エシカル」ではないAIの例

58.

58 国家がエシカルデータ認定を行う世界 • 教師データには、国家が「正しい」と認めた情報だけ入る • ハルシネーションによる「誤情報の提供」をできるだけ防ぐために、誤った情報が入り込まないようにする • データ中心のAIの技術が活用される • アノテーションデータは精査され、誤ったアノテーションデータは修正される • 国家が「正しい」と認めた情報だけが出力されるように、AIはアライメントされる • これは真理省（The Ministry of Truth)の仕事 • 国家にとって都合のいい情報に過去（学習データ）を修正する仕事 • 主人公がやっているのは、実はアノテーション業務だった

59.

59 LLMと教育、ニュースピーク • 今後、LLMと教育は確実に融合していく • 近代以前は家庭教師が一般的であった • 現代の「教室」は多人数に同じ内容を一斉に伝達するという経済効率性と、国民国家の要請から生まれている • LLMによる「教師」が普及すれば、家庭教師の時代に戻ることは不思議ではない • LLMが話す言葉は、国家が「エシカル」だと認定した言葉だけになる • 「2+2=5」はエシカルであり、「2+2=4」はエシカルではないと認定されたのであれば、「2+2=4」はLLMからは出てこない • 国家がアライメントしたLLMとともに育った子供たちは、ニュースピークを話すようになる • 「自由」という言葉を知らなければ、「自由」について考えなくなる • 我々は既に明治時代に書かれた文章が読めなくなっている https://commons.wikimedia.org/wiki/File:Yakov • 旧字体や変体仮名をすんなり読める人はなかなかいない _Guminer_-_Arithmetic_of_a_counterplan_poster_(1931).jpg

https://commons.wikimedia.org/wiki/File:Yakov_Guminer_-_Arithmetic_of_a_counter-plan_poster_(1931).jpg

60.

60 党が押し付けてくる噓を誰もが受け入れるのであれば── あらゆる記録が同じ内容しか伝えないのであれば── その噓が歴史となり、真実となってしまうのだ。「過去を支配する者は未来を支配する。今を支配する者は過去を支配する」 1984 田内志文訳版

61.

61 LLMと国家安全保障 • LLMを支配する者は、現在を支配する • • • • 某国製の商用LLMから「天安門事件」が出てくることはたぶん無い某国製の商用LLMから教育を受けて育った子供は「天安門事件」を知らなくなる「自由」という言葉が無ければ、「自由」について考えられなくなるニュースピークはLLMが教育を支配したときに完成する • LLMの他国への提供は、超限戦による文化侵略になりうる • 現にChatGPTはアメリカのポリコレによる制限を強く受けており、これを使っている限り、アメリカの文化侵略を受けていることになる • 日本の法や慣習でOKなことでも、アメリカの法や慣習でNGなことが出力できないのであれば、それはアメリカの法や慣習に従っているのと実質的に同じになる • 国産LLMがなぜ必要か？の答えがコレ • とはいえ「国産」もまたバイアスがかかっている • 複数の国、複数の組織のLLMを自由に差し替えて使える社会が望ましい

62.

62 LLM is watching you.

エシカルデータの潮流

tokoroten

関連スライド

セキュリティにおける倫理って何だ？

KEIPEing_会社説明資料_2023年10月版

心理学生勉強会：境界性PDと他人の目を気にしない方法

SSMJP-20221122-01-NLOG2N2

【DL輪読会】Mixtral of Experts

コモンズの悲劇から IT コミュニティ的関係人口を理解する

各ページのテキスト