GPTは労働市場にどのような影響を与えるか

3.6K Views

July 15, 23

スライド概要

元来、AIは成長に貢献するものと見られていたが、あまり厳密な論考はなかった。ところがChatGPTの登場で、生成AIツールを導入すると「生産性が向上する」と言われるようになった。しかし、どの位向上するのか?また、どんな業務で向上するのか?についての厳密な指針はなかった。これらの疑問に答える画期的な論文が最近登場した。そこで、これらの論文の内容を紹介する。

profile-image

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

GPTは労働市場にどのような影響を与えるか? B-frontier 研究所 高橋 浩 1

2.

自己紹介 - B-frontier研究所代表 高橋浩 • 略歴: • 元富士通 • 元宮城大学教授 • 元北陸先端科学技術大学院大学 非常勤講師 • 資格:博士(学術)(経営工学) • 趣味/関心: • 温泉巡り • 英語論文の翻訳 • それらに考察を加えて情報公開 • 主旨:“ビジネス(B)の未開拓地を研究する” 著書: 「デジタル融合市場」 ダイヤモンド社(2000),等 • SNS: hiroshi.takahashi.9693(facebook) @httakaha(Twitter)

3.

目的 • ChatGPTは強烈なインパクトを与え世界を席巻している。 • 発表されて間が無いので、現実の場面に適用して分析した実証 研究は少ないが、先進的論文は出始めている。 • 本稿は、それらの中から注目*の2論文を紹介する。 ➢Part1:巧みな状況設定によって知識産業従事者がChatGPT を使用した際の生産性向上効果を捉えた実験結果の論文 ➢Part2: Open AI社メンバーが中心になって(技術的課題では なく)ChatGPTが労働市場に与える影響を論述した論文 • これらが示唆する生成AIの機会と影響を共有することで、これ からの世界への取組みに資することを目的とする。 *:2023年発表でChatGPT絡み(経営学系)で引用件数の多い論文、Part1論文:32回, Part2論文:69回 3

4.

目次 Part1:ChatGPTはどこまで生産性を向上させるか? • 実験プラン • 主な結果 • 今後に向けた示唆、など Part2:ChatGPTは労働市場にどのような影響を与えるか? • 問題認識 • 分析手法 • 主な結果 • 今後に向けた示唆、など 4

5.

Part1 ChatGPTはどこまで生産性を向上させるか? 5

6.

はじめに • 産業革命以来、機械の進歩は、オートメーション(自動化)技 術の導入の歴史でもあった。 • 直近のコンピュータ技術、デジタル技術では、「ルーチンに 偏った」自動化が起きていた。 • 並行して、2010年代に入り、機械学習という技術が自動化の新 しい可能性を示していた。 • 特徴:既存データセットからの学習に基づく技術 • この状況がChatGPTを初めとする生成AIの登場で俄かに大幅に 改善された。 • 結果、創造的タスクや設計的タスクが広範な自動化に直面する ことになった。 6

7.

今回の自動化の特徴 • 従来の自動化では執筆や画像生成などの創造的タスクは回避さ れていた。 • 生成AIは寧ろこの分野の自動化あるいは支援が主要な対象分野 になる。 • 創造的作業は多様で独自的である以上、従来の評価尺度は通用 しない。 • そこで、新たな実験プランを考え、それを実行することによっ てChatGPTによる生産性向上を数値的に捕捉することを試みる。 • 基本プラン: ① 代表的専門分野毎にモデルタスクを設計する。 ② このタスクの実施者を広く募る。 ③ 選定された人が本気になって作業してもらうのに充分なインセン ティブを設計する。 7

8.

生成AIによる生産性向上測定の実験プラン • 主導的実験実施者:MITの経済学系の大学院生(複数名) • 実施プラットフォーム:社会科学研究中心の調査プラットフォーム Prolificを利用 2014年にオックスフォード大学の大 学院生らを中心に設立。現在はシリ コンバレーのファンド等が管理 • 実施者選定:本プラットフォームで対応者を募り数万人から回答。 その中から関心のある職種で経験豊富な専門家444人を選定 • 選定職種:マネジャー、人事専門家、助成金作成者、マーケティン グ担当者、コンサルタント、データアナリストの6種 8

9.

ChatGPTの生産性を把握する方法 • 実施方法: • 実施者に2つのタスクを依頼(それぞれ20~30分相当のタスク) • 2番目のタスク実施前にランダムに対象者を2グループに分割 • Aグループ:ChatGPTへのサインアップを指示(2番目タスク実施前に使用 法確認の時間を与える)⇒ChatGPTが有用と判断した人にはタスク実施へ のChatGPT使用を許可する。 • Bグループ:Overleaf(オンラインLaTexエディタ)へのサインアップを指示 • インセンティブ: • タスク実施で基本料金支払い。成績に応じてボーナス支払い (Prolific使用の一般的費用(12ドル/時)を大幅に上回る水準を設定) • 補足情報: • 2番目タスク実施手段の選択結果: • Aグループ対象者の大半(87%)はChatGPT使用を選択した。 • Bグループ対象者でOverleafを選択したものはいなかった(Overleafへのサインアップ指示 はAグループとの作業スケジュール調整の手段)。 9

10.

タスクの例 • 6種の職種向けに2つのタスクを個別に設計した。 • タスク例:各職務に相応しいプレスリリース、短いレポート、分 析計画、繊細な電子メールなどの作成 • 個別内容はS. Noy論文のAppendixで全面公開されている。 • 概要:全12タスクで26頁(1頁~4頁)(目次を下表に示す) 10

11.

評価手法 • タスク内容と実施方法: • タスクは各職種で実際に使用されている内容に似せて設計 • 多額のボーナス支払いなどで質の高いタスクを生み出す条件を整 備 • 評価: • タスクは同じ職種に従事する経験豊富な専門家によって実施 • 基本的には7段階評価 • 加えて、評価者はタスク出力を実際の作業環境で遭遇したように 扱うことを求められる。 • その視点から文章の質、内容の質、独創性などの個別評価も行う。 • 同一内容は3人の評価者によって評価され、その後、平均を取る。 11

12.

主な結果1 • Aグループ(ChatGPT使用)では2 番目タスクの実施時間が大幅 に短縮 1番目タスク 2番目タスク Aグループ 30分 17分 Bグループ 29分 27分 – 作業時間が約40%時間短縮 実施時間の短縮 Aグループ:Treated Bグループ:Control 1番目タスク 2番目タスク 平均的な成績の上昇 Aグループ:Treated Bグループ:Control • 成績の評価でもAグループは平 均して成績が18%向上 1番目タスク 2番目タスク 12

13.

主な結果2 • Aグループ2番目タスクの時 間短縮効果および成績向上効 果は特定部分に限定されない。 2番目タスクの実施時間分布 Bグループ:Control Aグループ:Treated 時間分布全体が左にシフト (全作業が高速化) 2番目タスクの所要時間(分) 2番目タスクの成績分布 成績分布全体が右にシフト (全作業品質が向上) Bグループ:Control Aグループ:Treated 2番目タスクの成績 13

14.

主な結果3 成績(生産性)の不平等の減少 1番目タスクの評価(横軸)が2 番目タスクの評価(縦軸)でどう 変わったかのマッピング • Aグループ参加者全員がほぼ Bグループのトップと同様の 成績にシフト • 即ち、成績が低レベルの人は 評価を挙げるが元々高レベル の人は(時間短縮以外は)あ まり変化しない。 2番目タスクの成績評価 • Aグループ(ChatGPT使用) 参加者間の生産性の不平等が 劇的に縮小 1番目タスクの成績評価 Bグループ:Control Aグループ:Treatment 14

15.

結果のまとめ • 専門的執筆等のタスクを中級レベル以上の専門家がChatGPT を使用して実施すると、 ① 生産性が大幅に向上する。 ② 能力のより低い担当者においては作業時間の短縮化と出力品 質の向上の両方が達成される。 ③ 一方、能力のより高い担当者においては作業時間は大幅に短 縮化するものの品質は既存水準を維持する程度に留まる。 ④ ChatGPT は生産性の分布を大幅に圧縮させる。 ⑤ 結果、担当者間の生産性の不平等が軽減される。 15

16.

今後に向けた示唆、など • 本実験からは、ChatGPT は労働者のスキルを補完するという よりは、主に労働者の努力を代替するものであることを示唆する。 • 結果、潜在的には労働者の需要減少を引き起こす。 • ChatGPT導入でもトータル価値に変化が無いとすれば、資本所有者が 労働者を犠牲にして利益を得て、分配に(不平等などの)悪影響を及 ぼす懸念は有り得る。 • 但し、実験はその性質上、選択した職務に対する ChatGPT の 直接的かつ即時的影響のみを捕捉している。 • 今後、労働市場と生産システムがChatGPTのようなテクノロ ジーの出現に適応するにつれて、多くの間接的または相殺的効 果も生じて来るものと思われる。 • これらを適切に捕捉するための多様な工夫が必要になる。 16

17.

Part2 ChatGPTは労働市場にどのような影響 を与えるか? 17

18.

はじめに • AIが成長を押し上げる効果があるとは思われていたが、AIと 労働との関係は従来明確ではなかった。 • 2018年、AIと労働の関係をより深く理解する方法として新た な提案が行われた(Felten, 2018)。 • AIの進歩をさまざまな職業能力に結び 付ける。 • そのために、電子フロンティア財団 (EFF)AI Progress Measurementデータベースと • 米国労働省の職業情報ネットワーク (O*NET)データベースを結びつける。 18

19.

基本的考え方 • 電子フロンティア財団AI Progress • 米国労働省の職業情報ネットワーク (O*NET)データベース Measurementデータベース • 様々なAIカテゴリーに関わるタスクの AI • 米国の職業の定義を提供する包括的データ ベース パフォーマンス進捗を追跡することを目 的としたパイロットプロジェクト • 1990 年代以来、約1000の職業の性質の変化 に応じて最新の情報を提供するデータベース • 機械学習に焦点を当てたブログ投稿や を開発、維持 Web サイト、学術文献、レビュー記事などの データを利用して進捗を監視 • 個人要件、個人特性、経験要件、職務要 件、労働市場の状況の情報など • 様々なAIに関わる最先端のパフォーマン ス メトリクスを 集約する初の統合デー • 52 の異なる能力のリストも管理しており、各 タベース作成を目指す。 能力が関連する職業も提示 両データベースを突き合せればAIと労働の関係に知見が得られるはず 19

20.

本稿で紹介する新しい方法 • 米国労働省の職業情報ネットワーク • GPT-4に直接探索させる! (O*NET)データベース (人間によるタグ付け実施も並行実施) ① AIが労働に関係する(タスクがAIの進 歩に晒される)とはどういう状態かを 定義する。 • 米国の職業の定義を提供する包括的データ ベース • 1990 年代以来、約1000の職業の性質の変化 に応じて最新の情報を提供するデータベース ② GPT-4が探索に使用するルーブリック を開発、維持 (プロンプトのようなもの)をO*NET • 個人要件、個人特性、経験要件、職務要 データベース構造を意識して設計する。 件、労働市場の状況の情報など ③ GPT-4の結果を検証するのに相応しい • 52 の異なる能力のリストも管理しており、各 同時実行の人間の作業を設計する。 能力が関連する職業も提示 O*NETデータベースの情報を元にGPT-4を使って直接結果を導出 20

21.

① タスクがAIの進歩に晒されている状態とは • 次のように定義する。 • LLM(ChatGPTやGPT-4)へ直接アクセス、あるいはLLMを利 用したシステムへアクセスすることで、人間が特定タスクを実行 し完了するのに必要な時間が、少なくとも 50 パーセント短縮できる かどうかを指標とする。 • この状態が達成できると評価されたタスクはAIの進歩に晒されて いる状態(エクスポージャー)と定義する。 • LLMを利用したシステムも包含する背景: • LLMを補完する技術の幅広さ、規模、機能あるいは役割はまだ充 分明確ではないが、LLM の影響を最大化するには、LLM をより 大規模なシステムと統合することが条件であると想定されるため 21

22.

② ルーブリックの設計 • 次の場合はエクスポージャーなし (E0): • LLM を使用しても、同等の品質を維持しながら、タスク完了に必要な 時間がまったく短縮されないか、最小限しか短縮されない、あるいは、 • LLM を使用すると、タスクのアウトプット品質が低下する。 • 直接的エクスポージャー (E1) : • ChatGPT または OpenAI Play Ground(API)経由でLLM を使用する と、タスク完了に必要な時間が少なくとも半分 (50%) 短縮できる。 • LLM+LLMを利用したシステムのエクスポージャー(E2): • LLM にアクセスしただけでは、タスクを完了するのに必要な時間を少 なくとも半分に短縮することはできないが、 • LLM 上で追加のソフトウェアを開発すると、特定タスクを高品質で完 了するのに必要な時間が少なくとも半分に短縮できる可能性がある。 この文面をほぼそのまま(O*NET)のタスク対応にGPT-4で評価する 22

23.

(O*NET)データベースの特殊性 • サンプルを下表に示す。 • 詳細な作業活動(DWA)は記述されていたり、記述されていなかったりする。 • そこで、GPT-4がDWAをどのように扱うか検討がいる。 タスクID 職業タイトル 詳細作業活動(DWA:Detailed Worker Activity) タスク説明 14675 コンピュータシステ ムエンジニア コンピュータ システムのパフォーマンスを システム動作を監視して潜在的な問題を検出する。 監視し、適切に動作していることを確認する。 18310 急性期看護師 診断または治療用の医療機器または装置を操 作する。また、使用する医療用品や機器を準 備する。 人工肛門や気管切開装置、人工呼吸器、カテーテル、消化管 チューブ、中心ラインなどの侵襲的な機器やデバイスの設定、 操作、監視を行う。 4668.0 賭博場労働者 販売またはその他の金融取引を実行する。 顧客の現金チェックとクレジットカードの前払いを処理する。 15709 オンライン販売者 販売またはその他の金融取引を実行します。 完了した取引と発送の確認を電子メールで送信する。 6529 幼稚園教諭(特殊教 育を除く) – 集中した複雑な遊びへの参加を促進するために、保護者のボ ランティアや年長の生徒を子どもたちの活動に参加させる。 6568 小学校教員(特殊教 育を除く) – 集中した複雑な遊びへの参加を促進するために、保護者のボ ランティアや年長の生徒を子どもたちの活動に参加させる。 (O*NET)データベースの諸元:職業数=1016個、 DWA数=2087個、 タスク数=19,265個 23

24.

③ 人間の作業の設計 • GPT-4作業との対比で示す。 • GPT-4による探索: • 優位点:GPT-4の持つ、膨大なデータによる学習で蓄積した知識ベー スの方が人間(あるいは電子フロンティア財団AI Progress Measurementデータベース)より良い判断をする可能性がある。 • 欠点:(O*NET)データベースの記述レベルは恣意的で一貫性が無い部 分があるのでそれを基礎にした一律の判断は適正でない場合がある。 • 人間による探索: • 優位点:「職業タイトル」「タスク説明」に加えて「詳細作業活動」 も適切に加えて判定できるメリットがある。 • 欠点:人間作業者はLLMの仕組みや(O*NET)データベースに通じてい る人物をアサインできるものの、彼らは一般に多様な職業の実態を知 らない可能性が強い。 24

25.

GPT-4評価と人間による評価 • GPT-4評価: • GPT-4 の初期バージョンにルーブリックを適用した。 • 但し、DWA は除外し、全てのタスクと職業のペアを対象とした。 • 人間による評価との一致を高めるため、ルーブリック (この場合 はGPT-4への「プロンプト」に相当) にわずかな調整を加えた。 • 人間による評価: • (O*NET)のDWA と全てのタスク説明情報にルーブリックを人間 の視点で適用し評価した。結果はタスクと職業レベルで集計した。 • 実際の作業は、著者らがDWAとタスクのサンプルに個人的にラ ベルを付け、更に、OpenAI のGPT-3、GPT-3.5、GPT-4 調整作 業に対応した経験のあるメンバーに協力を依頼した。 25

26.

GPT-4による評価 GPT-4による評価 主な結果1:GPT-4 と人間のエクスポー ジャー評価の類似性比較 人間による評価 人間による評価 • 職業別の LLMエクスポージャーにおいて、人間の評価と GPT-4 評価は高度 な一致を示した。(ビン散布図【左】と生の散布図【右】) • エクスポージャー評価の上限付近では、人間は平均して、職業/タスクがAI に晒されている(侵されている)と評価する可能性が高くなる傾向があった。 26

27.

評価尺度の定義 • ルーブリックで設定したE0、E1、E2を元に次の3つの評価尺 度を定める。 • α: • ルーブリックで設定した E1 に対応し、職業内でAIの進捗に晒される タスクの割合の下限と想定される。 • β: • E1 と 0.5*E2 の合計とする。 • E2 の 0.5 の重みは、追加投資が必要な補完的ツールやアプリケーショ ンを介したテクノロジーを導入する際のエクスポージャーを考慮して いる。 • ζ: • E1 と E2 の合計とする。 • LLM を利用したソフトウェアによる最大の評価を提供するエクスポー ジャーの上限と想定される。 27

28.

主な結果2:GPT-4 と人間によるエク スポージャー評価結果の要約 職業レベルのエクスポージャー タスクレベルのエクスポージャー • αは平均して職業内のタスクの約 15% が LLM に直接晒されている ことを示唆する。 • βは30%を越え、また、ζは50%を越えており、より一層LLMに晒 されていることを示唆する。 28

29.

主な結果2’:経済全体に渡るエクス ポージャーの強度の図示 職業のパーセンテージ GPI への職業のエクスポージャー 〇 α (人間) α(GPT-4) β(人間) β(GPT-4) ζ(人間) ζ(GPT-4) エクスポージャーされたタスクの最小パーセント • グラフ上の各点は、縦軸に職業の推定パーセンテージを表し、横軸にエクス ポージャーレベル (𝛼、𝛽、𝜁) のパーセンテージを示す。 • 横軸上の任意の点で、𝛼 と 𝜁 の間の垂直距離がLLM への直接アクセスによる エクスポージャーを超えて、ツールおよびアプリケーションに起因するエクス ポージャーの可能性を表す。 29

30.

主な結果3:各測定によるエクスポー ジャーが最も多い職業 • 最も高い職業を5個づつ示す。 • エクスポージャー率(右 側)は、GPT-4あるいは人 間によって (𝛼, 𝛽, 𝜁) 対応に エクスポーズされる職業内 のタスクの割合を示す。 • これらの職業は、GPT およ び GPT を利用したソフト ウェアによってタスク完了 に大幅な時間節約ができる。 • より高度の知識作業に従事 する職業の方がエクスポー ジャーが大きい傾向がある。 30

31.

結果のまとめ ① GPT-4と人間の評価は高度に一致しており、時間短縮50%基 準の妥当性とGPT-4の高機能を実証している。 ② LLMを利用したアプリケーション効果までを考慮するとエク スポージャーが急激に増加し新たな対応の必要性を示唆する。 ③ 例えば「米国労働力(職業とほぼ比例)の約80%がLLM導 入によって業務(タスク)の少なくとも10%に影響を受ける 可能性がある」と言える(「主な結果2’」図の 印の場合: β(GPT-4)ベースによる)。 ④ より高度の知識作業に従事している人間(例:法務関係、会 計士、詩人、各種研究員、など)の方がLLM導入によるエク スポージャーが高くなる。 31

32.

今後に向けた示唆、など ①• ChatGPT/GPT-4など生成AIによる効果を時間短縮(半減)に絞 り網羅的に職業/タスクを評価した結果、幅広い分野がAIの進 歩に晒されている状態であることが判明した。 • これは人間の代替、あるいは人間の強化を不問にした評価だが、 広範に渡るため、これを具体化する検討が強く迫られているこ とを示唆する。 ②• また、LLM活用を一層進展させるアプリケーション開発を加え た評価は、時間短縮効果に限定しても適用範囲を大幅に拡大さ せていることが分かった。 • 従って、LLM活用は単にGPT-4利用やAPI利用に留まらず、 LLMを基本パーツとして、これを活用するアプリケーションや 統合システムの検討/開発が重要であることを示唆する。 32

33.

Part1とPart2を通して • 全体を通して見ると、時間短縮効果がChatGPT効果の第一と 見做せる状況にあることが分かった。 • この効果は汎用性があると考えられ、エクスポージャー可否 の判定基準としても妥当である。 • また、ランダムな回答者によるPart1の評価、時間短縮効果 (50%)をエクスポージャー可否の判定基準として全職業/全タ スクをGPT-4と人間で評価したPart2の結果のどちらからも、 生成AI効果が広範囲に及ぶことが確認された。 • このような生成AI効果は、より強く高レベル知識労働者(非 日常的な認知分析作業などが多い)にエクスポージャーを迫 る傾向があることも確認された。 33

34.

Part2についての補足 • 紹介論文はOpenAI社にとってもかなりの人材、コンピュータリソースを 投入した可能性がある。 • 時間短縮50%の判定基準設定や職業/タスク2万件対応のGPT-4による評 価作業はかなりの負担であるし試行錯誤もあったと想定される。 • 加えて、職業/タスク2万件の人間側評価にはGPTシリーズのトレーニン グに携わった経験のあるOpenAIメンバーが投入された。 • このような背景に、生成AIの明確な生産性向上の事実とその影響の幅広 さを客観的にアピールする意図があったものと思われる。 • 但し、本論文が示唆する広範なエクスポージャーは、文字通り可能性で あって、具体化にはそれぞれの場面で様々なプロセスが想定される。 • 一方、本論文の枠組みに準拠し職業を上場企業業務にマッピングさせて、 ChatGPT使用前、使用後の企業業績差を分析した論文は既に出ている。 • 結果は、ChatGPT導入企業の方が(労働投入見直し?などで)業績が向上していた。 (A. Eisfeldt et al., “Generative AI and Firm Values”, NBER Working Paper 31222, 2023) 34

35.

今後に向けた示唆、など(まとめ) • 適用範囲が極めて広く(準)汎用技術としても認識可能なこと から、これら技術導入による企業業績への影響も考慮すべきこ とを示唆する。 • 労働の代替(例えば時間短縮)効果は明確だが、これを人間代 替(自動化)、人間力強化(AIによる支援)などと具体化する ためのプロセス検討が緊急であることを示唆する。 • 嘗ての汎用機能(蒸気機関、電気、コンピュータ、など)の普 及と比較しても、高レベル専門職への影響が大きい、生成AIの 進歩のスピードが速い、など、従来とは異なる特徴も顕著であ ることから、これらも踏まえたロードマップ作成や導入プラン、 必要スキルや人材育成などの早期具体化を示唆する。 35

36.

ChatGPT等、LLMの今後について • ChatGPTの軽快で直感的なインタフェースはLLM紹介の最初のキーアプリ ケーションであったと言える。 • 結果、ChatGPTリリースはAIユースケース急増におけるカンブリア紀爆発 にも例えられる新たな状況を創発させた。 • 一方ChatGPTは自信に満ちた「完璧なデタラメ」の側面も依然存在する。 • これらも考慮しつつ、今後は次のような配慮が必要になると思われる。 • 「書くという行為自体」から「伝えたいアイディア」などへと焦点がシフト • 「テキストそのものはコモディティ化」するので、却って、「様々なテキスト・オプ ションを読み解き解釈する能力」や「それらを書く能力」が重要化 • 「生産性格差は拡大」する可能性があるが、同時に「非母国語者の言語スキルを向上 させ、国境を越えた競争を平等化」する可能性も登場 • いずれにしても、LLMとその上に構築されるサービスの範囲、品質、適用 可能性は拡大の一途を辿る。 • 人々はあるツールの出力を別ツールの入力にも使用するなど、様々なAI ツールを賢く接続し利用する方法を見つけることになると思われる。 36

37.

文献