「なぜビッグデータが選挙の予測を可能にするのか」#yjdsw4

>100 Views

April 15, 16

スライド概要

http://yahoo-ds-event.connpass.com/event/24511/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

なぜビッグデータが 選挙の予測を可能にするのか Yahoo! JAPAN  池宮 伸次

2.

⾃自⼰己紹介 池宮 伸次 いけみや しんじ 主な業務 サービス分析⽀支援 データ可視化 ビッグデータレポート:チーフエディター

3.

どんな仕事? データに基づいた サイト分析、改善 データ可視化、活⽤用

4.

今⽇日のお話 Yahoo! JAPANビッグデータレポート

5.

衆院選、参院選といった 国政選挙の獲得議席予測 ビッグデータレポートでは、Yahoo!   JAPANが保有するビッグデータを⽤用い て選挙の獲得議席数予測や選挙結果の 分析を実施。

6.

2012年年末に衆院選と 検索索データとの関係性をレポート

7.

ものすごく重要な発⾒見見!

8.

その発⾒見見に基づき 2013年年の参院選を予想した

9.

選挙区最終予測 ⽐比例例区最終予測

10.

実際の選挙結果との全議席⽐比較

11.

実際の選挙結果との選挙区⽐比較

13.

なぜこれが実現できたのか?

14.

ものすごく重要な発⾒見見!

15.

の話の前に

16.

Yahoo! 検索索

17.

Yahoo! 検索索キーワードの パソコン データについて スマートフォン タブレット 検索索

18.

検索索キーワードのデータについて パソコン ⼤大量量の検索索キーワード スマートフォン 検索索 タブレット 橋本甜歌 school  of  lock ⾓角川書店 東スポ 東京六六⼤大学 キッズgoo ⽣生協 渡る世間は⻤⿁鬼ばかり 固定資産税 サッポロビール ⼤大阪城ホール 京都府 三⽥田 アウトレット ポイント bb 杉⽥田智和 岩⽥田屋 ビューティーコロシアム 解析 精査 分析 分類 抽出 価値を ⾒見見つけだす

19.

検索索キーワードのログについて 年年間75億種類以上の⾔言葉葉が検索索さ れる「Yahoo!  検索索」。検索索されたキー ワードはもちろん、どういったデバイ スで検索索したかやIPを元にした都道府 県、属性情報などをもとにさまざまな 分析へ活⽤用することができる

20.

検索索キーワードが 決定的に他のデータと異異なる点 検索索キーワードのデータは、ユーザーが 能動的かつ⾃自由意志にて探求欲調査欲に 基づいて⼊入⼒力力しているデータである

21.

検索索は⼈人の情報探求欲から始まる 腰が痛いなぁ 雨が降りそう あのアイドル かわいいなぁ

22.

検索索には世代の違いが現れる 100% フィギュア 31.73% 80% 68.27% 60% 40% ラグビー 67.40% 32.60% 6.21% 13.75% 16.36% 24.13% 28.80% 31.87% 30.64% 19.45% 20% 16.56% 0% 20% 40% 男性 60% 80% 100% 0% ⼥女女性 10代以下 1.43% 8.90% 1.90% ラグビー フィギュア 20代 30代 40代 50代 60代

23.

検索索には地域性が現れる マクド マック

24.

検索索には地域性が現れる 回転焼き風おやつの検索数 が多い呼び方分布 今川焼き 大判焼き 回転焼き

25.

検索索には慣習が現れる 「ネクタイ 結び⽅方」の検索索数推移 4/1前後 1/15前後 4/1前後 1/15前後 2013年1月1日~2015年10月10日 毎年1月前半と4月頭に検索数が増えるという周期性が存在する

26.

※集計対象は2015年。検索数は最大値を基準に指数化 ⾃自由研究 テーマ 課題図書 9⽉月2⽇日 8⽉月31⽇日 8⽉月29⽇日 8⽉月27⽇日 8⽉月25⽇日 8⽉月23⽇日 8⽉月21⽇日 8⽉月19⽇日 8⽉月17⽇日 8⽉月15⽇日 8⽉月13⽇日 8⽉月11⽇日 8⽉月9⽇日 8⽉月7⽇日 8⽉月5⽇日 8⽉月3⽇日 8⽉月1⽇日 7⽉月30⽇日 7⽉月28⽇日 7⽉月26⽇日 7⽉月24⽇日 7⽉月22⽇日 7⽉月20⽇日 夏休みの宿題に関する検索索の変化 夏休みの最初に検索索が多くて 徐々に減っていく

27.

交通安全ポスター ※集計対象は2015年。検索数は最大値を基準に指数化 読書感想⽂文 書き⽅方 読書感想⽂文 パクリ 9⽉月2⽇日 8⽉月31⽇日 8⽉月29⽇日 8⽉月27⽇日 8⽉月25⽇日 8⽉月23⽇日 8⽉月21⽇日 8⽉月19⽇日 8⽉月17⽇日 8⽉月15⽇日 8⽉月13⽇日 8⽉月11⽇日 8⽉月9⽇日 8⽉月7⽇日 8⽉月5⽇日 8⽉月3⽇日 8⽉月1⽇日 7⽉月30⽇日 7⽉月28⽇日 7⽉月26⽇日 7⽉月24⽇日 7⽉月22⽇日 7⽉月20⽇日 夏休みの宿題に関する検索索の変化 お盆休み

28.

塩の結晶 ※集計対象は2015年。検索数は最大値を基準に指数化 ⽜牛乳パック⼯工作 レモン電池 お盆休み 9⽉月2⽇日 8⽉月31⽇日 8⽉月29⽇日 8⽉月27⽇日 8⽉月25⽇日 8⽉月23⽇日 8⽉月21⽇日 8⽉月19⽇日 8⽉月17⽇日 8⽉月15⽇日 8⽉月13⽇日 8⽉月11⽇日 8⽉月9⽇日 8⽉月7⽇日 8⽉月5⽇日 8⽉月3⽇日 8⽉月1⽇日 7⽉月30⽇日 7⽉月28⽇日 7⽉月26⽇日 7⽉月24⽇日 7⽉月22⽇日 7⽉月20⽇日 夏休みの宿題に関する検索索の変化

29.

⼈人権標語 環境問題 ※集計対象は2015年。検索数は最大値を基準に指数化 8⽉月の天気 地球温暖化 ベートーベン 9⽉月2⽇日 8⽉月31⽇日 8⽉月29⽇日 8⽉月27⽇日 8⽉月25⽇日 8⽉月23⽇日 8⽉月21⽇日 8⽉月19⽇日 8⽉月17⽇日 8⽉月15⽇日 8⽉月13⽇日 8⽉月11⽇日 8⽉月9⽇日 8⽉月7⽇日 8⽉月5⽇日 8⽉月3⽇日 8⽉月1⽇日 7⽉月30⽇日 7⽉月28⽇日 7⽉月26⽇日 7⽉月24⽇日 7⽉月22⽇日 7⽉月20⽇日 夏休みの宿題に関する検索索の変化 夏休み最終⽇日

30.

しかし、これらの分析結果は ネット社会特有の結果じゃないの?

31.

検索索データから B A AはBよりも高い! ※ヤフー利用ユーザーにおいては

32.

ネットとリアルは違う? ネット社会 リアル社会

33.

証明するには検索索データと リアルのデータを⽐比較すればよい 1000 900 800 リアル 700 600 500 400 13000 14000 15000 16000 ネット 17000 18000 19000

34.

ものすごく重要な発⾒見見! リアル ネット

35.

ネットとリアルを結びつける ネット社会 リアル社会

36.

ヤフーのビッグデータ 社会の可視化が可能

37.

インフルエンザを リアルタイムで把握する リアル ネット

38.

インフルエンザを リアルタイムで把握する

39.

さらなる検索索データ活⽤用の可能性 国勢調査編 アメリカ⼈人の都道府県別 居住者数と 「Netflix」の検索索量量

40.

しかし、検索索のデータは 万能ではない お腹すいたなぁ どこで待ち合わせる? 今見てるテレビ めっちゃ面白い! 感情といったものは 検索索のキーワードログから 収集するのは困難

41.

検索索量量は気持ちを代弁できるか? 「消費税増税」の検索索数推移 検索索数の増加=興味・関⼼心の⾼高さ 検索索数 ではあるが、 関⼼心の⾼高さ=ポジティブ感情 ではない。 なので、検索索量量の推移だけでその意⾒見見 に賛成なのか反対なのか、ポジティブ な感情なのかネガティブな感情なのか を推察できないことがある 時間

42.

感情分析はTwitterなどが向いている ※各時間帯の総ツイート量量に対する各ワードを含むツイート割合

43.

⼈人の感情や⾝身体変化を抽出 ※各時間帯の総ツイート量量に対する各ワードを含むツイート割合

44.

まとめ • • • • Yahoo! JAPANには多種多様、⼤大量量のデータがある 特に検索索データのログは⾮非常に稀少なデータである データの中にはリアル社会を反映するものがある ゆえに、⽬目的と⼿手段とそれに適したデータの選択さ えまちがわなければ、予測といったような価値を⽣生 み出すことも可能となる