【WebDB Forum 2018】深層学習を活用したLIFULL HOME’S物件画像の分類

298 Views

September 13, 18

スライド概要

9月12日(水) 14:20-16:20 C会場「画像データ処理」
株式会社LIFULL データサイエンティスト 椎橋怜史
LIFULL HOME'Sの仕組みから、深層学習を活用した物件画像の分類、今後の課題などについてお話したスライドです。

profile-image

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

WebDB Forum 2018 深層学習を活用したLIFULL HOME’S物件画像の分類 株式会社LIFULL LIFULL HOM E’S事業本部 新UX開発部 AI推進ユニット 椎橋怜史 2018/09

2.

自己紹介 • 椎橋 怜史 (しいばしさとし) LIFULL HOME’S事業本部 新UX開発部 • 経歴 2016年3月東京工業大学 ↓ 2016年4月LIFULL入社 AI推進ユニット 大学院(修士課程まで) • データサイエンティスト • レコメンドや広告費最適化などの機械学習、アルゴリズム開発 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

3.

LIFULL HOME’S 日本No.1の 不動産・住宅情報サイト LIFULL HOME’S 掲載物件数で © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

4.

LIFULL HOME’Sの仕組み(賃貸) • 不動産会社が物件を掲載 • ユーザーからの問い合わせを不動産会社へ届ける 物件掲載 問い合わせ オーナー ユーザー 不動産会社 (管理or仲介) © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

5.

組織体制 「+AI」の方針で既存サービスにAI機能を追加、新規AIサービスの開発 AI技術に限らずテクノロジーで想像を超えるようなサービスを目指す 他部署と協力・分担してAIサービスをリリース サービス開発部門 賃貸 AI推進 データサイエン ティスト 中古 新築 支 援 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

6.

LIFULL HOME’Sプライスマップ © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

7.

かざして検索 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

8.

記事・TV 弊社サービスや機械学習事例を 取り上げていただいています © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

9.

画像種類の判別モデル © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

10.

画像種別を自動で判別してタグ付け • 情報精度向上 • 入稿処理自動化 • 精度accuracy 0.9 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

11.

画像種別を自動で判別してタグ付け • 情報精度向上 • 入稿処理自動化 • 精度accuracy 0.9 内装 エントランス 風呂 キッチン 設備 駐車場 トイレ 周辺 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

12.

タグ付け機能の立ち位置 画像入稿 不動産会社 (管理or仲介) ユーザー LIFULL HOME’Sの内部アルゴリズム で画像の種別を評価 ↓ 情報精度が高いと優れた情報をユー ザーに届けられる © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

13.

自動タグ付け機能導入による成果 従来のアップローダー (手動でタグ付けしていただく) その他 その他 その他 その他 その他 その他 その他 その他 自動タグ付け導入後 内装 風呂 トイレ 駐車場 周辺 エントランス キッチン 設備 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

14.

自動タグ付け機能導入による成果 精度:accuracy 0.9 従来はデフォルトで「そ の他」になりその後手動 でタグ付けしてもらって 入稿する仕組みだった © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

15.

ディープラーニングで画像の特徴を学習 ・・・ 巨大&複雑 全結合やドロップアウト層など Inception v3(学習済みモデル) 自前実装 画像判別モデル Inception v3を活用した転移学習 学習済みモデルを活用することで計算量を抑えられ、 用意できないデータに対しても学習が可能。 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

16.

学習モデルの開発(設計) 学習リクエスト 参照 tensorflow Cloud Machine Learning Engine 学習モデル プログラミング 分散学習環境 兼 デプロイ Cloud Storage 学習用画像データ ストレージ 24種類 * 1000枚ほど © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

17.

データサイエンス×エンジニアリング 学習できるだけで終わらず、いかに効率よくサービス化できるか Cloud Machine Learning Engine • 画像データの分散学習環境構築・管理の工数削減 • 分類画像の変更時の再学習時のスピード • Cloud Storageとの相性〇 • 予測APIサーバの構築不要 Python + Tensorflowによる学習プログラム(社内開発) • 他社サービスの利用も検討したが金額が障害になる危険性があった • 最新の研究成果などのモデルを試し精度向上を目指せる • 学習項目やデータなどの将来変化し得る事態に柔軟に対応可能な状態にする © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

18.

データサイエンス×エンジニアリング アルゴリズム(施策)の評価基準もアカデミックとは少し異なる アカデミック • 汎化性能(AUC, RMSEなど) • 処理速度、収束速度 • 消費メモリ • 計算量オーダー などで評価されることが多い 上記項目が良ければよいほどいい ビジネス 左項目がサービスに適用可能なレベル ↓リリース • 売上・利益・人件費など • KPI(ユーザー利用数、世間の評判などの中 間指標) などで性能評価となる。 例えば汎化性能をどんなに上げても売上が上が らなければ施策成功とはいいがたい © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

19.

データサイエンス×エンジニアリング アルゴリズム(施策)の評価基準もアカデミックとは少し異なる アカデミック • 汎化性能(AUC, RMSEなど) • 処理速度、収束速度 • 消費メモリ • 計算量オーダー などで評価されることが多い 上記項目が良ければよいほどいい ビジネス 左項目がサービスに適用可能なレベル ? ↓リリース • 売上・利益・人件費など • KPI(ユーザー利用数、世間の評判などの中 間指標) などで性能評価となる。 例えば汎化性能をどんなに上げても売上が上が らなければ施策成功とはいいがたい © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

20.

施策ごとに要求される性能は変わる 私は予測が外れたときのリスクで考えることが多い • 予測が外れると人命に関わる→そもそも機械学習を導入しない • 予測が外れると信頼を失う→高い性能が必要 (例えば価格査定の表示、予測結果の提供など) • 予測が外れても関係者が重大な被害を被らない →多少は欠点があってもOK(精度が良ければよいほどいい)←タグ付けはこれ 1.accuracy0.9で悪くはない 2.間取り画像、キッチン、風呂などの重要視する画像は分類できる 3.景色や周辺画像では精度が悪いが、 タグ付けを導入すれば入稿工数を削減できる →GO © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

21.

今後の課題(一部) © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

22.

今後の課題:ユーザーに有益な情報を持つ画像の判別 同じキッチンでもユーザーが探したいキッチンは異なる © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

23.

今後の課題:間取り画像の3Dモデル化 © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。

24.

まとめ • 部署を横断した機械学習サービスの開発 • 必要に応じてクラウドサービスを利用することでスピーディーな開発 を実現する • 機械学習モデル開発(データサイエンス) + 効率的・安定的な開発と運用(エンジニアリング) の両方が実現できてサービスにできる • 仲間募集してます © LIFULL Co.,Ltd. 本書の無断転載、複製を固く禁じます。