【Ltech#18】LIFULL HOME'Sのおとり広告予測モデルの開発

スライド概要

2021/07/13 Ltech#18 AIで住まい探しをスムーズに!【おとり物件予測&3D間取り】

神谷 慶

profile-image

株式会社LIFULL

@LIFULL

作者について:

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

スライド一覧
シェア
埋め込む»CMSなどでJSが使えない場合

公開日

2021-07-13 12:18:00

各ページのテキスト

1. 2021.07.13 Ltech#18 AIで住まい探しをスムーズに!【おとり物件予測&3D間取り】 LIFULL HOME'Sのおとり広告予測モデルの開発 AI戦略室データサイエンスG 神谷 慶 Copyright© LIFULL All Rights Reserved. 1

2. 自己紹介 神谷 慶 (かみや けい) 2019年新卒入社。 物理学で大学院博士課程修了後、データサイエンス Gに配属。 機械学習フローの自動化やレコメンドアルゴリズムの開発などに携わっています。 AIや数値モデルの予測可能性がビジネスの意思決定にどのような意思決定をもたらすかに 興味があります。 Facebook: https://www.facebook.com/kei.kamiya.946 Twitter(動いていない): @me63316e1 Qiita: https://qiita.com/keikamiya https://www.isee.nagoy a-u.ac.jp/news/award/2017/20170809.html Copyright© LIFULL All Rights Reserved. 2

3. 背景・導入 ● おとり広告とは? ● おとり広告をなくす取り組みについて ● おとり広告の能動調査 ● AIの導入 Copyright© LIFULL All Rights Reserved. 3

4. 背景・導入 LIFULL HOME’Sのビジネスモデル Copyright© LIFULL All Rights Reserved. 4

5. 背景・導入 おとり広告とは ● 成約済み物件の広告の消し忘れ 最初は取引可能だったが、のちに成約済みとなった物件を削除しないまま更新しているパ ターン ● 呼び込みのための架空物件の広告 実際には存在しないのに、集客するために意図的に広告掲載しているパターン 参考: https://www.homes.co.jp/cont/rent/rent_00200/ おとり広告が存在すると、ユーザーが安心して住まい探しできない!! Copyright© LIFULL All Rights Reserved. 5

6. 背景・導入 おとり広告をなくす取り組み LIFULL HOME’Sではユーザーが安心して住まい 探しができるように、おとり広告をなくす取組 みを行っています。 ● 専属の情報審査チームによる能動調査 ● 不動産管理会社とデータ連携 ● 掲載110番 本日のテーマ https://www.homes.co.jp/about/service/safetypolicy/ Copyright© LIFULL All Rights Reserved. 6

7. 背景・導入 募集終了物件の能動調査の流れ 調査対象の 物件選定 LIFULL HOME’S 掲載物件データ ベース 物件リスト 調査対象物件リスト 物件b 物件f 物件e 物件g 物件h 数100万件オーダー Copyright© LIFULL All Rights Reserved. 調査・措置 物件c 物件a 物件d → 調査結果をデ ータベースへ 選定した物件に 対して架電するなど して調査する 物件DBの中から一定のルール に基づいて調査対象を選定 物件a 調査・措置 物件d 問題無 → 調査結果をデ ータベースへ 募集終了 数100件オーダー 7

8. 背景・導入 募集終了物件の能動調査の流れ 一定のルールの問題点 調査対象の 物件選定 LIFULL HOME’S 掲載物件データ ベース ・現在のルールでは選定できない物件がある 物件リスト 調査・措置 ・ルールの複雑化への対応が難解 → AIに よる対象物件の選定を採用する 物件DBの中から一定のルール に基づいて調査対象を選定 ● ● 選定した物件に対して架電 募集終了物件の特徴を学習 するなどして調査する 募集終了確率を予測 調査対象物件リスト 物件b 物件a 物件c 物件a 物件d 物件f 物件e 物件g 物件h 数100万件オーダー Copyright© LIFULL All Rights Reserved. 調査・措置 物件d 問題無 → 調査結果をデ ータベースへ 募集終了 数100件オーダー 8

9. おとり広告予測AI ● 開発 ● データフロー ● モデルの評価可視化ツール Copyright© LIFULL All Rights Reserved. 9

10. おとり広告予測AI おとり広告予測AIの開発 おとり物件の広告を効率的に能動調査するため、AIに募集終了物件の特徴を学習させ、 LIFULL HOME’Sに掲載されている物件の募集終了確率を予測します 募集終了率: 10 % ○ 物件a Copyright© LIFULL All Rights Reserved. 募集終了率: 90 % × 物件d 10

11. おとり広告予測AI AIの学習から調査対象予測までの流れ AI開 発チーム 審査チーム 物件DB アクセス 5. 募 集終了確率 上位の物件 調査対象物件 無作為抽出 審査チーム 調査対象取得・ 調査結果保存 調査結果を 保存 物件 リスト 学習データのフロー 2. 会 員が持つ 物件情報 3. 物 件情報 1. 日 付 +会員ID 日次バッチで保存 調査 結果 物件a: ○ (問題無) 物件b: × (募集終了) 物件c: ○ ... Copyright© LIFULL All Rights Reserved. 物件a: 4 物件b: 10 物件c: 21 推論データのフロー 4. 募 集終了確率 築年 家賃 物件情報を付属して学習 … 調査結果 70000 ○ 80000 × 100000 … AutoML Tables … ... ○ 11

12. おとり広告予測AI 募集終了予測モデルの可視化ツール モデルのオフライン評価による性能比較 任意の会員の持つ物件リストを予測する ※期間を変えたモデル等で 性能比較する Copyright© LIFULL All Rights Reserved. 12

13. 精度向上に関する取り組み ● モデルの評価メトリック ● 学習データとテストデータの分布の差 ● 機械学習基盤の改善手法 Copyright© LIFULL All Rights Reserved. 13

14. 精度向上に関する取り組み モデルの評価メトリック 混合行列(Confusion Matrix): 精度を確認するときによく利用される 真値 正例 予 測 値 正 例 負 例 負例 真陽性(TP = True Positive) 偽陽性(FP = False Positive) 募集終了と予測して実際に募 集終了だった数 募集終了と予測して実際に問 題無だった数 偽陰性(FN = False Negative) 真陰性(TN = True Negative) 問題無と予測して実際に募集 終了だった数 問題無と予測して実際に問題 無だった数 適合率 = TP/(TP+FP) 募集終了と予測された物件のうち、 実際に募集終了であった物件の割合 再現率 = TP/(TP+FN) Copyright© LIFULL All Rights Reserved. 実際に募集終了であった物件のうち、 募集終了と予測できた物件の割合 14

15. 精度向上に関する取り組み モデルの評価メトリック ● 適合率は募集終了と予測したものの正確性を見ることができるので、無駄うち(誤検知)をなくしたい 場合に重視される ● 再現率は募集終了であるもの全体を特定したいというモチベーションから、検知漏れをなくしたい 場合に重視される 適合率-再現率(PR)曲線 ● ● 物件を調査できるリソースは限られているので 無駄打ちを少なくしたい ある再現率の元で、上位何割が正解していたか を重視する → ある再現率の元での適合率を評価指標とする Copyright© LIFULL All Rights Reserved. 適合率 今回のケースでは、 再現率 15

16. 精度向上に関する取り組み 学習データと予測データの傾向の差 例: ある特徴量に関して物件選定前(赤)と 物件選定後(青)の分布の差 物件選定後に 分布が偏る 物件DB 物件 選定 学習データ ≠ 予測データ 学習用のデータは、特定の物件を選定後行われるため、予測データの傾向(LIFULL HOME’Sの掲載 物件リスト)とは厳密には異なっている。 →予測精度の悪化、特徴量選定の難易度向上 Copyright© LIFULL All Rights Reserved. 16

17. 精度向上に関する取り組み 改善手法: ランダム調査 物件DB 無作為 抽出 学習データ ≒ 予測データ 物件DBから無作為に抽出した物件リストの調査結果(標本調査)を学習データとする → 現在のLIFULL HOME’Sに掲載されている物件の母集団の傾向と類似した分布を再現 Copyright© LIFULL All Rights Reserved. 17

18. 精度向上に関する取り組み 効率的なモデル開発のための工夫 工夫その1: 定期実行バッチを Airflowでスケジューリング 調査 物件 リスト 調査結果を 保存 日次バッチで保存 物件情報を付属して月次で学習 AutoML Tables 工夫その2: Salesforceのデータを BigQuery上で扱うことにより、 特徴量チューニングを簡易化 工夫その3: AutoML Tablesで テーブルデータの学習を自動化 最適なモデル作成のため、機械学習フロー (データ収集、データ加工、学習)を全自動化 !! Copyright© LIFULL All Rights Reserved. 18

19. まとめ ● LIFULL HOME’Sの掲載物件に含まれているおとり広告を効率的に検知する ため、AIを活用しています。 ● 機械学習フローの各処理をバッチ化し、学習+予測の効率をあげています。 ● 精度を比較するためのメトリックを用意し、精度向上を目指しています。 ご静聴ありがとうございました Copyright© LIFULL All Rights Reserved. 19

20. バックアップスライド Copyright© LIFULL All Rights Reserved. 20

21. Copyright© LIFULL All Rights Reserved. 21