PtyhonでWEBスクレイピング

734 Views

April 03, 24

#[第6回大阪sas勉強会] #Python #Webスクレイピング #BeautifulSoup #requests #openpyxl

スライド概要

[第6回大阪sas勉強会]森本　敦

森岡裕[SASユーザー総会世話人]

@6484025

スライド一覧

SAS言語を中心として，解析業務担当者・プログラマなのコミュニティを活性化したいです

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

MMRM入門

[第8回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 46K

t検定の基礎(Studentのt検定とWelchのt検定)

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 32.2K

SASユーザー総会論文集 2024年

sasユーザー総会論文集 2024年

森岡裕[SASユーザー総会世話人] 25.6K

SASのコールルーチンは57個あるねん10分で全部説明するねん

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 24.5K

統計解析・確率論に関連するパラドックス

森岡裕[SASユーザー総会世話人] 24.2K

ゼロからでも始められるSASプログラミングのエッセンス

森岡裕[SASユーザー総会世話人] 18.3K

各ページのテキスト

PythonでWEBスクレイピング株式会社エス・シー・エー森本敦

背景ここ最近、Pythonが流行しているようです。 Googleで調べると、出来る事がたくさんある模様。その中で、WEBスクレイピングに興味を持ちました。競馬のデータ解析をしてみたいと思ったからです。その第一歩として、データ収集をやってみました。 WEBスクレイピング：プログラムでウェブサイトの情報を取得、加工する事

今回やってみたこと① 1、JRA(日本中央競馬会)のウェブサイトから、２０１９年の有馬記念のデータを取得。 http://www.jra.go.jp/datafile/seiseki/g1/arima/re sult/arima2019.html 2、HTMLの構文解析 3、取り出したデータをエクセルで保存する。

http://www.jra.go.jp/datafile/seiseki/g1/arima/result/arima2019.html

今回やってみたこと② 下記の1着馬のデータを取得(馬名、性別、騎手、タイム）

プログラムコード① #Python 3.7.0 #ライブラリのインポート import requests #ウェブサイトのデータを取得 from bs4 import BeautifulSoup #HTMLの構文解析 import openpyxl as px #エクセル書きこみ #2019年有馬記念の結果 (JRAのウェブサイト) url = "http://www.jra.go.jp/datafile/seiseki/g1/arima/result/arima2019.html" #ウェブサイトのデータを取得 req = requests.get(url) #HTMLの構文解析 soup = BeautifulSoup(req.content, 'html.parser') print(soup) #1着馬の情報を取得 _horse =soup.find("td",class_="horse").string.strip() #馬名 _age =soup.find("td",class_="age").string.strip() #年齢 _jockey=soup.find("td",class_="jockey").string.strip() #騎手 _time =soup.find("td",class_="time").string.strip() #タイム

http://www.jra.go.jp/datafile/seiseki/g1/arima/result/arima2019.html

プログラムコード①実行後 HTML情報を取得し、収集したいデータがどのあたりにあるか確認

プログラムコード② #Excel定義 wb=px.Workbook() ws=wb.active ws.title="有馬記念" #Sheet名変更 #ヘッダ値 (1行目) ws.cell(row=1,column=1, value="開催年") ws.cell(row=1,column=2, value="馬名") ws.cell(row=1,column=3, value="年齢") ws.cell(row=1,column=4, value="騎手名") ws.cell(row=1,column=5, value="タイム") #取得したデータをエクセルへ書き込み (2行目） ws.cell(row=2,column=1, value=2019) ws.cell(row=2,column=2, value=_horse) ws.cell(row=2,column=3, value=_age) ws.cell(row=2,column=4, value=_jockey) ws.cell(row=2,column=5, value=_time) #エクセルファイルへの出力(Desktopに保存) wb.save(r"C:¥Users¥xxxxxx\sca_morimoto¥Desktop¥result.xlsx")

プログラムコード②実行後出力結果（エクセル）

まとめ ⚫ ⚫ ⚫ requests, BeautifulSoup, openpyxlのライブラリで、WEBスクレイピングが可能前提として、HTMLの知識が必要ウェブサイトによって、HTMLの構造が異なるので、注意が必要(タグやClassの名称が違う）