スクレイピングで指定したURLのHTMLをhtmlファイルに出力する

prettify()を使用して整形したテキストをhtmlファイルに出力します。スクレイピングしたいサイトの構造を確認するために最初に行うべき処理です。dodaの求人情報について解析した際のコードです。

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://doda.jp/DodaFront/View/JobSearchList.action?ss=1&pic=1&ds=0&oc=0320M&so=50&tp=1')
bs = BeautifulSoup(html.read(), 'html.parser')
print(type(bs.prettify()))
print(bs.prettify())

# テキストに出力
with open('../output/doda_search.html', mode='w') as f:
    f.write(bs.prettify())

コメント

タイトルとURLをコピーしました