Python

Blog >> Tags >> Python

BeautifulSoup4で某番組HPをスクレイピング

今回はここのページをスクレイピングします.使途未定ですが,同一人物の写真が大量にあるので解析に使えるかもしれないし使えないかもしれない. 春の番組改編でリニューアルしてましたけど何にも変わってなかったですね.でもホームページだけは変わってるんですよ.古いページは任天堂1を除いて十中八九消される運命なので救出しなければなりません.すでにバナー消えてたし. 解析 http://www.ntv.co.jp/anothersky/fashion/index.html http://www.ntv.co.jp/anothersky/fashion/index_2.html http://www.ntv.co.jp/anothersky/fashion/index_3.html … http://www.ntv.co.jp/anothersky/fashion/index_25.html <div class="entryBox clearfix"> <div class="img"> <img src="画像1"> <img src="画像2"> </div> <div class="entryBody"> <h3>日付</h3> <p>詳細</p> </div> </div> another skyの雰囲気良いですよね.シンプルで洗練された印象があります.一つ気に食わない点があって,ワイプが斜めなんですよ.そこだけ変に立体感があってゴチャっと見えるというか.惜しい. スクレイピング def scrape(soup) : pages = soup.find_all(class_='entryBox clearfix') for page in pages : div = page.find(class_='entryBody') # 日付取得 date = ''.join(div.find('h3').text.split()) dir = './data/' + date + '/' os.mkdir(dir) # 詳細取得 details = div.find('p').text with open(dir + str('details.txt'), 'w', encoding='utf-8') as file : file.