很多天没有发博客了,这几天在弄一个文本相似度的项目,问题一个接一个,忙活了好几天。
今天分享一下之前的写的爬虫,用来爬豆瓣电影的top250。
首先,F12看看电影的信息在哪里
每个电影的信息都在这个class="item"的块中,好的,这下好办了,找到这个块,就可以一个个把里面的东西抓出来了。
这里面最麻烦的还是处理信息缺失的问题,有的电影没有一句话评论,如果用了list来索引,会抛list indexerror ,最好用next_sibiling
好了,源码在这里,注释都写的很详细了。
#!/usr/bin/python
# -*- encoding:utf-8 -*-
"""
@author : kelvin
@file : douban_movie
@time : 2017/2/22 23:04
@description :
"""
import sys
import requests
import re
from bs4 import BeautifulSoup
import csv
reload(sys)
sys.setdefaultencoding('utf-8')
# 先创建一个csv文件,写好