第一篇博客,用我昨天学的爬虫来见证一下,纯粹记录自己的学习。
废话不多说,show your code!!
#!/usr/bin/python
# -*- encoding:utf-8 -*-
"""
@author : kelvin
@file : douban_movie
@time : 2017/2/22 23:04
@description :
"""
import sys
import requests
import re
from bs4 import BeautifulSoup
import csv
reload(sys)
sys.setdefaultencoding('utf-8') # 由于编译器的问题,需要设置默认字符集格式,不然会报unicodeError
# 先创建一个csv文件,写好头部
with open("douban_top250_movies.csv", 'w') as filed: # a+为添加,w为擦除重写
csv_writer = csv.DictWriter(filed, [
u'片名',
u'评分',
u'评分人数',
u'一句话描述',
u'豆瓣链接',
])
csv_writer.writeheader()
def get_mov_info(response):
mov_info = {}
soup = BeautifulSoup(response.text, "lxml")
movies = soup.find_all('div', class_="info")
for info in movies:
# 获得电影的中文名
mov_info['mov_name'] = info.find('span', class_='title').text # find()只找到一个,结果以树结构返回
# 获得电影在豆瓣中的链接
mov_info['mov_link'] = info.fi

最低0.47元/天 解锁文章
3205

被折叠的 条评论
为什么被折叠?



