1.爬取环境:
- window 7
- Chrome 浏览器
- 注册豆瓣、注册超级鹰
2.安装第三方库:安装第三方库:
- 主程序用到的库有
import sys, time
import pytesseract
from selenium import webdriver
from PIL import Image, ImageEnhance
from chaojiying import Chaojiying_Client - 生成词云的程序用的库有
import os
import os.path
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from scipy.misc import imread
import re
3.技术难点:
- python+selenium环境搭建
安装selenium
安装浏览器对应的驱动(推荐用Chrome),驱动程序要与浏览器的版本对应, 将下载的chrome驱动程序chromedriver.exe复制到chrome浏览器的安装目录下,也就是appication目录下,如:chrome的安装路径是:C:\Users\admin\AppData\Local\Google\Chrome\Application
那么将下载的驱动程序chromedriver.exe复制到: C:\Users\admin\AppData\Local\Google\Chrome\Application
路径下,同时将此路径增加到环境变量path中(我的电脑–》右键——》属性——》高级系统设置——》环境变量——》系统变量——》path)中。 - 解决豆瓣对影评数据限制的问题。解决的办法用横扫登录,这就涉及验证码识别,推荐用超级鹰平台进行验证码识别(关注其微信公众号可获得1000题分,够用了)。需要注册,下载对应python的程序,获取ID
4.程序构成。
一个是主程序,用于爬取豆瓣电影时模拟登录,获取识别的验证码,最新电影的影评并存储为txt文件;一个是分程序,由主程序调用,用于分词和词云展示。
主程序完整代码
import sys, time
import pytesseract
from selenium import webdriver
from PIL import Image, ImageEnhance
from chaojiying import Chaojiying_Client
from wordclouds import WordAnanlysis #词云库
class Crawl