
爬虫
airuoflora
愿你所愿,终能实现。
展开
-
python爬虫——爬取豆瓣电影top250信息并加载到MongoDB数据库中
最近在学习关于爬虫方面的知识,因为刚开始接触,还是萌新,所以有什么错误的地方,欢迎大家指出from multiprocessing import Poolfrom urllib.request import Request, urlopenimport re, pymongoindex = 0class DouBanSpider(object): client = pymon...原创 2019-01-13 18:47:37 · 1685 阅读 · 2 评论 -
爬取奇书网各类小说信息并保存到excel中
一开始用的保存函数是将原来的文件内容替换掉,所以换了一种方法就可以追加数据内容了两种方法的对比1.追加数据的函数old_file = xlrd.open_workbook('qishu.xls') new_file = copy(old_file) new_sheet = new_file.get_sheet(0) row = k # ...原创 2019-01-14 10:40:25 · 857 阅读 · 0 评论 -
爬取糗事百科
下面的例子是爬取糗事百科信息。注意:爬取任何一个网站,首先要确定的就是这个网站是静态网站还是动态网站。其次看看这个GET请求是否携带了特殊的参数。最后需要留意请求头Cookie信息。import sqlite3, refrom urllib.request import Request, urlopenfrom fake_useragent import UserAgentclas...原创 2019-01-14 17:54:52 · 644 阅读 · 0 评论 -
利用进程池多进程爬取人人车信息
下面例子是爬取人人车车辆信息。 多线程/多进程:提高代码的执行效率,放在爬虫中就是提高爬取效率。因为可以使用多个进程同时对多个页面发起请求。from urllib.request import urlopenfrom urllib.error import HTTPError# 进程池:比较方便,使用简单。from multiprocessing import Poolimpor...原创 2019-01-14 18:04:51 · 339 阅读 · 0 评论 -
Django小项目——简单的天气查询网站
1.首先应该建立一个Django项目,注意要选择Existing interpreter2、创建app,--python manage.py startapp.3、settings.py文件需要配置一下STATICFILES_DIRS = [os.path.join(BASE_DIR, 'static')]使可以找到文件包4、views中的代码fr...原创 2019-01-15 23:50:49 · 6963 阅读 · 7 评论