
爬虫
不凡De老五
快快乐乐的农民!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简单爬虫,通过百度翻译api获取数据
设置请求头;构造post参数;原创 2017-12-25 20:42:46 · 1648 阅读 · 0 评论 -
scrapy使用
1.安装pip install scrapy2.创建项目scrapy startproject firstSpider(项目名)3.创建爬虫文件cd firstSpider/firstSpider#创建普通爬虫scrapy genspider qiubai "www.qiushibaike.com"#创建crawl模板爬虫scrapy genspid原创 2018-01-04 08:19:49 · 265 阅读 · 0 评论 -
scrapy+mysql存储爬虫数据
一、创建数据库和数据表命令行#创建‘heixiu’数据库,并指定字符集CREATE DATABASE `heixiu` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;#切换到数据库use heixiu;#创建数据表CREATE TABLE heixiumovie (id int primary key auto_in原创 2018-01-07 20:40:32 · 626 阅读 · 0 评论 -
scrapy将数据存储到mysql中
一、在配置中设置数据库#setting.pyITEM_PIPELINES = { ...... 'dushuproject.pipelines.MysqlPipeline': 299, }DB_HOST = '127.0.0.1'DB_PORT = 3306DB_USER = 'root'DB_PWD = '123456'DB_NAME = 'test'D原创 2018-01-05 10:48:27 · 1016 阅读 · 0 评论 -
scrapy设置代理
一、开启中间件下载中间件二、编写中间件代码,添加代理原创 2018-01-04 23:51:08 · 6042 阅读 · 0 评论 -
requests模拟登录微博,通过session访问用户详情
requests;session;原创 2017-12-28 22:22:10 · 1691 阅读 · 0 评论 -
requests请求GET、POST、IP代理访问
requests;代理设置;原创 2017-12-28 21:28:42 · 16678 阅读 · 1 评论 -
BS4使用方法
bs4;爬虫原创 2017-12-28 09:33:44 · 14215 阅读 · 0 评论 -
爬取智联招聘信息
bs4解析网页;数据存完xls文件;爬取智联招聘网站原创 2017-12-27 22:01:34 · 1411 阅读 · 1 评论 -
爬取阳光宽频网的视频
爬虫爬取视频原创 2018-01-02 15:05:58 · 4472 阅读 · 1 评论 -
xpath解析页面,爬取段子
xpath解析页面;爬取段子原创 2017-12-26 23:28:39 · 413 阅读 · 0 评论 -
用xpath解析网页下载美女图片
xpath;下载美女图片爬虫原创 2017-12-26 21:39:41 · 602 阅读 · 0 评论 -
python爬虫爬取糗事百科图片
python爬虫;爬取图片;糗事百科原创 2017-12-26 09:59:50 · 2258 阅读 · 0 评论 -
使用cookiejar模拟登录微博,获取登录后的页面数据
cookiejar;模拟登录;爬取微博;原创 2017-12-26 09:42:57 · 1290 阅读 · 1 评论 -
简单爬虫爬取百度贴吧
爬取百度贴吧内容;原创 2017-12-25 23:11:48 · 722 阅读 · 0 评论 -
模拟get和post请求,获取分页数据
get参数拼接完整url;获取分页数据;ajax请求数据;原创 2017-12-25 21:30:44 · 6764 阅读 · 0 评论 -
Redis安装和使用
centos6.8安装redis一、下载安装包wget http://download.redis.io/releases/redis-4.0.1.tar.gz#解压tar -zxvf redis-4.0.1.tar.gz二、.拷贝到指定目录并进行安装拷贝:cp -r ./redis-3.2.8 /usr/local/redis进入目录:cd /usr/loca原创 2018-01-05 14:06:59 · 237 阅读 · 0 评论