
爬虫
文章平均质量分 55
翱翔的江鸟
转行萌新学习中
github地址:https://github.com/wxfghy
展开
-
爬虫练习之递归爬取入口页面下所有链接(scrapy-redis分布式)
实现scrapy-redis前的一些准备参考前文,在centos7环境下安装redis,实现远程登录redis服务功能并开启服务 https://blog.youkuaiyun.com/wxfghy/article/details/80349405下载scrapy-redis源代码并解压 https://github.com/rmax/scrapy-redispycharm中安装scrapy和s...原创 2018-05-18 13:49:06 · 4129 阅读 · 0 评论 -
爬虫练习之循环爬取网页中全部链接(requsets同步)
先贴代码,之后再写注释,已测试可用import reimport requests# 获取并检验要爬取的网站def url_get(): url = input("请输入要爬取的首页url:") try: kv = {'user_agent': 'Mozilla/5.0'} requests.get(url, headers=kv原创 2018-05-14 14:02:18 · 28675 阅读 · 1 评论 -
爬虫练习之爬取多个url写入本地文件(scrapy异步)
1. pycharm中运行scrapywindows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目pycharm中打开scrapy项目所在文件夹,任意创建一个.py文件,写入如下代码from scrapy import cmdlinecmdline.execute('scrapy crawl mycsdn'.split())修改Run…...原创 2018-05-16 21:25:19 · 4714 阅读 · 0 评论 -
redis简介及单机/集群环境安装
1 Centos7环境下redis的安装在linux环境下,安装gcc和gcc-c++ yum -y install gcc gcc-c++解压缩源文件包到/opt目录下进入redis目录,输入make命令编译当前文件夹进入src目录,输入make install命令,完成安装输入redis-server 命令,前台启动redis(即当前窗口作为守护进程,不可关闭)克隆会话新窗口...原创 2018-05-17 13:10:24 · 408 阅读 · 0 评论