
爬虫
weixin_42603129
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫项目,Scrapy存储为Json文件、Scrapy存入MySQL、Scrapy存入MongoDB,Scrapy项目改造为Scrapy-Redis分布式爬虫、Scrapy项目部署到服务器
1、项目背景及需求我在B站看了一个爬取房天下网站的案例,自己动手敲了敲,改了改这个网站既卖全国各个城市的新房,也卖二手房,要做的就是爬取各个城市新房的各项信息,各个城市二手房的各种信息新房的信息有:哪个省份的(province),哪个城市的(city),小区名字(name),价格(price),几居室(rooms),房子面积(area),地址(address),房子属于哪个行政区(district),是否在售(sale),每一套房子详情页面的链接(origin_url)二手房的信息有:哪个省份的(原创 2020-06-11 17:10:36 · 1553 阅读 · 1 评论 -
selenium、webdriver打开Chrome浏览器闪退问题(版本号一致)
使用selenium、webdriver打开谷歌浏览器,登录页面后闪退,但是版本号是对应的,是因为driver的全局变量问题1、不设置driver为全局,放在函数内(会闪退)from selenium import webdriver# 登陆百度def main(): chromedriver_path = r"C:\Program Files (x86)\Google\Chro...原创 2020-04-16 17:09:56 · 21927 阅读 · 18 评论 -
Scrapy爬虫Scrapy爬虫项目CrawlSpider爬虫
Scrapy爬虫1、Scrapy原理图、项目创建及常用命令2、爬虫基本流程3、两种重要的Json存储方法4、多页面爬取5、CrawlSpider爬虫6、微信小程序教程爬虫(使用CrawlSpider)1、Scrapy原理图、项目创建及常用命令2、爬虫基本流程3、两种重要的Json存储方法4、多页面爬取5、CrawlSpider爬虫6、微信小程序教程爬虫(使用CrawlSpid...原创 2020-03-25 18:47:50 · 262 阅读 · 0 评论 -
Python爬虫数据解析:正则表达式解析;xpath解析数据;BeautifulSoup(bs4)解析
爬虫爬取到的数据一般要进行解析,常用解析数据的方法一般有以下几种:正则表达式解析xpath解析BeautifulSoup解析其它不常用的不再介绍1、正则表达式解析2、xpath解析3、BeautifulSoup解析...原创 2020-02-16 16:05:48 · 1095 阅读 · 0 评论 -
scrapy框架常用命令
1. 创建scrapy工程 (spider20为工程名字)scrapy startproject spider20稍等待一会儿, pycharm中会自动出现如下图所示文件夹2. 进入spider20项目cd spider203. 进入spider20项目中的spider20文件夹cd spider204. 进入spiders文件夹cd spiders5. 在spider...原创 2018-11-02 21:07:21 · 261 阅读 · 0 评论 -
运用scrapy框架通过splash无头浏览器爬取之settings文件配置
参考博客:https://blog.youkuaiyun.com/zhusongziye/article/details/803782051. 修改settings.py,配置SPLASH_URL。在这里我们的Splash是在本地运行的,所以可以直接配置本地的地址:SPLASH_URL = 'http://localhost:8050'如果Splash是在远程服务器运行的,那此处就应该配置为远程的地址...转载 2018-11-02 20:39:05 · 570 阅读 · 0 评论