- 博客(3)
- 收藏
- 关注
原创 对反爬的处理
对反爬的处理总结(未完,待补)初级反爬中级反爬高级反爬初级反爬初级反爬无非就是设置headers,cookies,等这样的反爬策略是最常见的,下面是一些对于初级反爬的总结headers里面有几个参数是值得注意的:referer: 标识你从哪一个地址跳转过去的cookie 里面有些用户信息等,很多需要登录才能访问的网站或者是一些电商网站使用这个来进行反爬的,当里面的信息过时之后,网站就会把你重定向到登录界面。你可以定期更换cookie,这就可以降低反爬的概率了。user-agent
2021-06-09 14:20:24
310
原创 xpath语法的使用
xpath语法总结在谷歌浏览器安装xpath插件xpath实战在谷歌浏览器安装xpath插件可以在网上找一下这个插件。打开浏览器的扩展程序页面,将上面的那个xpath压缩包直接拖进去就可以了。xpath实战找到要获取的节点,右键找到copy xpath,这样就获取到了节点了的xpath了://[@id=“J_selector”]/div[1]/div/div[2]/div[2]之后获取那些各个品牌的链接或者名字例如://[@id=“J_selector”]/div[1]/div/div
2021-06-09 13:41:35
244
原创 scarpy框架的初级使用
Scrapy框架初识1、创建爬虫项目2、打开爬虫项目3、编写爬虫,以爬取链家二手房信息为例4、setting中的一些设置1、创建爬虫项目进入到你向放置项目的文件夹按住shift点击右键,选择在此处打开power shell窗口在命令行中创建爬虫项目: scrapy startproject 项目名按照提示进入项目文件夹:cd 爬虫文件夹创建爬虫文件:scrapy genspider 爬虫文件名 爬取的域名2、打开爬虫项目1、用pycharm打开项目2、打开之后是这样的3、
2021-06-09 11:27:28
237
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人