
Python爬虫
文章平均质量分 73
记录使用Python编写的爬虫项目
懒人不还是要学
qq: 2404474680
展开
-
使用Postman抓取Chrome请求快速生成Request请求代码
最近在练习爬虫的时候, 爬取网站时常常需要模拟浏览器去访问, 但是使用request发送请求时, 需要填写headers也就是头部信息, 但我又是一个懒得复制的人, 尝试了很多软件, 最后找到了一款特别适合我自己的, 方便快捷, 话不多说, 放链接下载地址:https://wws.lanzous.com/b01nl5lxa密码:dbjg当然想用最新版或者不想用我的的话, 可以去Google商店自行下载Postman插件下载Postman Interceptor插件下载安装:如果是去谷歌商店自原创 2020-08-27 20:31:44 · 2370 阅读 · 0 评论 -
爬取大众点评评论-字体加密解析-下-代码解析篇
代码解析获取页面数据使用xpath来获取用户评论信息获取页面数据首先写一个简单的爬虫, 来获取页面数据记得添加最关键的user-agent和Cookie, 否则你连最基本的网页都获取不到使用xpath来获取用户评论信息 def get_data_by_xpath(self): """使用xpath获取用户信息""" html_xpath = etree.HTML(self.html) # 获取评论以及用户 user_data原创 2020-08-27 16:18:29 · 1359 阅读 · 4 评论 -
爬取大众点评评论-字体加密解析-上-方法解析篇
字体加密解析解密字体加密原理找到要爬取的网页分析反爬策略找到``标签中继承的类在哪里找到css文件所映射字体文件得到方案细节:最近练习爬虫的时候, 被朋友推荐一个网站, 说是反爬很有意思, 也就尝试了一下。经过分析, 发现它的反爬策略还是蛮不错的, 不光进行了字体反爬, 在使用相同ip进行大量访问时也封禁你的ip。ip被封的问题可以通过代理ip的方式解决, 找一些免费ip或者花点小钱就可以了, 这次我要讲的重点是它使用css进行的字体加密解密字体加密原理找到要爬取的网页随便打开一家店铺,打开后原创 2020-08-26 16:35:54 · 911 阅读 · 1 评论