爬虫
文章平均质量分 62
abylee
初出茅庐,大部分需求来自导师课题组和工作单位。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【python爬虫】爬取深圳证券业协会公布的营业部数据并对pdf文件进行解析
假装目录有用背景抓包导入第三方库爬虫代码pdf解析完整代码背景深圳证券业协会网站公布了辖区内所有证券营业部的股基交易量、净利润、营收数据,免登录就能查看,我们需要获取这部分数据,由于都是pdf文件,所以首先得爬虫获取pdf文件到本地然后对pdf文件进行解析和数据处理。网页链接抓包抓包的实例我之前的文章介绍了很多次了。这回我直接把找到需要的参数展示一下:data = {'typeid':18,'pagesize':40,'pageno':1}导入第三方库import pandas as p原创 2022-03-01 11:32:56 · 1574 阅读 · 0 评论 -
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用“老龄智能”在百度百家号中搜索文章,爬取文章内容和相关信息。观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道。首先看了一下robots.txt,基本上对爬虫没有什么限制。然后就去定位网页元素,我的思路是先把上图搜索页的每篇文章的链接爬取下来,然后放在list里循环访问获取内容,这里再提一下为什么选百家号,因为你获取不同文章的链接之后,百家号文章页面的网页结构都是一样的。通过Chrome浏览器F12可以轻松定位到文章链接。但是还要考虑翻页原创 2020-12-15 13:56:33 · 6344 阅读 · 6 评论 -
【问题记录】re字符串操作报错:'_sre.SRE_Match' object has no attribute 'split'
在写爬虫的时候,使用了re.search获取信息,报错:’_sre.SRE_Match’ object has no attribute ‘split’原代码:页面中的信息大概是:东城区(144),需求是东城区和144分开输出 for span in page_content.find_all('h3',class_='u-title-3'): #定位直辖市的区县名 distric...原创 2019-06-30 09:57:20 · 4020 阅读 · 0 评论 -
【问题记录】python爬虫写入excel问题
最近开始使用openpyxl将爬虫获取的内容写入excel。今天遇到了一个很蠢的问题。就是append的时候报错:can not convert [‘xxxx’] to excel其实就是openpyxl里面用append()方法按行写入,写入的数据要求是字符串格式,但是显而易见,报错的部分是个列表。所以加上个str()就解决了。这里要注意,获取到的列表在这里用的是lxml库中的etree解析...原创 2019-07-01 09:02:42 · 1919 阅读 · 0 评论
分享