
python爬虫
文章平均质量分 65
柳小葱
北京市某高校管理科学与工程专业的学生,主要研究方向是人工智能与大数据,二进宫字节,曾担任字节跳动大数据开发实习生、滴滴出行数据研发及分析实习生,目前已获数据库系统工程师(软考中级)、阿里云大数据助理工程师(ACA)证书。欢迎大家一起学习和交流!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取某市所有公交站点的信息(以北京市为例)
突然接到了老师的任务需要公交站点数据画图,结果找了半天都没找数据,索性就自己爬取吧。查网上的资料发现主要分为两个部分:首先获取站点信息根据地图匹配站点信息知道了这些就开始吧!1.首先是获取所有站点的信息我们主要从这里: 车站信息.获取车站信息。我这里获取的是上行车辆信息。但代码中还包含下行车辆的代码。import requestsfrom lxml import etreeimport pandas as pd# 列表用来保存所有公交信息items = []data22=pd.D原创 2021-04-20 22:31:27 · 4213 阅读 · 14 评论 -
python爬取豆瓣高分书籍信息(request+xpath)
复习了xpath,感觉还是熟悉的感觉。上次爬了微博爬了贴吧,这次就用xpath爬个豆瓣图书数据,作为学习时间序列的数据吧!面向对象编程爬取1.把自己要做的事情分类 #获取url的规律组成url_list #遍历,获取请求,获得响应 #爬取数据 #保存数据 2.导包,初始化类import requestsfrom lxml import etreeimport csvclass doubanspider: def __init__(self):原创 2020-08-03 18:56:30 · 1971 阅读 · 1 评论