- 博客(9)
- 收藏
- 关注
原创 实战:爬取掘金热门文章——基于python爬虫
说一说爬取中的踩得坑,印象太深刻了缺失一些必要的请求头时,掘金网站不会报错,而是给你返回不相关的一推数据,关键这些数据从形式上看还很像请求拿回来的数据。就这个坑害我思索了很长时间,可能还是我太菜了吧~掘金网热门文章刷新频繁,往往几分钟前在调试页面看到的数据,跟刚请求到的数据略有不同,这又让我纠结了一些时间最后放上源码:import requests, json,timeurl = "https://api.juejin.cn/recommend_api/v1/article/recommend
2021-03-16 22:58:44
1094
2
原创 爬虫设计翻页链接实战——基于链家网站
爬虫对象为链家网url = 'https://bj.lianjia.com/ershoufang/'在爬取该网页前,要弄明白哪些数据是js加载的,一个很简单的方法是禁止当前页面js加载,观察禁止前后网页的变化。发现在禁止js加载后,该网页的翻页模块消失了,说明链家的翻页功能是通过js渲染的下面是实现翻页功能的标签思索一番后,决定采用xpath方法获取该标签的page-data属性,以获得总页数(totalPage)和当前页数(curPage),而后采取链接格式化的方式,循环遍历所有页面。具体实
2021-03-15 23:38:26
469
原创 选择排序——基于python
利用python语言实现选择排序算法本次共构造了三个函数,目的是直观看出元素数量与总操作数之间的关系def make_list(N):#构造N个数值,形成由大到小排序的有序数列,实现最坏查找 list = [] for i in range(N): list.append(N-i) return listdef find_min(list):#查找列表中最小值 index = 0 for i in range(len(list)):
2021-03-14 20:47:58
191
1
原创 二分查找——基于python
最近在学爬虫的同时,也在恶补算法,参考图书为《算法图解》(Aditya Bhargava著)先放上实现二分查找代码:def binary_search(list,item): low = 0 high = len(list)-1 count = 0 #查找计数 while high >= low: count = count + 1 mid = int((low+high)/2)#后续选取公差为2的数列,方便mid取整
2021-03-13 22:03:57
252
原创 2021-03-13
Xpath相关节点检索属性检索包含检索与、或、非特定标签的选取[1]position()last()Xpath的轴初始化from lxml import etreeresp = ''' '''#html文本文件html = etree.HTML(resp)节点 . 代表当前节点 ..代表上一级节点【父节点】 / 代表子级某个节点 / 代表子级,亲儿子,一层的关系 (指定下一级别搜寻) // 代表子级,子孙后代,多层关系 (可跨级别搜寻) @ 选取属性检索属性检索根据
2021-03-13 16:54:47
148
原创 2021-03-11
request库相关知识点(不全)response响应状态码text 与 contentget与post请求时传参数键值对一一对应形式传参键值对一对多形式传参代理ip其它零碎知识点response响应状态码import requestsurl = "http://www.biadu.com/"response = requests.get(url)<Response [200]>200系列:成功 || -200 成功;-201 创建成功400系列:失败 || -401认证失败
2021-03-11 13:59:08
192
原创 2021-03-10
初始台地编程小白一枚,最近在学python爬虫,想借此先一只脚踏进IT。会不定期更新博客,把最近所学知识整理到这里,一是方便自己巩固和温习,二是督促自己坚持学习。end~
2021-03-10 23:03:47
108
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅