
爬虫
文章平均质量分 73
一些爬虫基础,从开始学起。
这个人好懒der
这个人很懒并且正在学习,有问题欢迎指正!蟹蟹~
展开
-
Scrapy基础
Scrapy是一种应用框架,实现获取网站数据、提取结构性数据。常用在数据挖掘、信息处理、存储历史数据等。原创 2022-08-16 14:33:05 · 373 阅读 · 0 评论 -
模拟登陆网页
自动登录网页。原创 2022-08-16 09:23:19 · 765 阅读 · 0 评论 -
Beautiful Soup爬虫
之前使用过XPath爬虫、正则表达式爬虫获取我们想要的内容,Beautiful Soup也是一种爬虫,解析HTML/XML文档,但是使用方法会比之前的简单。原创 2022-08-16 00:26:28 · 1848 阅读 · 0 评论 -
模拟浏览器
User-Agent:用户代理,网站的服务器通过识别UA(User-Agent)来确认用户使用的操作系统、浏览器内核等信息,因为有了这些信息说明用户是通过浏览器进行访问的,而不是爬虫进行爬取,因此通过UA识别就是反爬的一种手段。...原创 2022-08-12 11:19:33 · 1193 阅读 · 0 评论 -
AJAX爬虫爬取网页图片
AJAX:异步js,就是网页部分的js代码不会和网页同步更新,那么不用重新加载整个网页界面,只更新其中的一部分。原创 2022-08-11 20:35:48 · 751 阅读 · 0 评论 -
pandas基础
pandas是python语言的扩展库,用于数据分析。pandas可以使数据构建成一维或者二维数组保存起来,类似于表格。原创 2022-08-11 17:08:41 · 679 阅读 · 0 评论 -
一个简单爬虫(岗位提取)
抓取网上的职位招聘信息。原创 2022-08-11 00:12:01 · 426 阅读 · 0 评论 -
python正则表达式
正则表达式:正则表达式是一种文本模式,就像数学表达式a+b*c一样,有普通字符和特殊字符两种。:使用正则表达式,可以用一个规定好的字符串描述、匹配其他的字符串。原创 2022-08-10 17:55:49 · 1115 阅读 · 0 评论 -
requests请求
requests就是发送网络请求的库。原创 2022-08-08 11:30:12 · 246 阅读 · 0 评论 -
XPath入门
XPath是一门在XML文档中查找信息的语言,可以在XML文档中对元素和属性进行遍历。原创 2022-08-08 11:06:07 · 449 阅读 · 0 评论 -
XML基础
XML是一种很像HTML的标记语言,有标签这种东西,在标签内部放置不同的内容,XML用来存储、传输数据,并且在不同的设备、不同的系统中都可以使用。原创 2022-08-07 18:19:17 · 328 阅读 · 0 评论 -
HTTP协议
浏览器读取到首页的HTML源码,首先解析HTML显示页面,然后根据里面的链接再次发送HTTP请求给服务器,拿取相应的图片、视频、JS、CSS等,最终显示完整的页面。原创 2022-08-07 11:27:49 · 408 阅读 · 0 评论