
爬虫
分享一些爬虫知识和实战
misaka2019
一名机器学习的爱好者,平时喜欢分享一下自己的笔记
展开
-
爬虫第四次任务,实现腾讯新闻爬取
第四次作业总结:这次学习自己的时间比较紧张,没有认真学习到爬虫的知识。这是比较遗憾的,过一段时间有时间的话,会系统学习一下。刚开始的确有认真学习,但是后面由于时间原因,没有办法花大量时间学习,所以只是懂了一些基本的知识。下面的代码有借鉴答案的代码,并非自己原创。from bs4 import BeautifulSoupfrom selenium import webdriver # 启动...原创 2020-04-27 11:55:27 · 546 阅读 · 0 评论 -
爬虫:session和cookie、代理、selenium自动化
在爬取网页过程中,网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问。如何应对IP被封问题修改请求头,模拟浏览器去访问。采用代理IP并轮换设置访问时间间隔。如何获取代理IP地址从该网站获取: https://www.xicidaili.com/inspect -> 鼠标定位:要获取的代理IP地址,属于class ...原创 2020-04-24 21:03:52 · 609 阅读 · 0 评论 -
xpath,正则表达式re,bs4总结及实战
xpathxpath使用路径表达式再xml文档中进行导航,是一个标准函数库,还有w3c标准。在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。Xpath常用的路径表达式表达式描述nodename选取此节点的所有子节点/从根节点选取所属...原创 2020-04-22 14:24:41 · 2041 阅读 · 0 评论 -
html等有关知识,api使用,request-get使用
互联网指的是网络和网络所串联成的庞大网络。特点:由一组标准的网络协议相连,逻辑单一,运用技术广泛,覆盖范围广。不过互联网不等于万维网(www),万维网知识一个超文本相互连接而成的全球性系统,是互联网所能提供的服务之一。HTTP服务器把网页传给浏览器,实际上就是把网页的HTML代码发送给浏览器,让浏览器显示出来。而浏览器和服务器之间的传输协议是HTTP。HTTP是在网络上传输HTML的协议,...原创 2020-04-21 16:51:46 · 623 阅读 · 0 评论