网络爬虫
文章平均质量分 69
用python进行网络爬虫
maizeman126
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
动态网页抓取——解析真实地址抓取
但是,由于主流网站都使用JavaScript展现网页内容,和静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,所以爬取静态网页的技术可能无法正常使用。上述的教学,只是爬取文章的第一页评论,十分简单。例如,我们打开天猫的某商品的产品页面,并点击“累计评价”,我们可以发现上面的url地址没有任何改变,并没有重新加载整个网页,对网页的评论部分进行更新。上述的结果比较杂乱,但是它其实是 json 数据,我们可以使用 json 库解析数据,从中提取我们想要的数据。原创 2025-03-13 01:00:00 · 1112 阅读 · 0 评论 -
python网络爬虫——requests爬虫
requests爬虫实践的是获取豆瓣电影TOP250的所有电影的名称, 网页地址为: https://movie.douban.com/top250。start=25&filter=如上所示:得到的结果只是网页的HTML代码,我们需要从中提取需要的电影名称。通过以上分析发现,可以使用requests获取获取网页的代码,并利用for循环翻页。第一页只有25个电影,如果要获取所有250个电影,就需要获取总共10页的内容。这样就很容易理解了,每多一页,就给网页地址的start参数上加25。原创 2025-02-11 01:00:00 · 636 阅读 · 0 评论 -
python网络爬虫——一个简单的爬虫
第四章 – 4.3 通过selenium 模拟浏览器抓取原创 2025-02-09 01:00:00 · 790 阅读 · 0 评论 -
python网络爬虫——python基础知识
面向对象的编程方法不会像平时按照执行流程去思考,在这个例子中,就是把Person这个类视为一个对象,它拥有name和age两个属性,在调用过程中,让自己把自己打印出来。上述例子定义了一个Person的类,在这个类中,可以通过各种函数定义Person中的各种行为和特性,要让代码显得更加清晰有效,就要在调用Person类各种行为的时候也可以随时提取。但是在实际情况中,某些函数输入和输出可以不用指明。随着时间的推移,在编程的方式上又发展出了函数式编程,把某些功能封装到函数中,需要时可以直接调用,不用重复撰写。原创 2025-02-08 01:00:00 · 954 阅读 · 0 评论 -
python网络爬虫——爬虫基础知识
数字用来存储数值,包含两种常用的数字类型:整型(int)和浮点型(float),其中浮点型由整数和小数部分组成。jupyter notebook的交互编程可以分段运行python,对于网络爬虫这种分阶段(获取网页-解析网页-存储数据)运行的脚本来说,在写代码和测试阶段可以边看边写,可以加快调试代码的速度,非常适合debug(代码纠错)。字符串是常见的数据类型,一般用来存储类似“句子”的数据,并放在单引号(')或双引号(")中。(2)解析网页就是从整个网页的数据中提取想要的数据。如何访问列表中的值呢?原创 2025-02-07 01:00:00 · 855 阅读 · 0 评论 -
python网络爬虫学习——编写一个网络爬虫
上面的代码存在一个缺陷,就是必须确保网页地址中的id是连续的,假如某些记录已被删除,数据库id之间并不是连续的,其只要访问到某个间隔点,爬虫就会立即退出。下面对代码进行改进:当连续发生多次下载错误后才会退出程序。(2)增加重试下载功能,当服务器端发生问题时,能自动重试下载。(4xx 错误发生在请求存在问题时,而 5xx 错误则发生在服务端存在问题时)设定一个默认的用户代理“wswp”(即web scraping with python首字母缩写)。(1)用于下载网页,且当下载网页发生错误时能及时报错。原创 2024-05-08 01:00:00 · 515 阅读 · 0 评论 -
python网络爬虫学习——XPath的使用
使用XPath拿到的都是一个ElementTree对象,所以假如需要查找内容,还需要遍历拿到数据的列表,查到绝对路径下a标签属性等于link.html的内容。在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点。前面找到的都是绝对路径,每一个都是从根开始查找,下面查找相对路径,例如查找全部li标签下的a标签内容。7、使用相对路径查找全部a标签的属性等于href属性值。10、查找倒数第二个li标签里的a标签的内容。9、查找最后一个li标签里的a标签的内容。原创 2024-05-05 01:00:00 · 312 阅读 · 0 评论 -
python网络爬虫学习——chrome浏览分析网站
经由超链接从一个网页访问到另一个网页,从一个站点到另一站点的这一切组成一个庞大的网,就是Web。点击下图右上角位置红框处的按钮,当鼠标停留在网页中的某个内容上时,Elements中会定位到该内容在源代码中的位置。平常在浏览器中看到的网页都是比较规整的, 但抓取到的网页源代码却是一个很繁杂的文件, 想要精准找到需要抓取的信息, 首先需要借助浏览器,对目标网站进行分析。以上主要介绍的是怎样利用chrome浏览器帮助解析目标站点,主要利用Chrome的检查功能,分析网页结构,定位网页内容。①单击Network。原创 2024-05-06 01:00:00 · 628 阅读 · 0 评论 -
python网络爬虫学习——requests库和正则表达式
3、在网络爬虫中的请求头中携带cookies信息,从而可以直接出去需要登录的网站。2、search,如果匹配到第一个结果就是返回,如果匹配不到则返回None。当状态返回代码为200时,表示成功接收、理解和接受。当状态返回代码为5XX时,表示服务器错误。当状态返回代码为1XX时,表示临时响应。当状态返回代码为4XX时,表示请求错误。当状态返回代码为3XX时,表示重定向。(2)带参数GET操作。(3)JSON文件操作。(2)获得cookie。(4)获得二进制数据。(1)基础GET操作。原创 2024-05-06 01:00:00 · 425 阅读 · 0 评论 -
python网络爬虫学习——BeautifulSoup库
假如返回结果是多个节点的生成器,则能够转为列表后取出某个元素,再调用string、attrs等属性取得对应节点的文本和属性。运用import从bs4中导入BeautifulSoup库,利用open函数打开存放在本地的网页文件所在位置,随后使用BeautifulSoup解析网页,解析完毕打印相应的网页数据。在做选择的时候,有时候不能做到一步就选到想要的节点元素,需要先选中某个节点元素,而后以它为基准再选择它的子节点、父节点、兄弟节点等。要获得某个节点元素的父节点,可以调用parent属性。原创 2024-05-07 01:00:00 · 628 阅读 · 0 评论
分享