
爬虫
你别教我打游戏
直面困难,重视过程,追求结果,淡忘过去。
展开
-
Python爬虫html解析工具 —— BeautifulSoup官方文档简略版
BeautifulSoup官方文档地址文章目录入门Soup的生成对象树中的四种对象Tag名称属性多值属性NavigableStringBeautifulSoupComment文档对象树的遍历向下走使用标签名称导航.contents 和 .children.descendants.string 和 .strings、stripped_strings向上走.parent.parents向一边走.next_sibling和.previous_sibling.next_siblings和.previous_sib原创 2021-05-04 00:59:31 · 529 阅读 · 7 评论 -
selenium-python中文文档、Python爬虫 Selenium库部分API
pythonseleniumAPI原创 2021-04-06 13:16:09 · 219 阅读 · 0 评论 -
python爬虫要用到的库
请求库:实现 HTTP 请求操作urllib:一系列用于操作URL的功能。requests:基于 urllib 编写的,阻塞式 HTTP 请求库,发出一个请求,一直等待服务器响应后,程序才能进行下一步处理。selenium:自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。aiohttp:基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。解析库:从网页中提原创 2021-03-27 18:54:32 · 242 阅读 · 0 评论 -
利用Selenium模拟浏览器进行爬虫
上一篇我们是通过手工的方式去获得ajax请求的地址,优点是速度快,编码简单,但是问题是,很多时候我们是很难提取到真实地址的,并且也很难解析地址的规律。这个时候,可以考虑使用使用一种模拟工具 selenium去代替人工的方式去模拟操纵浏览器。这个库可以自动化地做一些东西,如点击按钮、提交表单(填写账户密码、输入验证码等等)。在这里,实际上就是让库模拟浏览器加载出页面的真实数据之后再进行爬取数据。爬虫地址。from selenium import webdriverimport timeurl原创 2021-04-06 13:12:43 · 572 阅读 · 0 评论 -
Python爬虫如何爬取AJAX动态加载的数据
爬虫地址Hello world!现在我们要爬取动态加载的评论。结果展示:最重要的一步就是,我们要通过浏览器的审查元素去获取真正的地址。import requestsimport jsonfrom util.randomHeaders import getHeaderlink1 = "https://api-zero.livere.com/v1/comments/list?callback=jQuery112407330668384607038_1617262726311&limi原创 2021-04-02 00:20:04 · 352 阅读 · 1 评论 -
爬取豆瓣Top 250电影信息、下载图片、存储到Excel,快来试试吧!
写的第一个还算有点复杂的Python的程序,有点意思,感觉Python的实用性和开发效率实在很优秀,O(∩_∩)O哈哈~源代码在最后,有兴趣的可以试试跑一下。爬虫地址豆瓣电影 Top 250.文章目录效果展示技术点简单的面向对象通过url下载图片写入Excel使用os库爬虫模块源代码效果展示技术点简单的面向对象主要是class Movie: def __init__(self, rank, name, other_name, directors, actors, year, .原创 2021-03-31 23:06:55 · 1127 阅读 · 3 评论 -
爬虫的第一个入门小例子 —— 爬取作者主页的文章标题
这两个例子都来源于《Python网络爬虫 从入门到实践》作者:唐松。算是给作者打个小广告了吧。作者的官网:传送门必须安装三个拓展的包:requests、BeautifulSoup、lxml案例一工具方法,返回一个随机的请求头(防止被服务器封掉)。import randomuser_agent = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like G.原创 2021-03-28 01:30:16 · 317 阅读 · 2 评论