
爬虫
文章平均质量分 64
跨界科技汇
微信公众号:跨界科技汇
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫技巧汇总
爬虫技术涉及多个方面,包括反爬策略、数据解析、日志管理、代理使用等。掌握这些技巧可以帮助你更高效地爬取数据,同时避免被目标网站封禁。如果有其他问题或需要进一步的帮助,欢迎在评论区留言或私信。jsonpath。原创 2025-02-09 15:25:29 · 3120 阅读 · 0 评论 -
正则表达式学习笔记
尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回None。re.search()扫描整个字符串并返回第一个成功的匹配。替换字符串中每一个匹配的字符串后返回替换后的字符串。3.匹配目标–分组匹配(可用()进行分组匹配)找到数据的共同点,基本不一样的地方用.*?6.匹配模式(针对换行) re.S。5.非贪婪模式(尽可能少的去匹配)4.贪婪匹配(尽可能多的去匹配)将正则字符串编译成正则表达式对象。将阻碍匹配的数据替换成空白。拿到所有满足要求的数据。原创 2023-05-02 10:49:24 · 1014 阅读 · 0 评论 -
BeautifulSoup4学习笔记
1、类别选择器 – class2、标签选择器 –3、ID选择器 – id。原创 2023-05-02 10:45:15 · 921 阅读 · 0 评论 -
Xpath学习笔记
xml path language:xml路径语言。原创 2023-05-02 10:48:13 · 874 阅读 · 0 评论 -
Pyquery学习笔记
pyqyery允许你对xml文档进行jquery查询,API尽可能类似jquery,pyquery使用lxml进行快速xml和html操作pyquery是python中强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,有觉得beautifulsoup语法太难记,如果你熟悉jquery的语法那么,pyquery就是你的绝佳的选择。原创 2023-05-02 10:46:52 · 907 阅读 · 0 评论 -
爬虫实战篇之Xpath解析
先来讲讲逻辑,爬取的网站是:情话网1、进入主页面,这个网站属于同步加载,在document内发现有需要的HTML数据,因此只需看element就行,使用追踪箭头找到标签的位置。标签网址和标签名都在[li a]标签下,包括下面的也是,可以自己查看一下,接下来就是进行模型匹配//ul[@class="tj_two"]/li/a/@href :标签网址//ul[@class="tj_two"]/li/a/text() :标签名这里就不解释了,xpath匹配教程网上也有2、进入标签网原创 2022-01-31 16:10:27 · 2090 阅读 · 0 评论