
网络爬虫
文章平均质量分 71
主要记录爬虫学习过程中的一些知识概念和总结
阿福不是狗
世界上只有一种真正的英雄主义,那就是在看清了生活的真相后,依然热爱生活。
展开
-
网络爬虫之BeautifulSoup参数详解
本文详细介绍了 BeautifulSoup 的初始化方法、解析器选择、常用参数和属性以及常用方法。通过这些知识,你可以更加高效地进行网页解析和数据提取。希望本文对你有所帮助,如果你有任何问题或建议,欢迎留言讨论。BeautifulSoup 官方文档通过阅读本文,你应该能够更加自信地使用 BeautifulSoup 进行网页数据的抓取和解析。原创 2024-07-05 08:36:01 · 1738 阅读 · 0 评论 -
网络爬虫之爬虫逆向的学习途径、相关网站和学习资料
一个全球性的CTF(Capture The Flag)赛事信息平台,收录了各类CTF比赛。你可以通过参加这些比赛来提升自己的逆向工程和安全技能。由360公司运营的安全资讯平台,包含大量关于网络安全、逆向工程、漏洞分析等方面的文章和教程。中国高校CTF联盟,提供CTF比赛和培训,适合学生和初学者。提供各种编程语言和技术的基础教程,包括一些安全和逆向工程的入门资料。原创 2024-07-03 14:41:43 · 608 阅读 · 0 评论 -
网络爬虫之什么是代码混淆?初步理解代码混淆
代码混淆是一种有效的代码保护技术,但对于有经验的逆向工程师来说,混淆代码并不是不可破解的。了解常见的混淆技术和破解技巧,可以帮助爬虫工程师更好地进行逆向工程。在实际工作中,我们既要学会如何混淆代码保护自己的成果,又要掌握破解混淆的技能,以便应对各种复杂的逆向工程任务。原创 2024-07-03 14:22:33 · 1594 阅读 · 0 评论 -
爬虫逆向之常见的JS Hook示例
请注意,这些示例仅用于说明目的,实际应用中可能需要更复杂的处理,以适应不同的代码结构和环境。此外,hook技术的使用应遵守法律法规和道德规范,不得用于非法侵入、破坏或侵权行为。在JavaScript中,hook通常指的是通过替换或修改函数、属性或对象来拦截或修改程序行为的技术。原创 2024-07-02 16:41:28 · 1027 阅读 · 0 评论 -
Python爬虫之爬虫逆向常见的加密方式
在Python爬虫领域,数据加密是一个重要的议题,尤其是在处理敏感信息或需要绕过网站的反爬虫机制时。下面,我们将探讨一些常见的数据加密方式,以及它们在Python爬虫中的应用。原创 2024-07-02 16:07:58 · 1547 阅读 · 0 评论 -
Python爬虫之什么是逆向工程?逆向是什么?
前端分析:使用工具如Chrome开发者工具,分析网页的HTML结构、CSS样式和JavaScript代码。理解前端如何与后端交互,以及数据如何在客户端呈现。网络请求分析:通过抓包工具(如Wireshark、Fiddler或浏览器的网络监控功能),监控网络请求和响应,了解数据是如何传输的。数据解密:有些网站会对传输的数据进行加密,需要分析并解密这些数据。这可能涉及加密算法的识别和破解。模拟登录:对于需要登录才能访问的数据,需要分析登录过程,包括验证码的识别、Cookies和Session的管理等。原创 2024-07-02 16:03:58 · 2043 阅读 · 0 评论 -
Python爬虫之保存图片到本地
从网页上抓取并保存图片是一项技术性和道德性并重的任务。技术上,它涉及定位图片链接、构建完整URL、高效下载以及处理各种边缘情况和错误。我们已经看到如何使用强大的Python库如BeautifulSoup、requests和aiohttp来完成这些任务,甚至学习了一些高级技巧来优化性能和可靠性。但技术只是故事的一半。作为开发者和数据科学家,我们有责任以尊重、合法且道德的方式使用这些工具。网络不仅仅是数据的海洋;它也是创意、知识产权和个人隐私的家园。原创 2024-06-05 13:50:02 · 2125 阅读 · 0 评论 -
Python爬虫之BeautifulSoup模块
BeautifulSoup是一个Python库,专门用于从HTML和XML文件中提取数据。它的名字来源于一个古老的笑话:“一天,有人说:‘我做了一碗美丽的汤。这是最美的汤。在这碗汤里,我把所有漂亮的东西都放进去了。’”——就像这碗"汤"一样,BeautifulSoup将所有的HTML元素都放进一个整洁的数据结构中,让你轻松地找到并提取任何你需要的"配料"。强大:可以处理杂乱、不规范的HTML。灵活:支持多种解析器,如lxml、html.parser、html5lib等。原创 2024-06-05 11:10:27 · 2421 阅读 · 0 评论