crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程

最新推荐文章于 2025-09-11 23:47:28 发布

转载最新推荐文章于 2025-09-11 23:47:28 发布 · 74 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/xingnie/p/9688903.html

文章标签：

#爬虫 #数据库 #json

html的宗旨： <标签属性=”属性的值“></标签> 只是对于文本的一种解释划分吧

dom的宗旨：就是一个大数组，处理方便，效率低

xml <node attr=value>...</node> html是它的子集，树结构主要注意节点关系

json 类似xml,对JavaScript友好

mysql show database显示当前服务i上数据库

　　　　　　　　create database dbname创建一个新数据库

　　　　　　　　use dbname使用指定的数据库

　　　　　　　　show tables显示当前数据库的所有表

　　　　　　　　desc tbname 显示表数据

爬虫工作流程

种子url放入队列　　获取url抓取内容　　解析内容，需要进一步抓取的放入工作队列　　存储解析后的内容

抓取策略

广度优先　　深度优先　　pagerank（给自己的网页打分）　　大站优先策略

去重

Hash表　　bloom过滤器（把一个网页的哈希值转换为01结构，然后和过滤器做与或操作，有的话一定重复了，没有的话就可能报错，可以再做一次操作）

爬虫质量

质量性能分布式可扩展性更新新鲜性可收缩性有效性

map/reduce 布隆过滤器

爬虫规范与原则 robots协议

转载于:https://www.cnblogs.com/xingnie/p/9688903.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30611509

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python Scrapy：使用Scrapy Crawler Process进行爬虫启动

Python编程之道的博客

04-07

1671

Scrapy是Python生态中最强大的网络爬虫框架之一，而Crawler Process是其核心的爬虫启动和管理机制。理解Scrapy内部的爬虫启动流程掌握通过代码控制爬虫运行的高级技巧实现复杂的爬虫调度和管理需求优化爬虫启动性能和资源利用率本文涵盖从基础概念到高级用法的完整知识体系，适用于各种规模的爬虫项目。首先介绍Scrapy的基本架构和Crawler Process的定位然后深入分析Crawler Process的核心实现原理接着通过实际代码演示各种使用场景。

AI爬虫：一文讲通AI爬虫技术和原理，及34个AI爬虫工具推荐

热门推荐

数据知道的博客

03-18

1万+

AI 爬虫是一种结合了传统网络爬虫技术和人工智能（AI）技术的工具，能够更智能、高效地从网页中提取和处理数据。与传统爬虫相比，AI 爬虫能够更好地处理动态内容、复杂网页结构以及非结构化数据，同时具备数据清洗、分类、情感分析等高级功能。

参与评论您还未登录，请先登录后发表或查看评论

GPT-Crawler一键爬虫构建GPTs知识库

定期分享我的发现和想法，感谢你的陪伴和支持

12-05

4926

选择 assistant 的优势是，我们可以使用 OpenAI 提供的 assistant API，集成到自己的系统中。操作步骤：1、进入自定义 Assistants 页面https://platform.openai.com/assistants2、创建一个 Assistant3、添加上面生成的output.json文件4、配置其他选项自定义 GPTs 和上面的操作类似，大家自行体验。GPTs 需要大家付费 Plus，并且官方似乎还没有提供 GPTs 的 API 可用。

Python crawler 爬虫笔记+爬虫实战

未知丶的博客

12-19

1万+

Python crawler 爬虫笔记前言《1》什么是爬虫《2》为什么要爬虫Urllib1.urllib.request.urlopen(1)get请求(2)post请求2.urllib.parse(1)urlparse(2)urlunparse(3)urlencode3.urllib.robotparse4.爬虫伪装(1)UserAgent(2)PRoxyHandler处理（代理IP）Error...

Java网络爬虫crawler4j学习笔记<2> Util类

haoshen's blog

11-08

2074

源代码package edu.uci.ics.crawler4j.util;public class Util { // 将long类型（8字节64位）变量，转化为长度为8的byte数组。变量的高位位于byte数组的前面 public static byte[] long2ByteArray(long l) { byte[] array = new byte[8];

Markdown-Crawler: 一款强大的网页爬虫与Markdown转换工具

Nifc666的博客

10-15

1841

Markdown-Crawler是由开发者Paul Pierre创建的一款功能强大的网页爬虫工具。它采用多线程技术，能够高效地爬取网站内容，并将每个页面转换为Markdown格式的文件。这个工具的主要目标是简化大型语言模型(LLM)在文档处理和解析方面的工作，尤其适用于RAG(检索增强生成)等场景。Markdown格式本身具有易读性强、结构清晰的特点，同时文件体积相对较小。这使得Markdown-Crawler在保留文档结构的同时，能够生成便于人类阅读和机器处理的输出文件。

爬虫（Web Crawler）介绍与应用

大雾起了清晨

03-27

3936

2. **使用合适的框架和工具**：Scrapy、BeautifulSoup等是常用的爬虫框架和工具，可以简化开发流程。1. **选择合适的编程语言**：Python、Java等常用于爬虫开发的编程语言，选择适合项目需要的语言进行开发。2. **网页抓取与解析**：爬虫根据URL访问网页，获取页面内容，并对页面进行解析，提取所需信息。2. **数据挖掘**：爬虫可以用于抓取大量数据，进行数据分析和挖掘，发现潜在的规律和趋势。3. **扩展性**：爬虫需要具备良好的扩展性，可以方便的添加新的抓取规则或功能。

基础网络爬虫（Web crawler）相关技术浅析

无限迭代中......

04-06

5012

技术分析网络请求发送一个正确的网络请求是爬虫的第一步。参考：爬虫基础——网络请求获取请求得到一个网络请求的所有数据才能知道如何编写爬虫浏览器开发者工具浏览器插件 HackBar 网络抓包工具 Postman Fiddler BurpSuite Wireshark … 请求认证拷贝认证直接拷贝认证相关的信息到爬虫程序中，以达到认证的目的。 eg：爬虫中遇到登陆问题的解决方法认证请求根据网络抓包、编写认证过程、让程序完成认证过程，保存认证信息。认证方式 Basic Auth

网络爬虫（Web Crawler）详解

weixin_51288065的博客

05-21

1864

定义：网络爬虫是一种自动化的程序，通过HTTP协议访问网页，提取并存储数据（如文本、链接、图片），并根据策略递归访问新链接。核心目标：数据采集：抓取特定网站或全网公开数据。索引构建：为搜索引擎提供页面内容（如Google的爬虫）。监控分析：跟踪网站内容变化（如价格监控、新闻聚合）。比喻：爬虫像一只蜘蛛（Spider）在互联网的“网”上爬行，从一个节点（网页）出发，沿着链接（丝线）探索新节点，记录所有发现的信息。

基于Crawler4j + jsoup实现爬虫

Just do IT

12-29

6157

开发思路：（1）根据业务需求选择合适的爬虫框架（2）根据网站规则及业务需求抽取数据，保存到中间库（3）数据清洗/格式化，保存到目标库

crawler_html2pdf-python爬虫资源

11-22

.gitignore文件用于指定不希望git跟踪的文件和目录，LICENSE文件包含了项目许可证信息，通常用于声明代码的使用权利和限制，而readme.txt则是项目的基本说明文档，用于介绍项目的功能、使用方法以及安装配置等关键...

Crawler:关于Java和Python爬虫那些事儿

05-26

爬虫的读书笔记《自己动手写网络爬虫》，并基于Python3和Java实现为什么采用宽度优先搜索策略？深度优先遍历可能会在深度上过“深”而陷入“黑洞”；重要的网页往往距离种子网页比较近，越深的网页的重要性越低...

crawler_html2pdf-python爬虫

11-06

从文件名称来看，“readme.txt”将为我们提供该项目的基本介绍和操作指南。至于“pdf”目录，很可能是用来存放生成的PDF文件的，这与项目的标题“crawler_html2pdf”相符合，说明项目的主要功能就是将网页转换为...

PHPCrawl.rar_PHP CRAWLER_PHPCrawl_crawler_web crawler in PHP_爬虫

09-24

爬虫的基本工作流程包括以下几个步骤： 1. **启动**：设定初始的种子URL（起始抓取的网页）。 2. **请求网页**：发送HTTP请求到服务器，获取HTML或其他格式的网页内容。 3. **解析HTML**：使用HTML解析器分析返回的...

awesome-java-crawler：本仓库收集整理爬虫相关资源，开发语言以Java为主体

02-02

"awesome-java-crawler"是一个专注于Java爬虫技术的开源资源集合，它致力于为开发者提供一系列与Java爬虫相关的工具、框架、库和教程，帮助开发者更好地理解和应用Java在爬虫领域的功能。【描述分析】描述中的...

告别IP被封！分布式爬虫的“隐身”与“分身”术

weixin_44617651的博客

09-09

545

咱们平时上网爬数据，最头疼的就是IP被封。单台机器猛刷，网站一眼就能识破。想把活儿干得又快又稳，就得把任务拆开，让多台机器或多个进程一起干，每个还用不同的IP出口——这就好比让一群人轮流换装去排队，既减轻压力又降低风险。

用Python破解简单的替换密码

L9rHmlWzW的博客

09-11

450

Python为网络爬虫开发提供了全面而强大的工具生态系统。从简单的数据收集任务到复杂的分布式爬虫系统，Python都能胜任。初学者建议从Requests和BeautifulSoup开始，掌握基础后再逐步学习Scrapy等高级框架和异步编程技术。最重要的是，始终牢记爬虫开发的伦理和法律边界，做负责任的网络公民。只有在合法合规的前提下，爬虫技术才能发挥其真正的价值。

Python单元测试（unittest）实战指南

crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程

crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程