- 要想爬虫,必须要先找数据源。这个数据源可以是web 、 App、 应用 总之必须是有意义的数据
- 其次要把数据源下载下载,这里就需要下载器,下载器的需要考验它的性能,即下载的快不快,还有模拟,即模拟服务器登录等操作,还要考虑分布式,即将爬虫任务分配给大量电脑来爬取,而且不能总是用同一个ip地址去爬,会被封。
- 接着就需要分析器 。这里就需要html来分析,或者是正则。
- 接着将数据存在数据库或磁盘中
- 将数据加工。即数据挖掘。也就是大数据分析。需要用到统计学的知识。
什么是爬虫
最新推荐文章于 2025-06-13 17:45:45 发布