- 博客(4)
- 收藏
- 关注
原创 认识Hadoop
随着移动设备的广泛使用和互联网的快速发展,数据的增量和存量快速增加,硬件发展跟不上数据发展,单机很多时候已经无法处理 TB、PB 级别的数据。如果一头牛拉不动货物,那么选择找几头牛一起拉货物比培育一头更强壮的牛更加容易。同理,对于单机无法解决的问题,综合利用多个普通机器的做法比打造一台超级计算机的做法可行性更高。这就是 Hadoop 的设计思想。Hadoop由Apache软件基金会开发,是一个开源的、可靠的、可扩展的、用于分布式计算的分布式系统基础框架。
2024-04-27 22:21:39
1063
3
原创 初识理解爬虫
在理想的软硬件环境下,经过足够的运行时间,采用累积式爬取的策略可以保证爬取到相当规模的网页集合。但由于 Web 数据的动态特性,集合中网页的被爬取时间点是不同的,页面被更新的情况也不同,因此累积式爬取到的网页集合事实上并无法与真实环境中的网络数据保持一致。与周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要时爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
2024-01-06 16:07:58
1559
1
原创 Java 异常
自定义的异常类必须继承自 Exception 或其子类。自定义异常类中使用throw 关键字在方法中声明异常的实例对象,格式如下:throw Exception 异常对象。
2023-12-24 19:44:24
909
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人