- 博客(4)
- 收藏
- 关注
原创 网络爬虫
在这个用数据说话的时代,数据是一件极其重要的事情,怎样才能抓取到完整以及全面的数据呢?这并不是一件容易的事情。如果想要做好大数据的分析,单单依靠一己之力或者是周边的数据是远远不够的,还需要借助“神秘的外部力量”。这个时候,互联网上的资源就非常关键了,从网络上爬取数据资源,就成为了至关重要的一个环节。那到底什么是网络爬虫呢?网络爬虫也叫网络蜘蛛,即Web Spider,名字非常形象。如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻
2020-12-09 16:27:24
325
原创 HDFS集群节点
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。DataNode主要是用来存储数据文件,HDFS将一个文件分割成一个个的block,这些block可能存储在一个DataNode上或者是多个DataNode上。...
2020-11-17 15:48:05
1041
原创 2020-11-10
大数据生态系统Ambari(安装部署工具)Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。2
2020-11-10 14:28:36
181
原创 2020-10-27
关于大数据的初步认识首先我是一名大一的新生,在网上报名的时候我报的是大数据专业,但是再此之前我对于大数据根本没有认识接触更别说理解了。 在这本书内我了解到大数据将会在未来成为新的产业革命,并且岗位需求也将持续激增。大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据4V特征1. Velocity 速度,速率,更快的2. Variety 类型,数据的结构(有结构数据,半结构数据,无结构数据)3. Volume 体积4. Value 价值(价值密
2020-10-27 15:59:19
158
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人