- 博客(4)
- 收藏
- 关注
原创 网络爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。产生背景随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在
2020-12-09 15:29:32
312
原创 HDFS
(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。 这里重点介绍其中涉及到的几个概念:(1)超大文件。目前的hadoop集群能够存
2020-11-17 15:44:07
930
原创 大数据生态系统
大数据生态系统Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。Oozie是工作流调度用在Hadoop中
2020-11-10 14:36:46
214
1
原创 2020-10-29
我以前对于电脑的概念只有游戏,第一次上大数据课程让我学到了很多,大数据分为四个,即(Volume)体积、(Velocity)速度、(Variety)类型、(Value)价值、,大数据是处理大量数据出现的,大数据都集合的是云...
2020-10-29 20:58:58
86
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人