
大数据
数据源抽取/清洗/加工/大数据统计分析
caodongfang126
这个作者很懒,什么都没留下…
展开
-
Hadoop3.2.1版本的环境搭建(伪分布式模式)
Hadoop的安装包括3中模式:(1)单机模式:只在一台机器上运行,存储采用本地文件系统,没有采用分布式文件系统HDFS。(2)伪分布式模式:存储采用分布式文件系统HDFS,但是HDFS的节点和数据节点都在同一节点。(2)分布式模式:存储采用分布式文件系统HDFS,而且HDFS的节点和数据节点位于不同机器上。1 创建Hadoop用户1.1 创建新用户用户名为hadoopus...原创 2020-04-08 14:03:04 · 1625 阅读 · 0 评论 -
Hadoop是什么,能干什么,怎么使用
本文档实现目标希望用比较容易理解的语言解释Hadoop是个什么样的工具,回答Hadoop是什么,能干什么,怎么使用三个问题,尽量不涉及技术细节。1、Hadoop是什么1.1、小故事版本的解释小明接到一个任务:计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,小明感觉很轻松...转载 2020-04-08 11:51:30 · 366 阅读 · 0 评论 -
JAVA大数据技术栈列表
转载 2020-04-08 11:18:15 · 435 阅读 · 0 评论 -
Java大数据技术栈
大数据技术板块划分数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 数据查询 hive impala elasticsearch kylin ... 数据计算 实时计算 storm sparkstrea...转载 2020-04-08 11:15:50 · 2063 阅读 · 0 评论 -
Hadoop jps各个进程的功能解析
一般如果正常启动Hadoop,我们可以在master上通过jps命令看到以下5个daemons:(单机) [root@master ~]# jps 19803 SecondaryNameNode 19994 TaskTracker 31144 Jps 19571 NameNode 19672 DataNode 19887 ...转载 2020-04-08 11:06:23 · 2817 阅读 · 0 评论 -
大数据与BI的区别
BI(Business Intelligence),中文翻译是商务智能,是一套完整的解决方案,用来将组织中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助组织做出明智的业务经营决策。大数据(Big Data)是从收集的海量数据中,通过算法将这些来自不同渠道、格式的数据进行直接分析,从中寻找到数据之间的相关性。简单而言,大数据更偏重于发现,以及猜测并印证的循环逼近过程。...转载 2020-03-07 11:54:50 · 1537 阅读 · 0 评论 -
BI的体系架构及相关技术
一个BI系统为了满足企业管理者的要求,从浩如烟海的资料中找出其关心的数据,必须要做到以下几步:1)为了整合各种格式的数据,清除原有数据中的错误记录——数据预处理的要求。2)对预处理过数据,应该统一集中起来——元数据(Meta Data)、数据仓库(Data Warehouse)的要求;3)最后,对于集中起来的庞大的数据集,还应进行相应的专业统计,从中发掘出对企业决策有价值的新的机会——...转载 2020-03-07 11:50:04 · 3443 阅读 · 0 评论 -
主流ETL工具
ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、导购数据源中的数据如关系数据。平面数据文件等抽取大搜临时的中间层后进行清洗、转换、集成,最后加载到数据仓库货数据集市中,成为联机分析处理(OLAP)、数据挖掘的基础。主流ETL工具:informatica商业软件,相当专业的ETL工具。价格上比Datastage便宜一点,适合大规模的ETL应用。使用难度** D...转载 2020-03-07 11:47:15 · 290 阅读 · 0 评论 -
Elasticsearch、MongoDB和Hadoop比较
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎,它们存储着JSON文档,MongoDB存着JSON文档,或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配置完成很多同养的事情...转载 2020-01-09 15:10:14 · 192 阅读 · 0 评论