
大数据技术原理与应用
文章平均质量分 92
理论为主线
so.far_away
穷且益坚,不坠青云之志。
展开
-
大数据概述
通过大数据的分析来优化教育机制,也可以作出更科学的决策,这将带来潜在的教育革命,在不久的将来,个性化学习终端将会更多地融入学习资源云平台,根据每个学生的不同兴趣爱好和特长,推送相关领域的前沿技术、资讯、资源乃至未来职业发展方向。借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升,同时对于重大自然灾害如龙卷风,通过大数据计算平台,人们将会更加精确地了解其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力。虽然R很适合分析数据,但是就一般用途而言不太擅长。原创 2023-06-15 12:19:46 · 1522 阅读 · 0 评论 -
大数据处理架构Hadoop
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce。原创 2023-06-15 11:39:20 · 2471 阅读 · 0 评论 -
分布式文件系统HDFS
兼容廉价的硬件设备流数据访问:一次写入、多次读取大数据集简单的文件模型强大的跨平台兼容性不适合低延迟数据访问:几十ms范围的,HDFS以数据以数据呑吐量为目标,可能会提高时间的延迟。无法高效存储大量小文件:namenode将文件系统的元数据保存在内存中,因此文件系统存储的文件总数有限。不支持多用户写入及任意修改文件HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。名称节点作为。原创 2023-06-15 10:47:40 · 3177 阅读 · 0 评论 -
流计算、Flink和图计算
很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达。数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多格式复杂数据量大,但是不关注存储,一旦经过处理,要么被丢弃,要么被归档存储注重。原创 2023-06-14 21:47:44 · 2625 阅读 · 0 评论 -
Spark
Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark的特点运行速度快:使用DAG执行引擎以支持循环数据流与内存计算容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过进行交互式编程通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境。原创 2023-06-14 16:32:48 · 1557 阅读 · 0 评论 -
数据仓库分析工具Hive
Hive是一个构建于Hadoop顶层的数据仓库工具某种程度上可以看作是用户编程接口,本身不存储和处理数据依赖分布式文件系统HDFS存储数据依赖分布式并行计算模型MapReduce处理数据定义了简单的类SQL 查询语言——HiveQL用户可以通过编写的HiveQL语句运行MapReduce任务是一个可以提供有效、合理、直观组织和使用数据的模型Hive的特点:采用批处理方式处理海量数据Hive需要把HiveQL语句转换成MapReduce任务进行运行;数据仓库存储的是静态数据,原创 2023-06-08 21:42:00 · 1290 阅读 · 0 评论 -
MapReduce
在MapReduce中,一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的小数据块,这些小数据块可以被多个Map任务并行处理。MapReduce框架会为每个Map任务输入一个数据子集,Map任务生成的结果会继续作为Reduce任务的输入,最终由Reduce任务输出最后结果,并写入分布式文件系统。特别需要注意的是:适合用MapReduce来处理的数据集需要满足一个前提条件,即待处理的数据集可以分解为许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。原创 2023-06-08 11:09:38 · 1815 阅读 · 0 评论 -
NoSQL数据库
泛指非关系型的数据库,区别于关系数据库,它们不能保证关系数据的ACID特性。NoSQL适用关系型数据库的时候就使用关系型数据库,不适用的时候也没有必要非使用关系型数据库不可,可以考虑使用更加合适的数据存储。NoSQL不是一个工具,而是由一些具有互补性和竞争性的工具组成的一个概念,是一个生态圈。NoSQL 系统舍弃了许多传统关系型数据库的方便之处,而把一些通常由关系型数据库本身来完成的任务交给了应用层来完成。原创 2023-06-07 17:04:54 · 1817 阅读 · 0 评论 -
分布式数据库HBase
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和把结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。HBase和BigTable的底层技术对应关系BigTableHBase文件存储系统GFSHDFS海量数据处理MapReduce协同服务管理ChubbyZookeeper。原创 2023-06-06 17:31:20 · 1845 阅读 · 1 评论 -
HDFS 常用Shell命令
HDFS有很多shell命令,其中,fs命令可以说是HDFS最常用的命令,利用该命令可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。对src指定的源目录中的所有文件进行合并,写入localdst指定的本地文件。将path指定的文件所属的组改为group,使用-R对path指定的文件夹内的文件进行递归操作。以指定的格式返回path指定的文件的相关信息。改变path指定的文件的权限更改为mode。②-z 检查文件是否是0字节,如果是则返回0,否则返回1。原创 2023-04-22 10:07:11 · 504 阅读 · 0 评论 -
分布式文件系统HDFS的多问多答
名称节点会执行一些检查,检查过后,名称节点会构造一个新文件,并添加文件信息。但是需要注意的是,第二名称节点并不能起到“热备份”的作用,即使有了第二名称节点的存在,当名称节点发生故障时,系统还是有可能会丢失部分元数据信息的。⑥客户端调用close()方法关闭输出流,此时开始,客户端不会再向输出流中写入数据,所以,当DFSOutputStream对象内部队列中的分包都收到应答以后,就可以使用ClientProtocol.complete()方法通知名称节点关闭文件,完成一次正常的写文件过程。原创 2023-04-21 12:41:02 · 749 阅读 · 0 评论