
大数据
cf_wu95
这个作者很懒,什么都没留下…
展开
-
Join
参考博客:https://blog.youkuaiyun.com/leying521/article/details/93197951inner join(内连接,只有进行连接的两个表中都存在与连接条件相匹配的数据才会被留下来) 。内连接是最常见的一种连接,它也被称为普通连接,而E.FCodd最早称之为自然连接。其中inner可以省略。inner join == join 等价于早期的连接语法。 lef...原创 2020-04-02 15:22:38 · 320 阅读 · 0 评论 -
流水表与拉链表区分;增量表,快照表与全量表区分
参考博客:https://www.cnblogs.com/wqbin/p/10223988.htmlhttps://blog.youkuaiyun.com/sheep8521/article/details/89187601https://blog.youkuaiyun.com/qq_21159963/article/details/86761589全量表存放最新记录,但是不能查历史。 快照表可以...原创 2020-04-01 12:36:21 · 3085 阅读 · 0 评论 -
大数据实战
本地数据集上传至数据仓库Hive1.删除字段名称sed -i '1d' small_user2.对字段进行切分(预处理),生成的user_table.txt。注:不要直接打开,文件过大,会出错.head -10 user_table.txt3.为了导入到 Hive,需要先导入到HDFS中。4.启动hive,先启动Sql Server。2.创建数据库和外部表。注...原创 2019-04-01 12:04:58 · 632 阅读 · 0 评论 -
林子雨hive实践教程错误笔记
1.注意最后要加上这一句话,没有这句话,就会报错。alter database hive set dbproperties('edited-by'='hadoop');#为hive设置键值对属性hive-site.xml的正确配置方式应加上&amp;useSSL=false,否则会出现warning提示。其中&amp;是&在HTML中对应的转义符。<c...原创 2019-01-04 16:40:19 · 1896 阅读 · 1 评论 -
MapReduce
1.传统并行框架:实时细粒度计算,计算密集型。MapReduce:非实时批处理,数据密集型。2.MapReduce特点:计算向数据靠拢,分而治之。3.每一个分片都会生成一个map任务。map数量由产生分片数量来决定。一般,一个块分为一个分片。4.reduce数量取决于集群中reduce任务槽的数量。5.分片和分区?分片:对一个大的数据集进行切分,split得到的结果称为分片...原创 2018-09-17 16:40:57 · 331 阅读 · 0 评论 -
云数据库
1.虚拟化技术是整个云计算的基石。2.云数据库是部署和虚拟化在云环境中的数据库。3.微软SQL Azure 支持的是本地型事务,而不是分布式事务,因为基于的是关系型数据库。4. UMP:统一的MYSQL数据库平台(英文缩写,阿里的)。5.LVS实现复杂均衡6.AWS:亚马逊的。7.SQL Azure:微软的,云关系型数据库。8.阿里云 RDS:relational da...原创 2018-09-11 22:33:33 · 262 阅读 · 0 评论 -
NoSQL
优势:支持超大规模数据存储;数据模型非常灵活劣势:不支持事务的强一致性;缺乏底层理论基础作为支撑关系型数据库应用在银行关键业务系统,NoSQL适用于其他分类:(1)键值数据库(2)列族数据库(3)文档数据库(4)图数据库CAP:一致性、可用性、分区容忍性。放弃可用性而保证一致性和分区容忍性的:Neo4j,Bigtable ,Hbase,MongoDB,HyperTa...原创 2018-09-01 20:32:30 · 259 阅读 · 0 评论 -
HBase
分布式文件系统(GFS):底层分布式文件系统(GFS)存储的是完全非结构化的。分布式数据库(Hbase):HBase 存半结构化的,也就是松散数据。1.数据模型简单,值只存储为字符串2.HBase避免了连接操作。3.基于列存储4.原始设计只支持行健索引。5.Hadoop不能满足实时处理需求。HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有...原创 2018-09-01 12:46:18 · 248 阅读 · 0 评论 -
(2)Hadoop
Hive:可以写SQL语句,充当数据仓库作用,完成批量数据处理。Pig:针对流式数据,轻量级脚本语言。Tez:将整个MapReduce作业构建成一个有向无环图,实现作业的优化。ZooKeeper:分布式协调一致性。分布式锁一致性,集群管理等等。FLume:针对流式数据的收集工作,日志收集工具。Spark类似于MapReduce,但是Spark是基于内存计算的。Sqoop:将...原创 2018-07-22 16:07:45 · 174 阅读 · 0 评论 -
(3)HDFS分布式文件系统
HDFS:Hadoop Distributed File System实现目标:兼容廉价的硬件设备。 流数据读写 。就是大量数据、全部数据的读写,而不是访问某个部分的子集。 面对大数据集 。 简单的文件模型。对文件进行简化,牺牲相关的性能,获取批量处理的特性。只允许追加,不允许修改。 强大的跨平台兼容性。因为JAVA。缺点:不适合低延迟数据访问 。因为设计上是批量读大部分...原创 2018-07-22 16:06:47 · 381 阅读 · 0 评论 -
(1)大数据概述
大数据概述大数据时代的三种标志:大数据,云计算,物联网。云计算:云计算概念:通过网络以服务的方式为用户提供非常廉价的IT资源。云计算通俗点讲就是把以前需要本地处理器计算的任务交到了远程服务器上去做。几个云计算的应用实例:第一是webQQ。访问webqq的时候就会发现这里面有很多像是图片处理,网页浏览,在线office处理之类的应用,这些应用无论电脑的性能如何,只要带宽允许都...原创 2018-07-17 19:57:11 · 392 阅读 · 1 评论