hadoop
YuBx
热爱是藏不住的、
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
判断字符串类型的几种方法
判断字符串类型的几种方法1,如果是判断该字符串或者该字是不是中文的话,用以下代码:String s1; if(s1.matches("[\\u4E00-\\u9FA5]+")){ System.out.print("s1是中文"); }2,如果是判断该字符串或者该字是不是所有的标点符号的话,用以下代码:String s1; if(s1.matches("[\\pP\\p{Punct}]")){ System.out.print("s1是标点符号");原创 2021-06-05 18:15:58 · 7281 阅读 · 0 评论 -
Hadoop之HDFS基础知识
Hadoop之HDFS基础知识一、HDFS概叙1.HDFS是一个分布式文件系统,通过目录树来定位文件2.HDFS优缺点优点:高容错性、适合处理大数据、可以构建在廉价的机器上,通过多副本机制,提高可靠性缺点:不适合低延迟数据的访问、无法对大量小文件进行存储、不支持并发写入,文件随机修改3.HDFS组成架构namenode:是一个主管者,管理HDFS的名称空间配置副本策略管理数据块的映射信息处理客户端的请求datanode是一个slave,namenode下达命令,dat原创 2020-11-07 10:34:22 · 273 阅读 · 0 评论 -
电商数据仓库—系统业务数仓
电商数据仓库—系统业务数仓电商常识SKU(库存量基本单位):指具体某一个商品。SPU(商品信息聚合的最小单位):指某一类的商品。系统业务数仓涉及的表(8个)用户表(user_info):属于实体表,需要全量表同步标签含义id用户idname姓名birthday生日gender性别email邮箱user_level用户等级create_time创建时间订单表(order_info):属于周期型事实表,需要增量及原创 2020-11-02 11:38:54 · 1081 阅读 · 0 评论 -
Hadoop之MapReduce基础知识
Hadoop之MapReduce基础知识一、MapReduce的概念 MapReduce是一个处理海量数据的分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。二、MapReduce的优缺点优点:MapReduce易于编程良好的扩展性高容错性适合PB级别的海量数据的离线处理分析缺点:不擅长实时计算不擅长流式计算不擅长DAG(有向图)计算三、MapReduce的核心思想(Map和Reduce)job(作业):一个MapReduce程序称为一个job原创 2020-10-30 16:34:39 · 866 阅读 · 1 评论 -
电商数据仓库—数据采集平台搭建
电商数据仓库—数据采集平台搭建数据仓库的概念什么是数据仓库数据仓库就是为企业所有的决策制定过程,提供所有系统数据支持的战略集合。数据仓库的目的建立数据仓库并不是数据的最终目的,而是为了数据的最终目的做好准备。(比如数据清洗、拆分、统计等等)数据仓库的作用通过对数据仓库中的数据进行分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。数据仓库的数据来源主要是三大来源: 1.日志采集系统 2.业务系统数据库 3.爬虫系统(还有第三方接口)项目需求原创 2020-10-20 18:27:38 · 1093 阅读 · 0 评论 -
大数据数仓工具之Hive
Hivehive基本概念hive是一个数据仓库工具,可以将结构化的数据映射为一张表,并提供类SQL查询功能hive本质是将HQL转换为MapReduce程序hive分析数据的底层的实现是MapReduce,执行程序运行在Yarn上hive元数据存储在Mysql,数据本身存储在HDFS上hive的优缺点优点:基于SQL类似的语法避免了MapReduce编程处理海量数据比较有优势hive支持根据需求来自定义函数缺点:hive的HQL表达能力有限数据挖掘方面不擅长hive执原创 2020-10-17 14:01:07 · 504 阅读 · 0 评论 -
Hadoop的HDFS的学习笔记
一丶HDFS的写数据流程1,启动服务端的NN,DN进程,提供一个分布式文件系统client;2,由客户端向NN发起请求,请求上传一个文件,NN对请求进行合法检查(权限,路径是否合法,路径是否存在);3,如果合法,NN响应客户端允许上传;4,客户端根据自己设置的blk大小,切分blk,读取第一个blk的内容,请求NN分配DN的地址列表;5,NN参考客户端上传的文件的副本数,根据机架感知,返回对应的DN列表(按照距离从近到远返回DN地址列表);6,客户端请求距离最近的DN节点,再由DN列表中每个D原创 2020-09-19 20:20:09 · 314 阅读 · 0 评论 -
Hadoop中MapReduce的相关优化
一丶MapReduce 跑的慢的原因1.计算机性能CPU、内存、磁盘健康、网络2.I/O 操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spill次数过多(7)Merge次数过多等。二丶MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。map阶段:(1)减少溢写原创 2020-09-17 19:13:36 · 395 阅读 · 0 评论
分享