
大数据
ywl470812087
个人简介:深耕物联网行业,ERP,优快云博客专家。 任职华为网联网智慧照明、空调资深工程师,并且上线投产使用,研发企业亿量级吞吐中间件。 擅长 Java语言、C语言等。
展开
-
Canal数据堆积
Canal数据堆积转载 2020-03-15 11:00:45 · 100480 阅读 · 1 评论 -
大数据统计学之概率论(三)
4.概率论4.1条件概率已知某个事件A发生的条件下,另一个事件B发生的概率称为条件概率,记为P(B|A)。看一下P(B|A)与P(A)、P(B)的关系:P(B|A) = P(AB) / P(A)。条件概率也是概率的一种,所以也符合概率定义的三个条件:非负性:P(B|A)≥ 0; 规范性:对于必然事件S,有P(S|A) = 1; 可列可加性:对于两两互不相容的事件B1,...原创 2019-10-12 23:00:55 · 102730 阅读 · 0 评论 -
大数据统计学直观图表(二)
3.统计学直观图表原数据太杂乱无章,难以看出规律性;只依赖数字来描述集中趋势与离散程度,让人难以对数据产生直观的印象,这时就需要用到图表。3.1直方图频数分布表频数直方图频率直方图3.2箱线图上边缘:除异常点以外的数据中的最大值上四分位数:将所有数据按照从小到大的顺序排序排在第75%位置的数字下四分位数:将所有数据按照从小到大的顺序排序排在...原创 2019-10-12 22:59:22 · 123978 阅读 · 0 评论 -
大数据之统计学基础(一)
1. 统计学统计学可以分为:描述统计学与推断统计学描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。2.均值、中位数、总数、极差、方差、标准差对于一组数组,...原创 2019-10-12 22:57:15 · 115755 阅读 · 0 评论 -
HDFS机架感知概念及配置实现
一、机架感知是什么?告诉 Hadoop 集群中哪台机器属于哪个机架二、那么怎么告诉呢?Hadoop 对机架的感知并非是自适应的,亦即,hadoop 集群分辨某台 slave 机器是属于哪个 rack 并非是智能感知的,而是需要 hadoop的管理者人为的告知 hadoop 哪台机器属于哪个 rack,这样在 hadoop的 namenode 启动初始化时,会将这些机器与 r...转载 2019-09-02 18:10:09 · 104518 阅读 · 0 评论 -
HDFS详解(架构设计、副本放置策略、读写流程、进程、常用命令等)
前言:当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统(distributed filesystem)。该系统架构与网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。例如:使文件系统能够容忍节点故障且不丢失任何数据,就是一个极大的挑战...转载 2020-02-18 11:41:23 · 109218 阅读 · 0 评论 -
HDFS体系架构介绍
HDFS体系架构(最全)参考博客:https://blog.youkuaiyun.com/Lord_War/article/details/78727049汇总:https://www.cnblogs.com/meet/p/5439805.htmlNN:http://www.cnblogs.com/zlslch/p/5081112.htmlDN:http://www.cnblogs.com/z...转载 2019-09-02 17:46:11 · 115660 阅读 · 0 评论 -
Hadoop:HDFS的概念理解和体系架构-成都加米谷大数据分享
HDFS是什么?HDFS 全称 Hadoop Distributed File System ,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。优点1、存储超大文件2、标准流式访问:“一次写入,多...原创 2019-09-02 17:32:30 · 119620 阅读 · 0 评论 -
hadoop3.1.2版本中FsImage与Editslog合并解析
我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件FSImage和EditsLog来实现metadat...原创 2019-09-02 16:08:53 · 126509 阅读 · 0 评论 -
Hadoop配置机架感知
配置机架感知core-site.xmlcat $HADOOP_HOME/etc/hadoop/core-site.xml<property> <name>net.topology.script.file.name</name> <value>pathdir/RackAware.py</value>...转载 2019-09-06 23:00:38 · 115749 阅读 · 0 评论 -
执行work count程序报错Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
程序执行过程报错:Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster根据报错提示找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码重新运行程序如上图所示表示程序以及运行成功查看hd...原创 2019-09-08 15:17:41 · 118393 阅读 · 0 评论 -
hadoop回收站
一:回收站简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash回收站里的文件可以快速恢复。可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。回收站功能如下:hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启cd /usr/loc...原创 2019-09-08 19:53:37 · 113398 阅读 · 0 评论 -
数据倾斜问题分析
文章出处:https://www.jianshu.com/p/539415d06f1b大数据----“数据倾斜”的问题一、Hadoop中的数据倾斜:什么是数据倾斜?(见下图)简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在red...转载 2019-09-09 21:28:36 · 109116 阅读 · 0 评论 -
数据倾斜原理及解决方案
导读相信很多接触MapReduce的朋友对'数据倾斜'这四个字并不陌生,那么究竟什么是数据倾斜?又该怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字...转载 2019-09-09 21:35:21 · 103072 阅读 · 0 评论 -
HiveQL中如何排查数据倾斜问题
原文:https://blog.youkuaiyun.com/u012151684/article/details/77074356如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。说明:表cheat_imei,7500万条,无大key,为作...转载 2019-09-09 23:36:27 · 124976 阅读 · 0 评论 -
HDFS SnapShot原理
【简介】HDFS快照简单地说就是对某个文件夹进行备份,创建了快照的文件夹本身不能被删除,但是文件夹里面的文件和文件夹都是可以被删除的。在对一个文件夹创建快照之前,需先允许该文件夹可以创建快照允许快照hdfs dfsadmin -allowSnapshot <path>创建快照hdfs dfs -createSnapshot <path> [<snapshot...原创 2019-09-21 11:11:15 · 113282 阅读 · 0 评论 -
CDH 和ambari之间的比较
目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。1 什么是CDH,ambari?Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、P...原创 2019-09-02 11:49:42 · 116632 阅读 · 0 评论 -
CDH5.16.2下载安装
1,CM 和CDH下载以及JDK和java驱动(手动安装)Cloudera Manager下载地址:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.16.2_x86_64.tar.gzCDH安装包地址:http://archive.cloudera.com/cdh5/parcels/5.16.2/CDH-5...原创 2019-08-31 21:01:32 · 111411 阅读 · 0 评论 -
对安装好的hadoop集群做个测试
1,新建两个txt文件 往里面写入文本内容2,查看hdfs文件路径下的文件,发现hdfs文件不存在,新建hdfs文件目录 bin/hadoop fs -mkdir -p /user/root/3,将文件拷贝到hdfs下 ./bin/hadoop fs -put ../input/ in4,删除hdfs文件目录 ./bin/ha...原创 2019-08-17 21:51:56 · 127699 阅读 · 0 评论 -
数据转移-从MySQL到Hive
转载:https://blog.youkuaiyun.com/qq_34100655/article/details/81033022 简介 打开Hive 任务描述 解决思路 技术点 简介Hive是Hadoop生态中非常重要的一环,可以作为数据仓库存储极大量的数据;另外,还可以实现与MySQL、NoSQL等传统数据库,HBase等大数据控件之间的数据ETL。在我的日常工作中,将...转载 2019-04-21 21:08:50 · 121492 阅读 · 0 评论 -
WordCount处理过程
Hadoop mapreduce过程key 和value分别存什么值转自:https://www.cnblogs.com/gaopeng527/p/5436820.html这里以wordCount为例,直接看图就懂了:(1)inputFormat将hdfs上要处理的文件一行一行的读入,将文件拆分成splits,由于测试用的文件较小,所以每个文件为一个split,并将文件按行分割形...转载 2019-05-03 13:11:25 · 123035 阅读 · 0 评论 -
Hadoop的Mapreduce中Mapper的key和Map的key的区别
Hadoop的Mapreduce中Mapper的key和Map的key的区别问题:我们知道Mapreduce 是以键值对的方式进行输入输出的,分为Mapper <k,v,k,v>和Reduce<k,v,k,v>,那么这里的<Key,Value>和JAVA的import java.util.HashMap的Map集合<Key,Value>是不...转载 2019-05-03 13:13:07 · 114880 阅读 · 0 评论 -
1、MapReduce理论简介
转载:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 ...转载 2019-05-03 13:15:48 · 116053 阅读 · 0 评论 -
2、运行WordCount程序
转载:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次...转载 2019-05-03 13:17:50 · 121640 阅读 · 0 评论 -
3、WordCount源码分析
转载:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html3.1 特别数据类型介绍 Hadoop提供了如下内容的数据类型,这些数据类型都实现了WritableComparable接口,以便用这些类型定义的数据可以被序列化进行网络传输和文件存储,以及进行大小比较。 BooleanWritable:标准...转载 2019-05-03 13:19:43 · 104327 阅读 · 0 评论 -
线性代数:矩阵运算之乘法?
线性代数:矩阵运算之乘法?分步阅读授人予鱼不如授人予渔,在《线性代数》的学习中,方法尤为重要。下面就让我们一起解决《线性代数》中令人头痛的——矩阵的乘法运算吧!如果您对——矩阵乘法的学习比较吃力,建议您先学习——矩阵的加法,传送门开启,嘛咪嘛咪哄!线性代数:矩阵运算之矩阵加法?工具/原料 线性代数课本 纸,笔(任何) 一、矩阵与数乘 1 让我们首先...原创 2019-05-04 13:00:00 · 152771 阅读 · 1 评论 -
Alex 的 Hadoop 菜鸟教程: 第1课 hadoop体系介绍
原帖地址:http://blog.youkuaiyun.com/nsrainbow/article/details/36396007本教程适用人群如果你是以下的几类人中的一种老板叫我搭建一个hadoop集群,但是我还什么都不懂,网上的教程概念介绍的好多,我看的头晕,咋办? 我想学hadoop但是我是个完全不懂的小白,hadoop有这么多的东西,我究竟要学那些算是能学会hadoop?那么你就是本...转载 2019-05-04 14:07:15 · 115668 阅读 · 0 评论 -
Azkaban的介绍、安装与使用
转载:https://blog.youkuaiyun.com/Sven119/article/details/90144843目录1、概述1.1、为什么需要工作流调度器1.2、工作流调度实现方式1.3、常见工作流调度系统1.4、各种调度工具对比1.5、azkaban与oozie对比1.6、azkaban介绍2、azkaban安装部署2.1、准备工作2.2、安装说明...转载 2019-05-18 10:21:17 · 107421 阅读 · 0 评论 -
从入门到放弃之大数据Hive
开门见山,今天说说Hive!!!什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行...转载 2019-05-18 10:27:10 · 94489 阅读 · 0 评论 -
centos7安装jdk
一、手动解压安装包:具体怎么下载我这里不说了参考我的上一篇博客:https://blog.youkuaiyun.com/ywl470812087/article/details/90345020二、卸载linux自带jdk 2.1 查看自带jdk版本 : rpm -qa | grep java2.2 卸载自带的jdk ...原创 2019-08-11 18:14:46 · 124308 阅读 · 1 评论 -
hadoop3.1.2 配置 3台 完全分布式
转载链接:https://blog.youkuaiyun.com/qq_41045774/article/details/92851175文章目录 3设备用root账户 永久主机名设置 静态ip地址 配置免密登录 Hadoop和Java的安装 加入环境变量 以下是master 6个文件配置 还有4个配置 主机格式化namenode slave1,slave2配置...转载 2019-08-25 10:54:09 · 113812 阅读 · 0 评论 -
大数据技术之Hadoop3.1.2版本完全分布式部署搭建
java学习讨论群:725562382 欢迎加入学习先从别人那里复制了个思维导图给大家参考一.主机环境准备1>.操作系统环境[root@backup01 hadoop-3.1.2]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core) [root@backup01 hadoo...原创 2019-08-10 10:05:33 · 131862 阅读 · 0 评论 -
hadoop集群搭建 修改配置文件(三台主机都要配置)
hadoop集群搭建 修改配置文件(三台主机都要配置) master 主机配置1)hadoop-env.shvimhadoop-env.sh2)core-site.xmlvim core-site.xml<configuration><!-- 指定HDFS...原创 2019-08-25 17:42:39 · 98301 阅读 · 0 评论 -
hadoop安装,提前确认hadoop版本是32位还是64位。
hadoop官网原来提供的都是32位,因为我们大部分服务器都是64位,所以不得不重新编译。后来官网从hadoop2.5版本开始就提供了64位我们怎么知道你下载的hadoop版本是64位还是32位我们来从官网下载的hadoop2.4.1安装包.hadoop是32位还是64位,我们查看本地库即可。即进入$hadoop_home/lib/native,使用file命令###########...原创 2019-08-17 17:01:42 · 756 阅读 · 0 评论 -
【Sqoop】从MySQL同步数据到Hive的操作参数解析
参数解析:必选参数--connect :连接的mysql数据库的jdbc信息--username:mysql数据库的登录账户--password:mysql数据库的登录密码--table: 关系数据库表名--hive-import: 从关系型数据库向hive中导入数据的标志可选参数--as-testfile: 将数据导入一个普通文本文件中--as-sequen...转载 2019-04-21 20:53:33 · 905 阅读 · 0 评论