
D_大数据
chao2016
容易干不成大业绩!
展开
-
大数据Hadoop之YARN
YARN概述YARN架构伪分布式下YARN配置文件的修改启动YARN启动YARN的过程中可能出现的问题停止YARN提交MapReduce作业到YARN上运行1.YARN概述全称:Yet Another Resource Negotiator(另一种资源协调者)资源调度框架2.YARN架构1)ResourceManager: RM 整个集群同一时间提原创 2018-01-21 11:25:00 · 4420 阅读 · 0 评论 -
Chebyshev:切比雪夫不等式的理解与应用
公式P{∣X−μ∣<ε}≥1−σ2ε2P\{|X-\mu|<\varepsilon\} \geq 1-\frac{\sigma^2}{\varepsilon^2}P{∣X−μ∣<ε}≥1−ε2σ2注:随机变量XXX必须具有数学期望E(X)=μE(X)=\muE(X)=μ,方差D(X)=σ2D(X)=\sigma^2D(X)=σ2,ε\vareps原创 2018-11-07 21:46:52 · 23267 阅读 · 0 评论 -
Elasticsearch: CentOS环境下的安装与配置
CentOS 6.51. 软件准备tar -zxvf elasticsearch-6.3.0.tar.gz -C /opt/注意:不要放到/root目录下。mv /root/app/jdk1.8 /opt/原因是需要用非root用户来启动elasticsearch,故所依赖的软件(elasticsearch-6.3.0和jdk1.8)不能放到/root目录下。2. 创建新用户并赋权...原创 2018-10-06 22:59:54 · 500 阅读 · 0 评论 -
Azkaban: 编译
官方网站:https://azkaban.github.io项目地址:https://github.com/azkaban/azkaban1. 编译步骤1.下载并解压cd ~/softwarewget https://github.com/azkaban/azkaban/archive/3.40.0.tar.gz -O ./azkaban-3.40.0.tar.gztar -zxvf ...原创 2018-10-03 20:50:48 · 585 阅读 · 0 评论 -
Spark: Mac上配置pySpark的IDE开发环境
1. 开发工具Javaspark-2.3.0-bin-2.6.0-cdh5.7.0PyCharm2. Spark配置spark-env.shJAVA_HOME=/Users/chao/.jenv/candidates/java/current/slaveslocalhost3. PyCharm配置3.1 设置启动参数新建一个python工程,创建一个.py文...原创 2018-10-01 08:28:37 · 2860 阅读 · 1 评论 -
Zookeeper 搭建分布式集群
在单机上起3个不同端口号的进程,实现单机伪分布式集群,通过写入一个数据来验证数据一致性。cp -r zookeeper-3.4.11/ zookeeper1/cp -r zookeeper-3.4.11/ zookeeper2/cp -r zookeeper-3.4.11/ zookeeper3/配置1)zoo.cfg配置文件vim zookeeper2/conf/zoo....原创 2018-07-28 13:43:33 · 1746 阅读 · 0 评论 -
Zookeeper 安装与配置
安装环境centos 7jdk 1.8安装步骤1. 下载wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gztar -zxvf zookeeper-3.4.11.tar.gz -C ~/app/2. 配置环境变量vim ~/.b...原创 2018-07-28 12:02:02 · 1751 阅读 · 0 评论 -
大数据Hadoop之Hive
Hive介绍Hive环境搭建Hive实现wordcountHive介绍产生背景 MapReduce编程的不便性 HDFS上的文件缺少Schema,无法使用SQL方式查询What? Facebook于2007年开源,最初用于解决海量结构化的日志数据统计问题 是一个构建在Hadoop之上的数据仓库 定义了一种类SQL查询语言:HQ...原创 2018-06-04 19:59:15 · 1745 阅读 · 0 评论 -
大数据概述
Big Data?Hadoop?HDFS?Big Data?What? 4V特征 Volume 数据量大 Variety 数据种类多 Velocity 处理速度快 Value 基于高度分析的新价值(价值密度低)带来的技术变革 计算瓶颈 存储瓶颈 数据库瓶颈Hadoop?What? 一个分布式...原创 2018-06-03 18:28:40 · 1790 阅读 · 0 评论 -
大数据Hadoop之HDFS
1.HDFS概述2.HDFS架构3.伪分布式下:HDFS配置文件的修改4.启动HDFS5.启动HDFS的过程中可能出现的问题6.停止HDFS7.HDFS shell的常用命令8.Java API操作HDFS文件1.HDFS概述全称:Hadoop Distributed File System(Hadoop分布式文件系统)HDFS优点 数据冗余、硬件...原创 2018-01-10 09:55:51 · 4111 阅读 · 0 评论 -
大数据Hadoop之环境搭建
1.环境参数2.下载地址3.相关的Linux操作4.Hadoop配置文件的修改5.下一步:进行HDFS配置1.环境参数编程语言:JAVALinux环境:Centos 6.4Hadoop版本:CDH (hadoop-2.6.0-cdh5.7.0)2.下载地址JAVA JDK(版本:jdk-7u79-linux-x64) http://www.d...原创 2018-01-07 22:31:30 · 3938 阅读 · 0 评论 -
大数据基础
大数据的基本概念之4V特征大数据要解决的问题大数据涉及到的技术大数据在技术架构上带来的挑战其他挑战1.大数据的基本概念之4V特征VolumeVarietyVelocityValue2.大数据要解决的问题3.大数据涉及到的技术数据采集数据存储数据处理/分析/挖掘可视化4.大数据在技术架构上带来的挑战对现有数据库管理技术原创 2018-01-05 21:14:54 · 3664 阅读 · 0 评论 -
Holt-Winters:三次指数平滑算法
累加式:si=α∗(xi−pi−k)+(1−α)(si−1+ti−1)s_i=\alpha*(x_i-p_{i-k})+(1-\alpha)(s_{i-1}+t_{i-1})si=α∗(xi−pi−k)+(1−α)(si−1+ti−1)ti=β∗(si+si−1)+(1−β)ti−1t_i=\beta*(s_i+s_{i-1})+(1-\beta)t_{i-1}ti=β∗(si+...原创 2018-11-17 21:14:56 · 3340 阅读 · 0 评论