兔子先生i-优快云博客

原创 redis

redis安装：解压压缩包tar -zxvf redis-3.2.0.tar.gz安装gccyum install gcc检查gcc安装是否成功rpm -qa |grep gcc cd进入redis目录下的：deps目录执行：make hiredis lua linenoise jemalloc进入文件夹make安装cd redis-3.2.0make MALL...

2018-08-01 19:57:32 307

原创 Spark

Spark概论：spark是一个快速的统一的大数据处理分析引擎基本特点：速度快基于内存计算简单易用：支持多语言开发，将数据处理模式封装成80多个方法供开发者调用通用性：支持批处理：核心是RDD，SparkSql 支持流处理：Spark Streaming 支持交互式分析：Spark shell 支持机器学习：MLLib 支持图处理：GraphX 运行在...

2018-08-01 19:57:07 242

原创 kafka

kafka概论： kafka高并发问题解决：横向扩大缓冲，发送端和接收端之间加消息队列特点：Persistent messaging High throughput Distributed Multiple client support Realtime应用场景：数据管道流应用 LinkedIn (www.linkedin.com): Apache Kafka i...

2018-07-10 11:08:20 2252

埋点：埋点分析，是网站分析的一种常用的数据采集方法。数据埋点分为初级、中级、高级三种方式。数据埋点是一种良好的私有化部署数据采集方式。埋点技术如何采集数据，有何优缺点？数据埋点分为初级、中级、高级三种方式，分别为：初级：在产品、服务转化关键点植入统计代码，据其独立ID确保数据采集不重复（如购买按钮点击率）；中级：植入多段代码，追踪用户在平台每个界面上的系列行为，事件之间相互独立（如打开商品详情页—...

2018-07-07 09:07:10 330

原创 Sqoop简介

目的：在Hadoop和RDBMS之间高效传输数据：hadoop大数据存储平台：hdfs、hive、hbaserdbms关系型数据库 : mysql、oracle、postgresql、mssql原理：把用户的指令解析编译成MR任务，发布到yarn上分布式执行MR任务把输入和输出分别对接RDBMS和Hadoop就能完成数据的转移版本：sqoop1：核心组件：TaskTranslator，解析编译用...

2018-07-03 21:52:26 563

原创 Sqoop2

安装：解压，把目录添加到path里确保path里面有hadoop_home在hadoop的core-site.xml里面添加上去oop的权限<property> <name>hadoop.proxyuser.sqoop2.hosts</name> <value>*</value></property><pro...

2018-07-03 20:40:38 270

原创 HBase

1.hbase(mian)>list查看有哪些表 2.创建表 # 语法：create <table>, {NAME => <family>, VERSIONS => <VERSIONS>} # 例如：创建表t1，有两个family name：f1，f2，且版本数均为2 hbase(mian)> ...

2018-07-03 19:40:49 214

原创 Zookeeper

节点角色：leader 1.接受client请求或接受flower转发请求，发起提议供其他节点投票选举 2.为客户提供数据查询服务 flower 1.接受client请求，并将请求转发给leader 2.为每个leader发起的投票 ...

2018-07-03 19:40:07 204

原创 maven库中架包未下载完成问题解决

maven库中架包未下载完成可以使用指令下载：1.配置maven的环境变量新建: MAVEN_HOME D:\001software\apache-maven-3.5.32.Path 添加：%MAVEN_HOME%\bin3.进入D盘 D：进入D盘后cd到所创建的工程下 cd path 执行命令：mvn compil...

2018-07-03 19:37:59 580

原创 Sqooop1

sqoop import --paramssqoop-import --params如果分割字段是文本：-Dorg.apache.sqoop.splitter.allow_text_splitter=true如果表没有主键或者使用sql取数需要参数：--split-by数据量如果较大则使用压缩：-z,--compress --compression-codec <c>设定map的数...

2018-07-03 19:35:46 282

原创分组TopN

package com.zhiyou.bd23.topn;import java.io.File;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apa...

2018-05-28 21:12:23 509

原创全局数据TopN

package com.zhiyou.bd23.topn;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWrit...

2018-05-28 21:11:18 262

原创 SequenceFile存储方式key和Value的形式代码实例

package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....

2018-05-28 21:01:17 1244

原创 API操作HDFS实例

package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.a...

2018-05-28 20:57:24 238

原创 SequenceFile合并小文件，读取大文件

package com.zhiyou.bd23;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.nio.charset.Charset;import java.util.ArrayList;impor...

2018-05-28 20:55:50 2131 2

原创 HADOOP统计出现的次数

package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....

2018-05-28 20:45:39 1308

原创 HADOOP抽样计算

package com.zhiyou.bd23.totalorder;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.ap...

2018-05-28 20:43:52 439

原创 HADOOP自定义排序

package com.zhiyou.db23.totalorder;import java.io.IOException;import org.apache.hadoop.conf.Configurable;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org....

2018-05-28 20:41:42 391

原创 HADOOP去除重复

package com.zhiyou.db23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop...

2018-05-28 20:40:18 1515

原创 HDFS上创建包，读取，删除，下载，上传，读取，追加，设置权限。

package com.zhiyou.bd23;import java.io.FileNotFoundException;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache...

2018-05-28 20:38:05 379

原创 HDFS(Hadoop Distributed File System) Hadoop分布式文件系统

简介： HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统。HDFS有很多特点: ①保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。 ②运行在廉价的机器上 ③适合大数据的处理。多大，...

2018-05-22 23:58:05 1836

原创 Hadoop最基础初学者集群安装

Hadoop集群安装本次依照hadoop-2.7.6版本为例：1.克隆vmware 克隆前先关闭防火墙克隆完成后先修改hostname 方便自己知道自己打开的是哪一台服务器 vim /etc/sysconfig/network 1个主节点：master(192.168.133.129) 修改内容：NETWORKING=yes ...

2018-05-21 22:55:50 282

兔子先生i