- 博客(22)
- 收藏
- 关注
原创 redis
redis安装:解压压缩包tar -zxvf redis-3.2.0.tar.gz安装gccyum install gcc检查gcc安装是否成功rpm -qa |grep gcc cd进入redis目录下的:deps目录执行:make hiredis lua linenoise jemalloc进入文件夹make安装cd redis-3.2.0make MALL...
2018-08-01 19:57:32
307
原创 Spark
Spark概论:spark是一个快速的统一的大数据处理分析引擎 基本特点:速度快基于内存计算 简单易用:支持多语言开发,将数据处理模式封装成80多个方法供开发者调用 通用性: 支持批处理:核心是RDD,SparkSql 支持流处理:Spark Streaming 支持交互式分析:Spark shell 支持机器学习:MLLib 支持图处理:GraphX 运行在...
2018-08-01 19:57:07
242
原创 kafka
kafka概论: kafka高并发问题解决:横向扩大缓冲,发送端和接收端之间加消息队列 特点:Persistent messaging High throughput Distributed Multiple client support Realtime应用场景:数据管道 流应用 LinkedIn (www.linkedin.com): Apache Kafka i...
2018-07-10 11:08:20
2252
原创 Flume-ng
埋点:埋点分析,是网站分析的一种常用的数据采集方法。数据埋点分为初级、中级、高级三种方式。数据埋点是一种良好的私有化部署数据采集方式。埋点技术如何采集数据,有何优缺点?数据埋点分为初级、中级、高级三种方式,分别为:初级:在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复(如购买按钮点击率);中级:植入多段代码,追踪用户在平台每个界面上的系列行为,事件之间相互独立(如打开商品详情页—...
2018-07-07 09:07:10
330
原创 Sqoop简介
目的: 在Hadoop和RDBMS之间高效传输数据:hadoop大数据存储平台:hdfs、hive、hbaserdbms关系型数据库 : mysql、oracle、postgresql、mssql原理:把用户的指令解析编译成MR任务,发布到yarn上分布式执行MR任务把输入和输出分别对接RDBMS和Hadoop就能完成数据的转移版本:sqoop1:核心组件:TaskTranslator,解析编译用...
2018-07-03 21:52:26
563
原创 Sqoop2
安装:解压,把目录添加到path里确保path里面有hadoop_home在hadoop的core-site.xml里面添加上去oop的权限<property> <name>hadoop.proxyuser.sqoop2.hosts</name> <value>*</value></property><pro...
2018-07-03 20:40:38
270
原创 HBase
1.hbase(mian)>list查看有哪些表 2.创建表 # 语法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>} # 例如:创建表t1,有两个family name:f1,f2,且版本数均为2 hbase(mian)> ...
2018-07-03 19:40:49
214
原创 Zookeeper
节点角色:leader 1.接受client请求或接受flower转发请求,发起提议供其他节点投票选举 2.为客户提供数据查询服务 flower 1.接受client请求,并将请求转发给leader 2.为每个leader发起的投票 ...
2018-07-03 19:40:07
204
原创 maven库中架包未下载完成问题解决
maven库中架包未下载完成可以使用指令下载:1.配置maven的环境变量 新建: MAVEN_HOME D:\001software\apache-maven-3.5.32.Path 添加:%MAVEN_HOME%\bin3.进入D盘 D: 进入D盘后cd到所创建的工程下 cd path 执行命令:mvn compil...
2018-07-03 19:37:59
580
原创 Sqooop1
sqoop import --paramssqoop-import --params如果分割字段是文本:-Dorg.apache.sqoop.splitter.allow_text_splitter=true如果表没有主键或者使用sql取数需要参数:--split-by数据量如果较大则使用压缩:-z,--compress --compression-codec <c>设定map的数...
2018-07-03 19:35:46
282
原创 分组TopN
package com.zhiyou.bd23.topn;import java.io.File;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apa...
2018-05-28 21:12:23
509
原创 全局数据TopN
package com.zhiyou.bd23.topn;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWrit...
2018-05-28 21:11:18
262
原创 SequenceFile存储方式key和Value的形式代码实例
package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....
2018-05-28 21:01:17
1244
原创 API操作HDFS实例
package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.a...
2018-05-28 20:57:24
238
原创 SequenceFile合并小文件,读取大文件
package com.zhiyou.bd23;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.nio.charset.Charset;import java.util.ArrayList;impor...
2018-05-28 20:55:50
2131
2
原创 HADOOP统计出现的次数
package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....
2018-05-28 20:45:39
1308
原创 HADOOP抽样计算
package com.zhiyou.bd23.totalorder;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.ap...
2018-05-28 20:43:52
439
原创 HADOOP自定义排序
package com.zhiyou.db23.totalorder;import java.io.IOException;import org.apache.hadoop.conf.Configurable;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org....
2018-05-28 20:41:42
391
原创 HADOOP去除重复
package com.zhiyou.db23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop...
2018-05-28 20:40:18
1515
原创 HDFS上创建包,读取,删除,下载,上传,读取,追加,设置权限。
package com.zhiyou.bd23;import java.io.FileNotFoundException;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache...
2018-05-28 20:38:05
379
原创 HDFS(Hadoop Distributed File System) Hadoop分布式文件系统
简介: HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。 是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统。HDFS有很多特点: ①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ②运行在廉价的机器上 ③适合大数据的处理。多大,...
2018-05-22 23:58:05
1836
原创 Hadoop最基础初学者集群安装
Hadoop集群安装本次依照hadoop-2.7.6版本为例:1.克隆vmware 克隆前先关闭防火墙 克隆完成后先修改hostname 方便自己知道自己打开的是哪一台服务器 vim /etc/sysconfig/network 1个主节点:master(192.168.133.129) 修改内容:NETWORKING=yes ...
2018-05-21 22:55:50
282
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人