自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

兔子先生i

没有平白无故的成功,只有死不放弃的努力。

  • 博客(22)
  • 收藏
  • 关注

原创 redis

redis安装:解压压缩包tar -zxvf redis-3.2.0.tar.gz安装gccyum install gcc检查gcc安装是否成功rpm -qa |grep gcc cd进入redis目录下的:deps目录执行:make hiredis lua linenoise jemalloc进入文件夹make安装cd redis-3.2.0make MALL...

2018-08-01 19:57:32 307

原创 Spark

Spark概论:spark是一个快速的统一的大数据处理分析引擎 基本特点:速度快基于内存计算 简单易用:支持多语言开发,将数据处理模式封装成80多个方法供开发者调用 通用性: 支持批处理:核心是RDD,SparkSql 支持流处理:Spark Streaming 支持交互式分析:Spark shell 支持机器学习:MLLib 支持图处理:GraphX  运行在...

2018-08-01 19:57:07 242

原创 kafka

kafka概论: kafka高并发问题解决:横向扩大缓冲,发送端和接收端之间加消息队列 特点:Persistent messaging High throughput Distributed Multiple client support Realtime应用场景:数据管道 流应用 LinkedIn (www.linkedin.com): Apache Kafka i...

2018-07-10 11:08:20 2252

原创 Flume-ng

埋点:埋点分析,是网站分析的一种常用的数据采集方法。数据埋点分为初级、中级、高级三种方式。数据埋点是一种良好的私有化部署数据采集方式。埋点技术如何采集数据,有何优缺点?数据埋点分为初级、中级、高级三种方式,分别为:初级:在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复(如购买按钮点击率);中级:植入多段代码,追踪用户在平台每个界面上的系列行为,事件之间相互独立(如打开商品详情页—...

2018-07-07 09:07:10 330

原创 Sqoop简介

目的: 在Hadoop和RDBMS之间高效传输数据:hadoop大数据存储平台:hdfs、hive、hbaserdbms关系型数据库 : mysql、oracle、postgresql、mssql原理:把用户的指令解析编译成MR任务,发布到yarn上分布式执行MR任务把输入和输出分别对接RDBMS和Hadoop就能完成数据的转移版本:sqoop1:核心组件:TaskTranslator,解析编译用...

2018-07-03 21:52:26 563

原创 Sqoop2

安装:解压,把目录添加到path里确保path里面有hadoop_home在hadoop的core-site.xml里面添加上去oop的权限<property> <name>hadoop.proxyuser.sqoop2.hosts</name> <value>*</value></property><pro...

2018-07-03 20:40:38 270

原创 HBase

1.hbase(mian)>list查看有哪些表     2.创建表       # 语法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}       # 例如:创建表t1,有两个family name:f1,f2,且版本数均为2       hbase(mian)> ...

2018-07-03 19:40:49 214

原创 Zookeeper

节点角色:leader                1.接受client请求或接受flower转发请求,发起提议供其他节点投票选举                2.为客户提供数据查询服务          flower                1.接受client请求,并将请求转发给leader                2.为每个leader发起的投票               ...

2018-07-03 19:40:07 204

原创 maven库中架包未下载完成问题解决

maven库中架包未下载完成可以使用指令下载:1.配置maven的环境变量       新建: MAVEN_HOME D:\001software\apache-maven-3.5.32.Path 添加:%MAVEN_HOME%\bin3.进入D盘         D:         进入D盘后cd到所创建的工程下         cd path         执行命令:mvn compil...

2018-07-03 19:37:59 580

原创 Sqooop1

sqoop import --paramssqoop-import --params如果分割字段是文本:-Dorg.apache.sqoop.splitter.allow_text_splitter=true如果表没有主键或者使用sql取数需要参数:--split-by数据量如果较大则使用压缩:-z,--compress  --compression-codec <c>设定map的数...

2018-07-03 19:35:46 282

原创 分组TopN

package com.zhiyou.bd23.topn;import java.io.File;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apa...

2018-05-28 21:12:23 509

原创 全局数据TopN

package com.zhiyou.bd23.topn;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWrit...

2018-05-28 21:11:18 262

原创 SequenceFile存储方式key和Value的形式代码实例

package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....

2018-05-28 21:01:17 1244

原创 API操作HDFS实例

package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.a...

2018-05-28 20:57:24 238

原创 SequenceFile合并小文件,读取大文件

package com.zhiyou.bd23;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.nio.charset.Charset;import java.util.ArrayList;impor...

2018-05-28 20:55:50 2131 2

原创 HADOOP统计出现的次数

package com.zhiyou.bd23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop....

2018-05-28 20:45:39 1308

原创 HADOOP抽样计算

package com.zhiyou.bd23.totalorder;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.ap...

2018-05-28 20:43:52 439

原创 HADOOP自定义排序

package com.zhiyou.db23.totalorder;import java.io.IOException;import org.apache.hadoop.conf.Configurable;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org....

2018-05-28 20:41:42 391

原创 HADOOP去除重复

package com.zhiyou.db23;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop...

2018-05-28 20:40:18 1515

原创 HDFS上创建包,读取,删除,下载,上传,读取,追加,设置权限。

package com.zhiyou.bd23;import java.io.FileNotFoundException;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache...

2018-05-28 20:38:05 379

原创 HDFS(Hadoop Distributed File System) Hadoop分布式文件系统

简介:    HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。    是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统。HDFS有很多特点:     ①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。     ②运行在廉价的机器上     ③适合大数据的处理。多大,...

2018-05-22 23:58:05 1836

原创 Hadoop最基础初学者集群安装

Hadoop集群安装本次依照hadoop-2.7.6版本为例:1.克隆vmware  克隆前先关闭防火墙     克隆完成后先修改hostname   方便自己知道自己打开的是哪一台服务器    vim /etc/sysconfig/network       1个主节点:master(192.168.133.129)        修改内容:NETWORKING=yes             ...

2018-05-21 22:55:50 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除