
大数据
赵厚雄
美好的生活都是奋斗出来的
展开
-
使用Eclipse连接hbase1.1 hadoop2.6
配置项目环境:1.当第三方应用访问HBase时,需要首先访问ZooKeeper(由$HBASE_HOME/conf/hbase-site.xml设置),因此需要通过classpath来指定HBase配置文件的位置(即$HBASE_HOME/conf的位置) 其它文章介绍将hbase-site.xml拷贝过来就可以了,我是将hadoop下的两个文件也拷贝过来了。2.将h原创 2016-06-28 22:49:26 · 2286 阅读 · 0 评论 -
kundera的hbase代码实现
一、介绍什么是Kundera 和JPA1. kundera是一个兼容jpa接口的对象映射器。当前kundera支持的数据库有: Cassandra,MongoDB,HBase,Redis,OracleNoSQL,Neo4j,CouchDB,Dudu,Relational databases,Apache Spark2. JPA是Java Persistence API的简称,...原创 2019-02-24 00:11:04 · 481 阅读 · 1 评论 -
flume与zk的信息传递
1.启动ZK>zkCli.sh -server datanode1:2181 1.1.创建一个flume znode >create /flume 1.2.查看znode >ls /flume[netcat]2.将flume配置文件保存到aa.txt a1.source...原创 2019-05-12 15:14:29 · 467 阅读 · 0 评论 -
spark sql在scala与java中的代码实现
在编写spark sql代码前,需要新建maven工程,将hadoop下的配置文件core-site.xml和hdfs-site.xml,以及hive中的hive-site.xml拷贝到工程的resource目录下,并在pom.xml中配置jar包信息。pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmln...原创 2019-07-14 12:06:02 · 1611 阅读 · 0 评论 -
spark sql实现客户订单的做外连接查询java实现
首先用记事本准备两张表数据:customers.txt:1,smith,122,bob,133,alex,144,alice,156,mike,26orders.txt:1,t001,100.9,12,t002,100.3,13,t001,100.6,24,t003,100.7,25,t001,100.1,26,t003,100.1,37,t002,100.1,...原创 2019-07-15 10:42:50 · 488 阅读 · 0 评论 -
spark sql保存DataFrame成json格式与读取json数据成DataFrame
在hdfs上存储一个sql文件cust.txt:1,smith,122,bob,133,alex,144,alice,156,mike,261.将DataFrame转换为json数据格式import org.apache.sparkimport org.apache.spark.sql.SparkSession/** * 将数据框保存成json数据...原创 2019-07-15 12:48:06 · 6592 阅读 · 1 评论 -
spark sql保存DataFrame到mysql & 从mysql读取数据
在hdfs上存储一个sql文件cust.txt:1,smith,122,bob,133,alex,144,alice,156,mike,261.保存DataFrame到mysqlimport org.apache.spark.sql.SparkSession/** * 将数据框保存成数据库的表中 */object SparkSQLJDBCWriteDe...原创 2019-07-15 13:46:42 · 2873 阅读 · 0 评论 -
spark streaming流计算程序,统计每2秒钟的单词个数的scala与java的代码实现
一、非SQL实现1. scala实现spark流计算程序,统计每2秒钟的单词个数1)scala代码部分:import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * spark 流计算程序,统计每2秒钟的单词个数 */object ...原创 2019-07-15 22:19:35 · 626 阅读 · 0 评论 -
spark累加器实现气温数据的双聚合(max|min)
累加器是用于跟踪和调试的技术, 在driver如果需要获取executor的执行结果,可以使用累加器机制。 executor端使用累加器的add方法将结果回传给driver,driver能够进行累计处理。 executor端只能调用add方法,不要访问value. 以下为自定义累加器, 通过累加器实现气温数据的双聚合(max|min)。import or...原创 2019-07-07 14:28:38 · 226 阅读 · 0 评论 -
Spark 流计算程序-统计每2秒钟的单词个数-写入文件
Spark 流计算程序-统计每2秒钟的单词个数import java.io.{File, FileOutputStream}import java.util.Dateimport java.text.SimpleDateFormatimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds,...原创 2019-07-18 18:11:24 · 329 阅读 · 0 评论 -
flink通过sql查询数据的代码实现
flink通过sql查询数据的代码实现import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apach...原创 2019-07-29 21:42:08 · 4382 阅读 · 0 评论 -
flink streaming 的scala与java版本的单词统计实现
Apache Flink是另一种新一代通用大数据处理引擎,旨在统一不同的数据负载。Flink正试图解决Spark试图解决的同样问题。这两个系统都旨在构建单一平台,您可以在其中运行批处理,流媒体,交互式,图形处理,ML等。因此,flink与Spark的意识形态中间没有太大差别。但是它们在实现细节方面确实存在很大差异。这里介绍单词统计flink的scala版本和java版本的代码实现scala...原创 2019-07-26 23:20:48 · 1250 阅读 · 0 评论 -
storm流计算编程实现电话呼叫日志处理
storm是一个免费、开源、分布式、实时计算系统。吞吐量高。每秒每节点百万元组。 storm VS hadoop----------------------------------------------------------- 实时流处理 ...原创 2019-08-05 09:39:31 · 414 阅读 · 0 评论 -
HBase过滤器的代码实现
package hmr.jr.hbase.first;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HBaseConfiguration;import or...原创 2019-01-18 23:55:57 · 385 阅读 · 0 评论 -
ZooKeeper常用操作的代码实现
package hmr.jr.zk;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.Watcher.Ev...原创 2019-01-01 13:53:17 · 556 阅读 · 0 评论 -
IntelliJ IDEA 设置 编辑器字体大小背景色及快捷键
IDEA 设置 编辑器字体转载 2016-06-17 06:40:27 · 1823 阅读 · 0 评论 -
hadoop大数据文件压缩Gzip代码实现
文件压缩有两大好处:减少存储文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。不同的压缩工具有不同的压缩特性。gzip是一个通用的压缩工具,在空间/时间性能的权衡中,居于其他两个压缩方法之间。bzip2的压缩能力强于gzip,但压缩速度更慢一些。LZO、LZ4和Snappy均优化压缩速度,其速度比 gzip快一个数量级,但压缩效率稍逊一筹。Snappy和LZ4的解压缩速度比LZO高出很多。pa...原创 2018-05-19 11:00:15 · 2237 阅读 · 0 评论 -
centos linux系统修改主机名
修改主机名1.修改/etc/sysconfig/network打开终端,输入:vim /etc/sysconfig/networkdatanode2即为主机名,可以根据自己的需要随意更改然后source /etc/sysconfig/network,使修改内容立即生效在终端输入命令测试:可以看到主机名已经修改成功。...原创 2018-05-21 12:06:48 · 317 阅读 · 0 评论 -
基于文件的数据结构之SequenceFile实现
Hadoop的sequenceFile为二进制键/值对提供了一个持久数据结构。它可以作为小文件的容器。HDFS和MapReduce是针对大文件优化的,所以通过SequenceFile类型将小文件包装起来,可以获得更高效率的存储和处理。SequenceFile的实现代码:package com.jr.sequencefile;import java.io.IOException;import...原创 2018-06-04 11:22:55 · 493 阅读 · 0 评论 -
centos普通用户权限问题解决:hadoop is not in the sudoers file. This incident will be reported.
我在centos下有一个普通用户hadoop,在用hadoop创建文件夹:[hadoop@localhost /] sudo mkdir /soft[sudo] password for hadoop: hadoop is not in the sudoers file. This incident will be reported.问题解决方法:转换到root用户,使用su root命令,...原创 2018-06-29 10:16:01 · 8251 阅读 · 0 评论 -
Hadoop定义的SequenceFile和MapFile的编程实现
Hadoop定义了SequenceFile 和MapFile两种类型的数据结构以适应Mapreduce编程框架的需要,Map输出的中间结果就是由他们表示的。其中MapFile是经过排序并带有索引的SequenceFile.SequenceFile记录的是key/value对的列表,是序列化后的二进制文件,因此是不能直接查看的,可以通过命令查看内容:hadoop fs -text myseq...原创 2018-11-06 11:39:03 · 349 阅读 · 0 评论 -
windows下ant编译生成hadoop-eclipse-plugin插件解决办法
我目前用的hadoop2.9.0版本,之前应该是用hadoop2.6以下的版本的时候,直接从网上下载hadoop-eclipse-plugin-**.jar拷贝到eclipse/plugins下就解决了,后面的版本看网上介绍需要用ant编译生成hadoop-eclipse-plugin-**.jar(**指版本号)文件,如果你在网上下载的jar包放到eclipse下不成功就自己编译...原创 2018-11-16 10:27:32 · 2255 阅读 · 0 评论 -
MR最大气温代码实现及hadoop问题 InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist
第一次运行hadoop jar文件就报错误,从其中找出问题原因:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not existhadoop问题描述如下:[hadoop@master bin]$ hadoop jar /soft/sou...原创 2018-11-18 16:00:26 · 1190 阅读 · 0 评论 -
hive笔记
纯笔记:Hive: 读写及管理分布式数据集的机制,使用SQL来读写及管理分布式数据集的机制,是一个数据仓库软件,重在分析过程,对时效性不敏感,只读数据放到hive进行分析。OLAP //online analyze process 在线分析处理OLDP //online transaction process 在线事务处理 RDBMShive 支持三种数据结构: t...原创 2018-12-20 14:24:38 · 387 阅读 · 0 评论 -
HBase常用操作代码实现
package hmr.hbase.first;import java.util.Iterator;import java.util.List;import java.util.Map.Entry;import java.util.NavigableMap;import org.apache.hadoop.conf.Configuration;import org.apache....原创 2019-01-04 17:17:54 · 422 阅读 · 0 评论 -
HBase的hbase-site.xml的基本配置
<?xml version="1.0" encoding="UTF-8"?><configuration> <property> <!--设置的是hdfs的文件目录--> <name>hbase.rootdir</name>原创 2019-01-04 17:36:49 · 5990 阅读 · 5 评论 -
启动HBase后在WEBUI看只有一个节点启动,其它节点未启动,抛出org.apache.hadoop.hbase.ClockOutOfSyncException异常
安装配置完Hbase后,先启动zookeeper,然后通过命令start-hbase.sh启动Hbase,发现只有一个节点启动了,查看其启动日志,可以看到它抛出了ClockOutOfSyncException异常,重点是Time difference of 5134210ms > max allowed of 30000ms这句话,具体的异常如下所示:2018-12-31 22:06:4...原创 2019-01-01 00:08:49 · 1159 阅读 · 0 评论 -
大数据量下mysql的分页查询
总结:为解决此问题效率整理此文: select * from table limit 50000,10,在大数据 量下这样写不行。解决方法如下:select a.* from member as a inner join (select id from member where gender=1 limit 300000,1) as b on a.id=b.id;具体细节分...原创 2019-09-20 08:08:28 · 680 阅读 · 0 评论