- 博客(51)
- 资源 (1)
- 收藏
- 关注

原创 10.1 spark-sql 10亿级数据交互式秒级查询可行性
当前版本:saprk2.4 cdh 数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOne use of Spark SQL is to execute SQL queries. Spark SQL...
2019-07-25 14:13:25
4034
2
原创 数据湖hudi,spark-shell启动
spark-shell启动spark-shell启动,需要指定spark-avro模块,因为默认环境里没有,spark-avro模块版本好需要和spark版本对应,2.4.5。
2023-07-10 10:28:15
445
原创 idea上传到github代理问题
错误:fatal: unable to access 'https://github.com/kk25114/Hello.git/': OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443参考:https://stackoverflow.com/questions/49345357/fatal-unable-to-access-https-github-com-xxx-openssl-ssl-connect-ss
2021-03-25 09:46:58
413
原创 向hbase中写入大数据集报错“RegionTooBusyException: Over memstore limit=1.0G“
环境:hbase3.1.0+cdh6.3.0,数据5g文本1.场景:像hbase中写入数据报错se.RegionTooBusyException: Over memstore limit=1.0G, regionName=36bec2784926eec62efbad8ee750825a, server=hyt-bigdata032.问题:写入小文件不会报错,大文件就报错了代码:(如果是\t,删掉-Dimporttsv.separator=",")默认导入即可了在hbase中建表:
2021-03-04 09:41:18
1689
1
原创 大数据hdfs跨集群的数据迁移
将集群hyt-bigdata02的数据同步到10.8.4.170 集群hadoop distcp命令:hadoop distcp hdfs://hyt-bigdata02:8020/user/hdfs/yanke_data/jar hdfs://10.8.4.170:8020/user/hdfs/yanke_data/hyt-bigdata02为主节点master执行后会以一个job运行...
2020-11-30 15:33:48
400
原创 cdh6.3搭建kylin错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty
引用之前的6.11的https://blog.youkuaiyun.com/kk25114/article/details/98085785版本兼容问题会报错: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty[root@master01 bin]# vi /opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hbase/bin/hbase# CLASSPATH i..
2020-07-17 10:42:44
893
原创 HBase行数统计MapReduce
执行MapReduce计算hbase中的表student表的数据条数执行:/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hbase/bin/hbase rowcounter student下一篇:hive关联hbase
2020-07-17 10:15:14
389
原创 sparkR调用R的执行分布式计算
环境spark2.4.5,R3.6, install.package("SparkR"),默认sparkR提供的函数支持对应的版本为spark2.4.5不支持2.4.0 如:将data.table,data.frame dt.score数据集转化成sparkR中的dataframe时可以执行sparkR中提供的方法 sparkR默认会覆盖掉R中的方法 如需要调用R中的方法需要指定调用 dataframe作为R和sparkR中的桥梁,不同的是sparkR可以进行分布..
2020-05-16 10:58:42
949
原创 问题:cdh中设置hive on spark后,hive使用 beeline无法运行,使用hive-client可以运行 ERROR : FAILED: Execution Error, retur
1.使用的hive-client2.使用beenline报错:ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session ...
2020-04-02 15:16:54
1732
3
原创 3.saprk集群hdfstest
基于spark的测试对50g数据进行Hdfstest,task,executor划分19/12/27 17:27:37 INFO spark.SparkContext: Created broadcast 10 from broadcast at DAGScheduler.scala:116419/12/27 17:27:37 INFO scheduler.DAGSched...
2020-01-16 10:41:54
385
原创 1.生产集群读写测试50g数据randomwriter
生产硬件规格浪潮:20核,128G,10.98TB浪潮:20核,128G,10.98TB浪潮:20核,128G,10.98TB浪潮:20核,128G,10.98TB浪潮:20核,128G,10.98TB引用1.测试集群http://note.youdao.com/noteshare?id=3332b5f14230918c41f084a1524a7a03&sub=...
2020-01-16 10:34:09
343
原创 2.mr对wordcount性能测试50g数据
1.对4.1中生成50g单词进行统计基于mr磁盘测试开始:19/12/27 16:23:45结束:19/12/27 16:26:2219/12/27 16:26:15 INFO mapreduce.Job: map 100% reduce 75%19/12/27 16:26:16 INFO mapreduce.Job: map 100% reduce 82%...
2020-01-16 10:25:19
554
原创 2.impala支持的math和聚合计算函数
impala 用法同hiveAggregate 聚合函数appx_median([DISTINCT|ALL] T col) avg([DISTINCT|ALL] col) count([DISTINCT|ALL] col) group_concat([ALL] col [, separator]) max([DISTINCT | ALL] T col) min(...
2020-01-16 10:06:25
4072
1
原创 1.hive2支持的math函数聚合计算函数
1.hive自身支持的math函数Mathematical 计算数学函数abs(DOUBLE a) acos(DECIMAL|DOUBLE a) asin(DECIMAL|DOUBLE a) atan(DECIMAL|DOUBLE a) bin(BIGINT a) bround(DOUBLE a [, INT decimals]) SELECT bround(12.25,...
2020-01-16 10:04:59
731
原创 各种bi工具支持的数据源
Superset 1M metabase 10Mredash 10Mcboard 4Kdavinci 10kpentaho 10kcboard 4k 国产1.国产cboard 2.finebi支持excel,mysql,hive,spark,impala3.supe...
2020-01-11 18:04:06
1554
原创 ssh免密失效的问题
当前解决:恢复权限7.ssh免密登录ssh-keygen -t rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 600 ~/.ssh/authorized_keysssh hyt-bigdata02ssh-copy-id 10.214.22.46ssh-copy-id 10.214.22.4...
2019-12-08 22:52:33
485
原创 cdh6安装kudu-python问题
引用https://www.libinx.com/2018/how-to-deploy-kudu-and-use-kudu-python-client/https://blog.youkuaiyun.com/vkingnew/article/details/89707977无法使用pip安装成功kudu-python参考官方文档kudu1.8文档https://kudu.apache...
2019-11-28 14:37:12
532
原创 UDFRowSequence生成代理键cdh
引用https://www.cnblogs.com/qiuhong10/p/7607655.html原文中指定的类找不到,看了好几篇文章都没有提到failed反编译hive-contrib-2.1.1-cdh6.1.1.jar,按指定类型即可udfrowsequence 改为 UDFRowSequencehive> add jar /opt/cloudera/parcel...
2019-11-27 09:37:09
353
原创 错误 hdfs miss block
miss block1.删除节点,副本数量不足 (设置副本数量)2.集群异常3.升级,ha列出删除再查看状态为health此时cdh状态上变绿了引用https://blog.youkuaiyun.com/levy_cui/article/details/70226195?utm_source=blogxgwz3https://my.oschina.net/...
2019-09-27 11:03:30
294
原创 8.2 docker指定容器内的ip通信的问题
我之前在https://blog.youkuaiyun.com/kk25114/article/details/88639383中演示的操作使用pipework可以给容器桥接网卡直接连ip想要实现容器内可以直接连的centos7系统但是问题是:pipework使用后,退出容器,或者重启docker后ip就发生了变化需要再次重新指定ip,问题是ip根本无法指定,无法指定原ip,重...
2019-08-22 11:27:49
445
原创 15.flink的使用scala steaming wordcount的使用
同步输出 按空格切分源码:import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.api.scala._import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnviron...
2019-08-16 20:33:03
191
原创 11.6 impala和hive之间区别
SQL Differences Between Impala and Hive引用:Impala's SQL syntax follows the SQL-92 standard, and includes many industry extensions in areas such as built-in functions. SeePorting SQL...
2019-08-15 12:23:08
271
原创 14.2 爬虫爬取的长安十二时辰短评 微博热门月榜 明星微博
已实现的豆瓣电影影评,豆瓣用户微博热门,用户微博,微博评论1.内容 昵称,头像,评论,时间短评91页1820条 数据资源地址:链接: https://pan.baidu.com/s/1IQDOI8GCw0IDDA3KonNJ0Q 提取码: 267x 复制这段内容后打开百度网盘手机App,操作更方便哦2.微博内容数据对应3.李荣浩微博...
2019-08-10 22:53:42
405
原创 14.1 玩玩爬虫爬取豆瓣广播 豆瓣所有电影评分最高电影 电影网站
1.爬取了2位豆瓣用户411页的广播 几年的内容 共48683条去掉电影日志图片哈哈取广播内容2.豆瓣电影评分排名高清mp4电影31156条...
2019-08-10 22:46:06
2604
2
原创 10.5 spark structured streaming在集群模式下运行
版本spark2.4.0-cdh6.1.1继10.2spark structured streaming执行wordcount打包后放在集群交给yarn运行展示输入端输出端linux节点上支持写入idea上设置 batch的时间设置 1 second /1 milliseconds出现了 TimeExecutor: Curren...
2019-08-09 19:59:03
637
原创 11.5 impala3的jdbc的连接cdh版补充
1.版本impala3.1.0-cdh6.1.12.impala的HiveServer2 端口:21050先抛出一个兼容性的问题,impala jdbc不兼容,当前选择的 ClouderaImpalaJDBC41-2.6.11.1012impala jdbc选择兼容版 下载地址http://www.cloudera.com/downloads/connectors/impala/...
2019-08-09 18:11:09
1018
原创 10.4 spark2 structured streaming 实时计算hdfs文件输入流cdh
继上一篇spark2.4 cdh演示:实时监控hdfsa.文件1b.添加文件代码import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types.StructTypeobject FileInputStructuredStreaming { de...
2019-08-07 19:45:21
906
1
原创 10.2 spark2 structured streaming执行wordcount
1.参考官方demo cdh2.4.02.展示计算结果为迭代递增session启动后在监听状态周期性完成state无源数据则进入sleep状态代码import org.apache.spark.sql.SparkSessionobject WordCount { def main(args: Array[String]): Unit = {...
2019-08-07 18:33:15
199
转载 13.7 开源数据可视化工具(For Apache Kylin)使用说明
开源数据可视化工具(For Apache Kylin)使用说明Kylin lxw1234@qq.com3年前 (2016-06-20)52388℃49评论Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。原生的Caravel并不...
2019-08-06 21:32:36
310
转载 13.6 Apache Kylin和Superset集成,使用开源组件,完美打造OLAP系统
Superset 是一个数据探索和可视化平台,设计用来提供直观的,可视化的,交互式的分析体验。Superset 提供了两种分析数据源的方式:1. 用户可以以单表形式直接查询多种数据源,包括 Presto、Hive、Impala、SparkSQL、MySQL、Postgres、Oracle、Redshift、SQL Server、Druid 等。本文后续内容也会详细介绍Superset...
2019-08-06 21:29:51
419
原创 13.5 kylin jdbc连接 支持高并发
1.使用impala执行2.jdbc连接代码import java.sql.*;public class TestKylin { public static void main(String[] args) throws Exception { //Kylin_JDBC 驱动 String KYLIN_DRIVER =...
2019-08-03 14:03:55
519
原创 13.4 使用spark构建cube
配置参考官方文档http://kylin.apache.org/cn/docs/tutorial/cube_spark.html1.默认使用mr构建cube2.选择时间区域构建使用saprk引擎可以看到在执行的spark job在使用执行saprk时会开启一个session,即hive on spark, on yarn启动se...
2019-08-03 13:25:42
528
原创 13.3.kylin关联hive构建modle cube
1.数据准备https://github.com/fayson/cdhproject/tree/master/kylindemohdfs dfs -put employee.csv /tmp/data/kylin/hdfs dfs -put employee.csv /tmp/data/kylin/beeline -u "jdbc:hive2://mini2:10000/d...
2019-08-02 19:09:39
303
原创 13.2 kylin的初步使用对比hive,impala
1.执行官方的demo导入数据[root@mini2 bin]# ./sample.sh Retrieving hadoop conf dir...Loading sample data into HDFS tmp path: /tmp/kylin/sample_cube/dataGoing to create sample tables in hive to database ...
2019-08-02 15:17:15
1173
原创 13.1 kylin2.6.3 cdh6安装错误
当前版本cdh6.1.1apache-kylin-2.6.3-bin-cdh60错误1: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty按参考一设置无效解决方法,修改hbase shellvim/opt/cloudera/parcels/CDH-6.1.1-1.cdh6.1.1.p0.87525...
2019-08-01 19:45:29
968
原创 11.4 impala自定义永久函数及hive自定义函数在cdh hue中使用
演示转大小写的函数1.编写类并打包2.上传到hdfs上/user/hive/udf/hive_udf-1.0-SNAPSHOT.jar3.使用impala创建函数并执行[mini2:21000] default> create function mylower(string) returns string location '/user/hive/udf/hive_...
2019-08-01 14:05:50
1236
1
原创 12.4 datax mongodb写入到hdfs
1.编辑模板{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "ad...
2019-07-31 19:29:07
1277
原创 12.3 datax MongoDB的数据导入MySQL
{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "address": ["12...
2019-07-31 19:26:50
2046
原创 12.2.datax hdfs数据写入mysql
同16编辑后的模板{ "job": { "content": [ { "reader": { "name": "hdfsreader", "parameter": { "column...
2019-07-31 17:42:38
811
原创 12.1 datax的使用mysql to hdfs
参考阿里巴巴开源地址https://github.com/alibaba/DataX与sqoop不同的是datax支持非关系数据库的导入和导出DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图,详情请点击:DataX数据源参考指南类型 数据源 Reader(读) Writer(写) ...
2019-07-31 17:26:49
352
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人