- 博客(250)
- 资源 (18)
- 收藏
- 关注

原创 使用Flink SQL实时入湖Hudi/Hive
Hudi是一个流式数据湖平台,使用Hudi可以直接打通数据库与数据仓库,Hudi可以连通大数据平台,支持对数据的增删改查。Hudi支持同步数据入库,提供了事务保证、索引优化,是打造实时数仓、实时湖仓一体的新一代技术。下面以我实际工作中遇到的问题,聊下湖仓一体的好处,如有不对,敬请指正。
2024-05-07 14:04:04
1835
2

原创 使用Sqoop将Hive数据导出到TiDB
关系型数据库与大数据平台之间的数据传输之前写过一些。我发现一些大家可能会忽略但很重要的地方!所以,请继续看下去,你肯定会有收获的!!!
2024-01-11 16:29:51
1487

原创 使用StreamSets提供接口 实现零代码微服务
通常情况下,我们需要开发一个数据接口,提供给业务部门使用,而开发一个接口,就算使用Spring Boot,也较费时费力。今天我给大家介绍一种不需要敲一行代码,五分钟就能实现的方法~
2022-09-20 16:24:00
1152

原创 【零基础学Python】Day1 Python简介与环境安装
Python作为目前最火的编程语言,不光可用于脚本编写,web开发,爬虫,数据分析,还可用于机器学习,数据挖掘,游戏开发等。本人对Python也只是一知半解,趁这个机会和兄弟姐妹们一起深入学习一下~.........
2022-08-03 16:15:39
343
1

原创 Presto与Hive SQL对比
近期工作涉及到数据治理,对一些老慢任务优化改造,主要是Hive转Presto,Hive实在是太慢了~本篇记录Hive转Presto遇到的问题,希望对你们有所帮助😘长期更新,记得收藏Presto不支持字段类型自动转换(插入和比对)非string类型字段,hive传入’'空字符串可自动转,presto需传入nullHive 自动转换,Presto try_cast(value AS type)Presto不支持字段值不符合定义的字段类型时自动置空如:字段类型为decimal(10,2),h
2022-04-19 11:18:27
3640
4

转载 金融风控指标-vintage、迁移率、滚动率、入催率、FPD、DPD
随着互联网金融的发展,对数据分析的需求越来越大。数据分析的目的其实是为了找到风险和收益的平衡点。高收益伴随着高风险,而低风险的回报又如同鸡肋。所以,太高的风险,太低的收益都不行。平衡点通俗来讲就是风险在控制范围之中,收益也可以接受。为了找到平衡点,我们通常会计算许多风控指标,这些风控指标是什么意思,他们有什么作用,我们挑几个金融领域比较常用的指标说说。
2022-03-28 17:48:07
16659
4

原创 某互联网金融公司离线数仓变迁
本篇是数仓专栏的第一篇文章,一直想开个数仓专栏,但怕自己认知不够,误导了读者。目前本人有了一点积累,但也比较浅显,权当记笔记了,欢迎大家批评指正~---本篇简单描述一下我们公司离线数仓各版本的特点和问题
2022-03-17 11:34:06
690

原创 DolphinScheduler无故删除HDFS上的Hive库表目录
亲爱的朋友们,我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情就是在DolphinScheduler上发生的。据领导描述,某团队负责的某业务数仓上云后,HDFS上的Hive库表目录总是无故被删,他们找不到原因,让我协助处理一下。本来某业务数仓上云是一个很简单的工作,对于DolphinScheduler上的任务而言,只需要把工作流导出,然后导入到云上的DolphinScheduler,不幸的是XX云上的S
2022-03-02 11:53:06
3654

原创 使用Presto实现Hive动态分区
Presto和Impala、Spark SQL都是SQL查询引擎,也都是基于内存运算。但是Presto支持多种数据源,比如Hive、TiDB、Redis、Kafka、ES、Oracle等等,可以跨数据源连表查,既快又方便。不过多介绍了,下面进入正题。Hive 动态分区使用方法见下:set hive.exec.dynamic.partition=true; #开启动态分区,默认是falseset hive.exec.dynamic.partition.mode=nonstrict; #开启允许所有
2021-09-01 14:37:17
1596
5

原创 使用Presto重写Hive分区表数据
Presto和Impala、Spark SQL都是SQL查询引擎,也都是基于内存运算。但是Presto支持多种数据源,比如Hive、TiDB、Redis、Kafka、ES、Oracle等等,可以跨数据源连表查,既快又方便。不过多介绍了,下面进入正题。Hive向分区表重写数据是这样的:insert overwrite tablename partition (year='2021')select a, b from tab;但是Presto不支持这种写法,一是不支持overwrite,二是不支
2021-08-12 17:55:15
2700
5

原创 Sentry安装使用
Sentry对于Hive表的权限管理粒度可以到列,见下:Sentry的安装使用网上有很多,但是我新建的用户和组在Hue配置权限并不起作用,经过一番探索,我终于发现了问题所在,详见下文。目录1 安装Sentry2 使用Sentry2.1 创建组2.2 创建用户2.3 赋予角色2.4 查看权限1 安装Sentry创建sentry数据库及用户,CM页面添加sentry若安装sentry提示没有mysql驱动,将mysql-connector-java.jar放到/usr/share/java下即可。
2021-05-21 11:10:56
777
3

原创 Kudu简单使用
环境版本:CDH 6.3.2 | Impala 3.2.0 | Hive 2.1.1 | Hue 4.2.0 | kudu 1.10.0# 创建kudu表,需指定主键、分区CREATE TABLE kudu_table( id BIGINT, name STRING, PRIMARY KEY(id))PARTITION BY HASH PARTITIONS 16STORED AS KUDU;# 创建impala外部表映射kudu表CREATE EXTERNAL TABL.
2021-05-20 18:15:48
541
2

原创 Kerberos常见问题汇总
问题汇总1.未生成票据2.主体密码错误3.KDC未启动4.票据缓存5.Peer indicated failure6.混合问题1.未生成票据报错内容:WARN ipc.Client: Exception encountered while connecting to the server : org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS]ls: Fa
2021-05-20 17:44:31
3377
2

原创 dolphinscheduler 报错及解决办法
1 目录权限问题ERROR orm.CompilationManager: Could not rename /tmp/sqoop-hive/compile/4c4230b9e5d67829fa1f847893ff8560/QueryResult.java to /tmp/dolphinscheduler/exec/process/2/7/25/35/./QueryResult.java. Error: /tmp/dolphinscheduler/exec/process/2/7/25/35/./Quer
2021-04-26 11:02:43
19009
16

原创 在Windows下开发调试PySpark
Spark版本:2.4.0+cdh6.3.1Spark-Windows版本:spark-2.4.0-bin-hadoop2.7WinUtils版本:hadoop-2.7.1Python版本:3.7.2Java版本:1.8.0_121Scala版本:2.11.8 按需安装目录前言1 使用PyCharm开发PySpark直连Hive metastore1.1 下载相关包1.2 配置环境变量1.3 设置spark日志级别1.4 启动spark-sql1.5 创建测试表并插入数据1.6 安装相关包1.
2021-02-09 14:55:52
3643
1

原创 大数据平台作业智能诊断/管理组件之Apache Eagle
源码见:https://github.com/apache/eagle官方文档见:http://eagle.apache.org/docs/latest目录前言一、Apache Eagle 介绍二、Quick StartInstallationBuild EagleDeploy Eagle三、遇到的问题前言随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来没有任何问题,但占用了极大的资源。为了改善这种情况,我最近调研了两个开源的大数据平台作业智能诊断/管理组件,D
2020-11-23 14:59:19
810
2

原创 大数据平台作业智能诊断/管理组件之Dr.Elephant
源码及官方文档见:https://github.com/linkedin/dr-elephant目录前言一、Dr.Elephant 介绍二、Quick Setup Instructions三、遇到的问题前言随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来没有任何问题,但占用了极大的资源。为了改善这种情况,我最近调研了两个开源的大数据平台作业智能诊断/管理组件,本文先分享Dr.Elephant。一、Dr.Elephant 介绍Dr.Elephant被定位成一个对
2020-11-23 14:32:44
896
1

原创 基于Docker从零搭建Prometheus+Grafana
环境版本:Ubuntu Kylin 20.04目录1 安装docker2 拉取相关镜像3 node exporter3.1 start node exporter3.2 查看端口91003.3 访问url4 prometheus4.1 编辑prometheus.yml4.2 start prometheus4.2 查看端口90904.3 访问url5 grafana5.1 start grafana5.2 查看端口30005.3 访问url5.4 简单使用grafana备注:1 安装docker使用
2020-10-09 11:31:25
1838
6

原创 基于Spark MLlib和Spark Streaming实现准实时分类
环境版本: ·Spark 2.0 ·Scala 2.11.8 在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有,我很疑惑,难道实现准实时预测有别的更合理的方式?望大佬在评论区指出。本篇博客思路很简单,使用Spark MLlib训练并保存模型,然后编写Spark Streaming程序读取并使用模型。需注意的是,在使用Spark MLlib之前我使用了python查看分析数据、清洗数据、特征工程、构造数据集、训练模型等等,且在本篇中直接使用了python构造的数据集。
2020-05-21 10:55:27
921

原创 HBase 1.1.2 REST API 初体验
环境版本: ·HDP 2.5.3 ·HBase 1.1.2HBase提供了REST API,为开发者增加了更多选择。我们可以使用HBase REST API对表进行增删改查,但本篇博客主要使用查询功能。请注意HBase版本! 请注意HBase版本! 请注意HBase版本!1 启动HBase REST Server# 前台运行[root@hqc-test-hdp3 ~]# hbase rest start -p88882020-05-12 16:26:02,062 INFO [main] u
2020-05-13 11:28:36
1178
1

原创 基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive
环境版本: HDP-2.5.3注意:HDP中Kafka broker的端口是6667,不是9092前言有两种方式可以将数据通过flume导入hive中,一是直接sink到hive中,二是sink到hdfs中,然后在hive中建个外部表。
2019-11-05 15:45:05
1693

原创 使用Sqoop将SQL Server视图中数据导入Hive
环境版本: ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012文章目录1.下载sqljdbc4.jar放在$SQOOP_HOME/lib下2.测试sql server连接2.1 List available databases on a server2.2 List available tables in a database2.3 ...
2019-10-30 21:57:30
2069
2

原创 Hive、Beeline、Spark-SQL、Spark-Shell CLI使用
文章目录1 Hive2 Beeline3 Spark-SQL4 Spark-shell1 Hive[root@hqc-test-hdp1 ~]# su hdfs[hdfs@hqc-test-hdp1 root]$ cd# 准备数据[hdfs@hqc-test-hdp1 ~]$ vim phone.txt1 iphone5 2G 5999.02 oneplus 3G 2299.03 ...
2019-10-29 09:35:39
1346

原创 “联创黔线”杯大数据应用创新大赛
文章目录赛题介绍代码1 特征工程1.1 正样本1.2 负样本2 建模3 预测3.1 测试集4 提交结果0 查看数据0.1 训练数据0.1.1 正样本0.1.2 负样本0.1.3 天气数据0.2 测试数据0.2.1 测试集0.2.2 天气数据赛题地址:https://www.kesci.com/home/competition/5be92233954d6e001063649a又打了个酱油,最终成...
2019-07-31 18:59:12
2569

原创 搭建CNN识别你的猫猫狗狗
本文为Udacity优达学城深度学习课程笔记第三篇,使用图像增强对猫狗图像进行分类。课程地址:https://classroom.udacity.com/courses/ud187最终目的是训练CNN模型,使其能识别上面的小狗狗是小狗狗。可能遇到的问题有过拟合、输入图像的尺寸不一,不过不用担心,本文会一一解决。为了保持笔记与课程内容一致,代码没有进行修改,如需提升识别准确率可自行对模型进行修...
2019-05-29 14:45:49
1861
2

原创 2019JDATA用户对品类下店铺的购买预测(机器学习一般步骤总结)
文章目录赛题介绍建模流程1.查看分析数据2.数据清洗3.构造数据集(特征工程)4.特征选择5.模型选择6.参数选择7.模型训练与测试8.模型融合赛题介绍赛题网址:https://jdata.jd.com/html/detail.html?id=8赛题背景京东零售集团坚持“以信赖为基础、以客户为中心的价值创造”这一经营理念,在不同的消费场景和连接终端上,在正确的时间、正确的地点为3亿多活跃...
2019-05-26 16:52:20
5326
3

原创 使用Keras搭建CNN-MNIST 手写数字 Dataset
import tensorflow as tfF:\Anaconda3\envs\tensorflow-gpu\lib\site-packages\h5py\__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is depreca...
2019-04-18 11:39:36
831

原创 使用TF1.12搭建CNN-Fashion MNIST Dataset
import tensorflow as tftf.enable_eager_execution()from tensorflow import kerasimport numpy as npimport matplotlib.pyplot as pltimport osimport subprocessprint(tf.__version__)1.12.0fashio...
2019-04-18 11:29:28
925

原创 工业大数据介绍
一、工业大数据的定义工业大数据是指在工业领域,主要通过传感器等物联网技术进行数据采集、传输得来的数据,由于数据量巨大,传统的信息技术已无法对相应的数据进行处理、分析、展示,而在传统工业信息化技术的基础上借鉴了互联网大数据的技术,提出新型的基于数据驱动的工业信息化技术及其应用。二、工业大数据特点工业大数据主要有以下几个特点:1、数据来源主要是企业内部,而非互联网个人用户;2、数据采集方式更...
2019-03-11 13:09:49
6608

原创 Ambari离线安装Solr
Ambari没有集成Solr,但我在github上找到一个解决方案,如果您不需要离线安装可以参考下面链接: https://imaidata.github.io/blog/2017/09/18/%E7%94%A8Ambari%E9%83%A8%E7%BD%B2SOLR/1.下载压缩包并解压下载地址:https://download.youkuaiyun.com/download/dr_guo/106...
2018-09-05 13:08:28
1646
1

原创 使用DataX将Hive与MySQL中的表互导
一、DataX简介(摘自https://github.com/alibaba/DataX)DataXFeaturesDataX详细介绍Quick StartSupport Data Channels二、开始正文备注:1.可能会遇到的错误2.MysqlWriter 针对 Mysql 类型转换列表:一、DataX简介(摘自https://github.com/...
2018-08-30 15:25:44
18256
4

原创 使用Spark/Java读取已开启Kerberos认证的HBase
1.赋予drguo用户相应的权限2.KDC中创建drguo用户并导出相应的keytab文件[root@bigdata28 ~]# kadmin.local Authenticating as principal drguo/admin@AISINO.COM with password.kadmin.local: addprinc drguo/bigdata28WARNING...
2018-07-18 14:10:42
3439

原创 CentOS7完全离线安装配置NTP、MySQL
NTP及依赖 rpm包下载: MySQL及依赖 rpm包下载:NTP安装# 修改系统时间[root@10-121-2-96 opt]# timedatectl set-ntp no[root@10-121-2-96 opt]# timedatectl set-time "2018-07-05 15:06:00"[root@10-121-2-96 opt]# timedatect...
2018-07-05 16:01:43
7383

原创 CDH集群启用Kerberos
一、安装kdc1.在集群中找台机器安装KDCyum install krb5-server krb5-libs krb5-workstation如果您的机器不能联网请使用rpm包安装:这台机器自带了kerberos client的两个包,需要先升级再安装server[root@bigdata27 ~]# rpm -qa | grep krb krb5-workstatio...
2018-06-14 13:39:34
1349
1

原创 使用Keras实现多层前馈神经网络对Iris(鸢尾花卉)数据集进行多分类
Keras优点多多,搭建模型快实现简单,不过建议了解神经网络基本原理后再用。 backend建议用TensorFlow,比Theano快很多。from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitimport kerasfrom keras.mo...
2018-04-16 20:37:59
6769
4
jce8&mysql.zip
2021-05-20
py4j-0.10.9.1-py2.py3-none-any.whl
2021-02-09
pyspark相关包.zip
2021-02-09
eagle-0.5.0-bin.tar.gz
2020-11-25
eagle-0.5.1-SNAPSHOT-bin.tar.gz
2020-11-25
libfb303-0.9.3.jar
2019-11-13
libfb303.jar
2019-11-05
Flume采集MySQL数据所需jar包.zip
2019-10-21
libclntsh.so.11.1
2019-08-01
linux.x64_11gR2_database Centos6.5 Oracle11g
2019-08-01
Centos6.5-Oracle11g离线安装所需依赖rpm包.zip
2019-08-01
cats_and_dogs_filtered.zip
2019-05-28
fashion-mnist.zip
2019-05-28
jdata_product.csv
2019-05-27
ambari离线安装solr所需文件
2018-09-05
mysql离线安装rpm包
2018-07-05
ntp离线安装rpm包
2018-07-05
iris(鸢尾花卉)数据集-二分类
2017-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人