- 博客(24)
- 收藏
- 关注
原创 DataX-MysqlWriter 插件文档
https://www.cnblogs.com/harvey2017/p/12148906.html
2021-03-15 16:54:35
459
原创 Docker安装ES
1、下载镜像docker pull elasticsearch:7.4.2 # 存储和检索数据2、创建实例mkdir -p /mydata/elasticsearch/config # 在mydata文件夹下创建es的config文件夹,将docker中es的配置挂载在外部,当我们在linux虚拟机中修改es的配置文件时,就会同时修改docker中的es的配置mkdir -p /mydata/elasticsearch/data #在mydata文件夹下创建es的data文件夹echo "htt
2021-01-20 10:06:32
1368
原创 docker下安装kibana
一、概述Kibana是一个针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana,可以通过各种图表进行高级数据分析及展示。二、安装下载镜像//下载镜像docker pull kibana:7.4.2配置文件mkdir -p /data/elk7/kibana/config/vi /data/elk7/kibana/config/kibana.yml配置内容如下##** THIS IS AN AUTO-
2021-01-20 09:45:26
781
原创 kylin异常排查-Step Name: Build Cube In-Mem
Kylin Build执行到17步时报错:17 Step Name: Build Cube In-Mem ,错误截图如下:点左下角的MRJob图标,打开查看错误信息:从MRJob中的描述中可见详细的错误信息:The required MAP capability is more than the supported max container capability in the cluster. Killing the Job. mapResourceRequest: <memory:30
2020-06-11 17:24:16
350
原创 kylin-增量构建Cube
1、全量和增量的区别对于全量构建来说,每当需要更新Cube数据的时候,它不会区分历史数据和新加入的数据,也就是说,在构建的时候会导入并处理所有的原始数据。我们将Cube划分为多个Segment,每个Segment用起始时间和结束时间来标志。Segment代表一段时间内源数据的预计算结果。增量构建只会导入新Segment指定的时间区间内的原始数据,并只对这部分原始数据进行预计算。最后,我们可以得到这样的结论:对于小数据量的Cube,或者经常需要全表更新的Cube,使用全量构建需要更少的运维精力,以少量
2020-06-11 17:18:44
894
1
原创 Zookeeper启动失败
1、zookeeper启动#打印启动信息,或者查看日志文件logs/zookeeper-root-server.out./zkServer.sh start-foreground2、启动失败,报错信息如下2020-06-10 14:45:01,046 [myid:] - INFO [main:Environment@100] - Server environment:user.dir=/opt/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/lib/zo
2020-06-10 16:57:25
529
1
原创 Hive导入/导出 : 创建分区表及分区表导入csv文本文件数据
基本思路:分别创建两个表,一张是分区表,另一张是非分区表,表结构相同;再通过insert语句将非分区表的数据插入到分区表1。要注意是,分区表的插入分两种:静态插入和动态插入。在一般情况下,Hive不建议直接使用动态插入2,所以有个默认情况下是不允许使用动态分区插入:hive.exec.dynamic.partition=false;但在Hive 0.9.0及之后的版本,上述参数默认为true,虽然如此却有另一个参数约束着动态分区插入:hive.exec.dynamic.partition.mode=str
2020-06-05 16:12:05
3375
原创 hbase集群部署
cloudera manage 添加hbase服务,操作简单,无需配置,hbase本身配置并不复杂。详见参考,下载安装:https://www.cnblogs.com/tashanzhishi/p/10916714.html
2020-05-18 10:19:10
182
原创 kylin 集群部署
1. 集群节点规划与说明rzx1 allrzx2 queryrzx3 query说明:Kylin节点角色有三种:all: 包含query和jobquery: 查询节点job: 工作节点3. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件JDK 1.8<必须项>HADOOP<必须项,hdfs作为数据存储基础,这里版本是hadoop-2.7.7>ZOOKEERER<必须项,集群协调,这里版本zookeeper-3.4.1
2020-05-18 10:15:40
542
原创 kylin依赖 -- CDH5.15安装Spark2.3服务
前提在部署kylin时,提示需要spark2依赖,1、到CDH官网下载对应的spark的parcel包http://archive.cloudera.com/spark2/csd/注意下载对应的版本,CentOS7,下载el7的包。2、开始安装2.1.安装前可以停掉集群和Cloudera Management Service,也可以不停,但是待会还是要停止重启的。2.2.上传CSD包到每台服务器上的/opt/cloudera/csd目录,并且修改文件的用户和组。注意如果本目录下有其他的ja
2020-05-18 10:03:53
350
原创 kylin集群部署以及踩坑
一、安装参考:https://www.cnblogs.com/binarylei/p/10549155.htmlhttps://www.cnblogs.com/jiashengmei/p/11778665.html二、踩坑1、Kylin启动命令异常“hbase-common lib not found”【原因】疑似HBase版本与Kylin版本兼容问题。Kylin启动时通过"hbase classpath"命令尝试获取hbase-common库的路径,而hbase并不一定返回hbase-comm
2020-05-09 18:03:04
581
原创 zookeeper和kafka安装
1、zookeeper:https://www.cnblogs.com/expiator/p/9853378.html2、kafka:https://www.cnblogs.com/expiator/p/9990171.html
2020-05-02 21:02:35
149
原创 Mac:mysql的安装以及canal测试
MySQL一、MySQL安装建议国内镜像下载,过程略过。二、环境变量第一步 :在终端切换到根目录,编辑./.bash_profile文件vim ./.bash_profile第二步 :进入vim 编辑环境。 按下i 进入 insert 模式 ,输入export PATH=$PATH:/usr/local/mysql/binexport PATH=$PATH:/usr/local/...
2020-05-02 20:57:55
959
2
原创 pyspark RDD 一行转多行
dataframe也有按某列中按分隔符转成多行的函数,不过dataframe比rdd所需资源更多,所以此处先些rdd的按某列拆分转为多行dataframe的详见https://spark.apache.org/docs/2.3.1/api/python/pyspark.sql.html#pyspark.sql.DataFrame 的pyspark.sql.functions.explode(co...
2020-04-10 11:53:09
2746
原创 1 RDD的数据结构模型
1 RDD的数据结构模型前言:自Google发表三大论文GFS、MapReduce、BigTable以来,衍生出的开源框架越来越多,其中Hadoop更是以高可用、高扩展、高容错等特性形成了开源工业界事实标准。Hadoop是一个可以搭建在廉价PC上的分布式集群生态体系,用户可以在不清楚底层运行细节的情况下,开发出自己的分布式应用。但是Hadoop MapReduce由于其设计初衷并不是为了满足循环...
2020-03-22 22:53:12
2042
原创 Spark Rdd coalesce方法和repartition方法
在Spark的Rdd中,Rdd是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区:分别是 coalesce()方法和repartition()。这两个方法有什么区别,看看源码就知...
2020-03-06 15:44:29
281
原创 Clickhouse集群应用、分片、复制
https://www.jianshu.com/p/20639fdfdc99Clickhouse集群应用、分片、复制1简介通常生产环境我们会用集群代替单机,主要是解决两个问题:效率稳定如何提升效率?一个大大大任务,让一个人干需要一年,拆解一下让12个人同时干,可能只需要1个月。对于数据库来说,就是数据分片。如何提升稳定性?所谓稳定就是要保证服务时刻都能用,也常说高可用。这就像团队里...
2019-10-10 15:40:42
1628
原创 美团推荐算法实践
原文:https://cloud.tencent.com/developer/article/1342796前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息...
2019-08-02 15:20:08
267
转载 指标权重确定方法之熵权法
http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标变异性的大小来确定客观权重。 一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重...
2018-11-26 15:36:49
3696
1
转载 用户画像—计算用户偏好标签及数据指标与表结构设计
https://blog.youkuaiyun.com/u014156013/article/details/82656883一、用户画像—计算用户偏好标签下面介绍如何计算用户的偏好标签。在上一篇写用户画像的文章 “用户画像—打用户行为标签”中,主要讲了如何对用户的每一次操作行为、业务行为进行记录打上相应的标签。在这篇博客中,主要讲如何对这些明细标签进行计算以及偏好的产品、内容的类目。关于用户标签权重...
2018-11-23 18:28:16
1982
转载 用户画像之标签权重算法
https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde...
2018-11-23 16:42:45
5410
转载 用户画像之标签权重算法
https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde...
2018-11-23 14:29:52
3702
转载 用户画像—打用户行为标签
https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487355&idx=1&sn=b7d5d94a017a0c2908d8cee6a58d917a&chksm=e990eaafdee763b9dd5799b27c32d034bcd9d0e21d82c3c98219dda5f2f6bd6e79658f9...
2018-11-23 14:28:35
777
转载 用户画像数据建模方法
二、用户画像数据建模方法作者:百分点技术总监郭志金摘自:百分点(ID: baifendian_com)从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据...
2018-11-21 17:31:35
558
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人