
大数据组件
文章平均质量分 59
未竟
这个作者很懒,什么都没留下…
展开
-
Flink对接Kafka的topic数据消费offset设置参数
开始阅读位置#config 选项scan.startup.mode指定 Kafka 消费者的启动模式。有效的枚举是:`group-offsets`:从特定消费者组的 ZK / Kafka 代理中的已提交偏移量开始。 `earliest-offset`:从可能的最早偏移量开始。 `latest-offset`:从最新的偏移量开始。 `timestamp`:从用户提供的每个分区的时间戳开始。 `specific-offsets`:从用户提供的每个分区的特定偏移量开始。默认选项值group-o.原创 2021-11-24 14:16:42 · 5174 阅读 · 0 评论 -
袋鼠云数栈开发平台使用问题汇总--持续更新
数据同步任务报错:Server returned HTTP response code:401 for url查看easymanager,发现zkfc的2个节点挂掉,使用滚动重启后恢复健康状态,但是再次执行任务还是报错。分析发现是从服务器拉取日志报错,实际后台任务已经执行完成,数据量也能对上。错误1:Could not establish connection to jdbc:hive...Read time out 或者 后台接口调用异常,状态码:402,说明信息:无法调用接口问题排.原创 2021-09-06 21:37:00 · 1121 阅读 · 0 评论 -
kafka+zk三台集群问题排查
问题描述:项目中人大金仓同步工具同步数据增量到kafka集群,无法自动创建topic,以及出现同步到topic时连接失败的问题,经过排查修改配置参数最终解决。重新安装zk和kafka操作步骤1、先把zk和kafka都停掉三台都执行zookeeper/bin/zkServer.sh stop三台都执行kafka/bin/kafka-server-stop.sh2、把之前的目录文件都备份删除mv /data/zkData/data/zkData-bakmv/d..原创 2021-08-31 12:33:19 · 399 阅读 · 0 评论 -
Flink任务报错记录
1、报错信息如下org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Zero-length character strings have no serializable string representation.at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProg.原创 2021-08-25 17:53:27 · 2196 阅读 · 0 评论 -
Hive编程指南
1、基础知识2、基础操作$HOME/.hiverc历史命令在$HOME/.hivehistory在hive CLI 中执行hadoop的dfs命令,只要将hadoop去掉,结尾加分号3、数据类型和文件格式4、HiveQL:数据定义内部表、外部表、管理表、分区表5、HiveQL:数据操作导入数据:insert intoinsert overwritecreate table as select6、HiveQL:查询select ... from数学.原创 2021-07-16 15:25:16 · 513 阅读 · 0 评论 -
迁移ElasticSearch老集群中的数据到新集群
思路:在网上查找迁移方法,发现elasticdump工具可以实现数据迁移,故安装测试。在一台能够同时访问新老集群的Windows电脑中安装elasticdump工具,然后执行命令即可,具体步骤如下:原创 2021-06-19 18:46:55 · 551 阅读 · 3 评论 -
迁移老集群的Hive表结构和数据到新集群中
总体思路:1、从旧集群中导出表结构,库和表众多的情况下,使用shell脚本批量导出2、从旧集群导出的sql建表语句做一些修改,在新集群中执行即可3、使用distcpm原创 2021-06-18 16:50:49 · 1364 阅读 · 2 评论 -
Kafka单机版本地安装测试
1、下载解压tar -xzf kafka_2.12-2.4.0.tgzcd kafka_2.12-2.4.02、启动zookeeper和server#前台启动 bin/zookeeper-server-start.sh config/zookeeper.properties#后台启动nohup bin/zookeeper-server-start.sh config/zo...原创 2020-02-27 10:49:27 · 260 阅读 · 0 评论 -
在Streamsets中使用TensorFlow进行实时机器学习
原文链接:https://streamsets.com/blog/machine-learning-with-tensorflow-and-kafka-in-data-collector作者:Dash Desai / 2018年10月18日 /工程,StreamSets新闻 只有当业务用户和应用程序能够从一系列来源访问原始和聚合数据并及时生成数据驱动的洞察时,才能实...翻译 2019-05-29 11:51:17 · 795 阅读 · 0 评论 -
使用Streamsets实现TensorFlow的二分类
原文链接:https://streamsets.com/blog/binary-classification-of-streaming-data-using-tensorflow-to-adls-gen1-and-adls-gen2/作者:Rupal Shah2019年5月2日/StreamSets新闻在过去的十年中,数字化转型已经发展,每个系统和设备都有数字化的线索:从IT服务器...翻译 2019-05-29 11:58:52 · 391 阅读 · 0 评论 -
Bigtop介绍
Bigtop 是一个工程的系统开发包,对Apache Hadoop生态系统的测试。Bigtop的主要目标就是构建一个Apache Hadoop生态系统的包和交互式测试的社区。这个包括对各类不同级别工程进行测试(包,平台,运行时间,升级等...),它由社区以关注系统作为一个整体开发而来。克隆源代码,查看相关组件git clone https://github.com/apa...原创 2019-06-11 17:50:42 · 5296 阅读 · 0 评论 -
编译Streamsets源代码报错问题
执行这个命令是成功的 mvn package -Pdist,ui -DskipTests但是执行这个命令失败了 mvn idea:idea错误信息如下:[ERROR] Failed to execute goal on project streamsets-datacollector-jdbc-lib: Could not resolve dependencies for p...原创 2019-06-11 17:50:27 · 1523 阅读 · 7 评论 -
Presto优化方法
我们针对presto主要优化了以下方面:1.合并store_sales表里面的152小文件到38个文件,每个250M; ALTER TABLE store_sales CONCATENATE2.把presto的jvm内存,默认调整过系统的50%3.修改了join的默认PARTITIONED改成AUTOMATIC。是想通过CBO的优化策略,在有较小的表情况下,通过BROADCAST策略来...原创 2019-06-11 17:52:01 · 1516 阅读 · 0 评论 -
Presto和Alluxio结合使用
1.下载prestohttps://prestodb.io/docs/current/installation/deployment.htmlpresto-server-0.215.tar.gz2.解压cd /opt/prestotar xvf presto-server-0.215.tar.gz3.配置cd presto-server-0.215mkdir...原创 2019-06-11 17:52:28 · 1616 阅读 · 0 评论 -
Presto和Redis结合使用
官方文档:https://prestodb.io/docs/current/connector/redis.html说明:版本Redis 2.8.0+不支持redis cluster只支持Redis string 和 hash类型的 value,不支持 sets 和 zsets 类型的value1.安装redismkdir /data/rediscd /data/re...原创 2019-06-11 17:52:16 · 2226 阅读 · 0 评论 -
SparkSQL和Alluxio结合使用
1.先在hive配置文件中增加alluxio相关配置,然后再安装hive修改配置文件 playbooks/hive/vars.yml:#alluxioalluxio_path: "/opt/alluxio-1.8.1"alluxio_zookeeper_address: "192.168.6.12:2181,192.168.6.13:2181,192.168.6.14:2181"...原创 2019-06-24 08:51:26 · 611 阅读 · 0 评论 -
Spark和Alluxio测试
使用anisble配置好的脚本安装环境:zookeeperhadoopsparkalluxio先修改一下配置文件:修改alluxio的配置文件/opt/alluxio/roles/install-alluxio/templates/alluxio-site.properties.j2:alluxio.zookeeper.enabled=false#true...原创 2019-06-24 08:53:10 · 655 阅读 · 0 评论 -
CrateDB单机版和集群版安装
这里安装的是 crate-ce-4.0.0 ,必须使用java 11版本从Oracle官网下载解压安装即可,下载地址:https://crate.io/download/vim ~/.bash_profile添加如下内容JAVA_HOME=/home/crate/jdk-11.0.3/PATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/...原创 2019-07-08 09:42:36 · 2666 阅读 · 0 评论 -
华为的FusionInsight智能数据生态地图
参考文档:https://fusioninsight.github.io/ecosystem/zh-hans/FusionInsight支持开源标准的Hadoop接口,可以与以下第三方工具进行对接。主要有几大模块及支持的工具:数据可视化:Tableau、QlikView、QlikSense、SmartBI、Oracle BIEE、IBM Cognos数据分析:SAS Access ...原创 2019-09-17 14:00:36 · 1963 阅读 · 0 评论 -
测试解析Cassandra数据文件的项目Aegisthus
这个Netflix开源的一个项目,Aegisthus已经转换为维护模式,它仍然用于Netflix的ETL,但是它不会进一步发展。项目地址:https://github.com/Netflix/aegisthus1、首先克隆代码到本地git clone https://github.com/Netflix/aegisthus.git2、编译./gradlew build...原创 2019-05-24 14:09:32 · 221 阅读 · 0 评论 -
Presto编译安装和测试连接Hive
1.下载源码: git clone https://github.com/prestodb/presto.gitmvn clean install -DskipTests 在Windows环境下编译报错未解决在Linux环境下编译成功2.安装这里安装使用的不是自己编译的,而是安装官网文档操作,并下载的安装包。注意:需要jdk版本 java 8 u92+,否则会报...原创 2019-05-28 14:03:32 · 1592 阅读 · 0 评论 -
Kylin编译部署及汉化
一、下载git clonehttps://github.com/apache/kylin.git二、编译1、编译mvn clean install -DskipTests2、复制文件cp -r server/src/main/webapp/WEB-INF webapp/app/WEB-INF3、安装bowercd webappnpm install -...原创 2019-05-28 11:55:54 · 2058 阅读 · 4 评论 -
Hadoop 集群维护过程中遇到的报错信息和解决办法
1、Connection failed: [Errno 111] Connection refused to XXX:16030在ambari上启动某台主机上的regionserver时,启动不了,同时在主机上的/var/log/hbase/ 目录中有日志产生。日志hbase-hbase-regionserver-XXX.log 中新增内容:2016年 11月 30日 星期三 10:06...原创 2019-05-27 14:04:31 · 11634 阅读 · 1 评论 -
测试presto benchmark
1、下载https://repo1.maven.org/maven2/com/facebook/presto/presto-benchmark-driver/0.216/presto-benchmark-driver-0.216-executable.jar2、修改文件名mv presto-benchmark-driver-0.216-executable.jar pres...原创 2019-05-21 17:57:39 · 878 阅读 · 0 评论 -
安装Presto单机版
1.下载presto安装包https://prestodb.io/docs/current/installation/deployment.htmlpresto-server-0.215.tar.gz#上传到192.168.6.12 /opt/presto目录下scp presto-server-0.215.tar.gz root@192.168.6.12:/opt/presto...原创 2019-05-21 17:50:36 · 894 阅读 · 0 评论 -
安装Redis Cluster集群版
在4台服务器上安装1、创建目录useradd redismkdir /data/redis_clustercd /data/redis_clustermkdir conf pidfiles log data script2、解压安装包tar -xzvf redis-4.0.11.tar.gz3、编译安装cd redis-4.0.11makema...原创 2019-05-21 17:47:02 · 266 阅读 · 0 评论 -
安装redis单机版
1.创建redis相关目录mkdir /data/rediscd /data/redismkdir conf pidfiles log data script2、解压安装文件cd /opt/redistar -xzvf redis-4.0.11.tar.gz3、编译安装cd redis-4.0.11makemake testmake install ...原创 2019-05-21 17:23:49 · 124 阅读 · 0 评论 -
安装BigTop编译的Alluxio
1、安装alluxio#在hdp1-hdp5安装yum install alluxio -y2、修改配置文件#修改 /etc/alluxio/conf/alluxio-site.propertiesalluxio.zookeeper.enabled=truealluxio.zookeeper.address=hdp1:2181,hdp2:2181,hdp3:2181...原创 2019-05-24 14:01:02 · 372 阅读 · 0 评论 -
安装BigTop编译的Hive
1、安装Hive在hdp1yum install hive#会安装以下包Downloading packages:(1/3): hadoop-client-3.1.1-1.el7.x86_64.rpm (2/3): hive-...原创 2019-05-24 13:56:42 · 530 阅读 · 0 评论 -
安装BigTop编译的Hadoop3.1.1版本过程记录
本文记录安装编译后的rpm包的过程,主要是在不同主机上分配好需要安装的服务,使用yum命令安装,然后修改对应的配置文件,最后启动服务即可。1、前期准备主要包括主机的设置方面,配置主机名、IP和主机名映射、关闭防火墙等#关闭防火墙hostnamectl set-hostname hdp1#修改主机名172.16.25.139 hdp1172.16.25.140 hdp217...原创 2019-05-24 11:51:57 · 1882 阅读 · 2 评论 -
测试CarbonData
官方文档:http://carbondata.apache.org/documentation.html可用从官网下载对应hadoop和spark版本的jar包,也可以自己编译需要的版本。这里测试的版本:hadoop 2.7.2spark 2.1.01、先测试spark-shell下是否可用//启动spark-shellbin/spark-shell --jars ...原创 2019-05-20 18:34:55 · 603 阅读 · 0 评论 -
SparkSQL和Alluxio环境配置和测试
1. 修改配置文件:1.1 修改alluxio的配置文件roles/install-alluxio/templates/alluxio-site.properties.j2:alluxio.zookeeper.enabled=truealluxio.zookeeper.address={{ groups['zookeeper'][0] }}:2181,{{ groups['zoo...原创 2019-05-20 18:14:34 · 236 阅读 · 0 评论 -
hive的永久性udf函数
1、在开发工具中编辑实现函数的代码,完成之后编译打包成jar包,上传到主机XXX的/opt目录下2、在XXX上传本地文件medUdf-0.0.1.jar到hdfs目录/hiveJar下hadoop fs -put /opt/medUdf-0.0.1.jar /hiveJar3、在hive命令行下执行语句,创建hive的永久性udf函数create function def...原创 2019-05-27 14:08:46 · 1426 阅读 · 0 评论 -
airflow汉化处理过程记录
1、汉化资料如果想对airflow进行国际化,请参考如下链接进行配置,参考这个页面做完了之后会自动汉化一部分:http://flask-admin.readthedocs.io/en/v1.1.0/localization/下面是一些页面的路径信息:普通页面位置:/root/anaconda2/lib/python2.7/site-packages/airflow/www/templa...原创 2019-05-27 14:15:19 · 2637 阅读 · 1 评论 -
atlas汉化
界面汉化首先要找到页面文件夹目录,然后修改其中的对应字段为中文即可。一、页面目录:1、html页面目录incubator-atlas\dashboardv2\public\js\templates2、js脚本incubator-atlas\dashboardv2\public\js3、登录页面incubator-atlas\webapp\src\main\webapp\log...原创 2019-05-27 14:16:48 · 3000 阅读 · 0 评论 -
Jieba作为分词器与Elasticsearch集成
在github上找到相关项目,https://github.com/sing1ee/elasticsearch-jieba-plugin,支持5.X版本的es。在165主机上部署的是5.2.2版本的es,下载对应的elasticsearch-jieba-plugin 版本支持两种analyzer:jieba_index: 用于索引分词,分词粒度较细jieba_search:...原创 2019-05-28 11:17:58 · 3886 阅读 · 0 评论 -
Streamsets使用过程中遇到的问题及解决办法
1、streamsets添加外部jar包时报错界面上加载不出来stageLibrary,后台日志报错: java.net.UnknownHostException: archives.streamsets.com网上找的类似的问题,但没有给出解决办法:https://issues.streamsets.com/browse/SDC-10236?page=com.atlassian....原创 2019-05-28 10:57:48 · 9484 阅读 · 11 评论 -
从Apache Kafka读数据写入TimescaleDB的案例
原文链接:https://streamsets.com/blog/ingesting-data-apache-kafka-timescaledb/作者:Pat Patterson 2019年5月28日 StreamSets新闻时间序列数据库时间序列数据库经过优化,可以处理按时间索引的数据,有效地处理特定时间范围内的数据查询。市场上有几个时间序列数据库,事实上,Data Collect...翻译 2019-06-03 15:45:11 · 1159 阅读 · 0 评论 -
使用Neo4j可视化和分析Salesforce数据
原文链接:https://streamsets.com/blog/visualizing-analyzing-salesforce-data-neo4j/作者:Pat Patterson 2017年5月16日 工程图形数据库通过节点、边、属性来表示和存储数据,允许快速、轻松地检索可能难以在传统关系数据库中建模的复杂层次结构。Neo4j是一个广泛部署在社区中的开源图形数据库;在本博客文章...翻译 2019-06-03 15:45:00 · 782 阅读 · 0 评论 -
改写Cassandra自带的SSTableExport类相关报错信息及解决办法
下面这些错误是在改写Cassandra自带的SSTableExport类的过程中遇到的错误信息及解决办法,相关代码在GitHub上,有兴趣的话可以查看,地址:https://github.com/WanZhang1/SSTableExport1、加载schemaException in thread "main" java.lang.RuntimeException: Attemp...原创 2019-05-23 09:02:26 · 418 阅读 · 1 评论