
数据ETL相关
未竟
这个作者很懒,什么都没留下…
展开
-
迁移ElasticSearch老集群中的数据到新集群
思路:在网上查找迁移方法,发现elasticdump工具可以实现数据迁移,故安装测试。在一台能够同时访问新老集群的Windows电脑中安装elasticdump工具,然后执行命令即可,具体步骤如下:原创 2021-06-19 18:46:55 · 551 阅读 · 3 评论 -
kettle写入hdfs报错问题--HA集群主节点写错导致无法创建目录
报错信息如下,解决办法就是找到真正的active的主节点ip,修改后即可原创 2020-08-06 16:08:58 · 481 阅读 · 0 评论 -
Kettle:Job Entry Specific FAQ
Available FAQ for job entries:Shell Job Entry FAQHow to check for the return code of a shell script/batch file?The Shell script considers a return code of 0 to mean success, anything else is fail...原创 2019-11-30 14:35:33 · 223 阅读 · 0 评论 -
Kettle使用过程中遇到的问题(持续更新)
一、Oracle相关问题1、连接Oracle报错(暂未解决)IO错误:远程主机强迫关闭了一个现有的连接,authentication lapse 0 ms问题分析:我用plsql连接 报了一个 ora-12547 tns 丢失连接,上网查了一下 是oracle监听没起来。我在本地可以登上 但是到虚拟机上 使用的是映射的ip登录 就报了一个tns丢失连接。其他数据库映...原创 2019-11-30 12:55:16 · 3440 阅读 · 0 评论 -
编译Streamsets源代码报错问题
执行这个命令是成功的 mvn package -Pdist,ui -DskipTests但是执行这个命令失败了 mvn idea:idea错误信息如下:[ERROR] Failed to execute goal on project streamsets-datacollector-jdbc-lib: Could not resolve dependencies for p...原创 2019-06-11 17:50:27 · 1523 阅读 · 7 评论 -
Streamsets自定义组件开发
需求痛点在实际项目的使用过程中,有些情况下现有的组件不能完全满足具体的业务需求,比如JDBC插入数据不是真正的batch提交的、较低版本的没有提供FieldMapper和FTP/SFTP写入客户端等。这就需要我们自己编写需要的组件实现想要的功能。开发步骤按照官方文档提供的指南实现起来还是很容易的,下面就以JdbcQueryExecutor为例,详细介绍一下自定义开发的过程: #...原创 2019-05-21 16:51:29 · 3562 阅读 · 15 评论 -
使用Neo4j可视化和分析Salesforce数据
原文链接:https://streamsets.com/blog/visualizing-analyzing-salesforce-data-neo4j/作者:Pat Patterson 2017年5月16日 工程图形数据库通过节点、边、属性来表示和存储数据,允许快速、轻松地检索可能难以在传统关系数据库中建模的复杂层次结构。Neo4j是一个广泛部署在社区中的开源图形数据库;在本博客文章...翻译 2019-06-03 15:45:00 · 782 阅读 · 0 评论 -
从Apache Kafka读数据写入TimescaleDB的案例
原文链接:https://streamsets.com/blog/ingesting-data-apache-kafka-timescaledb/作者:Pat Patterson 2019年5月28日 StreamSets新闻时间序列数据库时间序列数据库经过优化,可以处理按时间索引的数据,有效地处理特定时间范围内的数据查询。市场上有几个时间序列数据库,事实上,Data Collect...翻译 2019-06-03 15:45:11 · 1159 阅读 · 0 评论 -
Streamsets使用过程中遇到的问题及解决办法
1、streamsets添加外部jar包时报错界面上加载不出来stageLibrary,后台日志报错: java.net.UnknownHostException: archives.streamsets.com网上找的类似的问题,但没有给出解决办法:https://issues.streamsets.com/browse/SDC-10236?page=com.atlassian....原创 2019-05-28 10:57:48 · 9484 阅读 · 11 评论 -
在Streamsets中使用TensorFlow进行实时机器学习
原文链接:https://streamsets.com/blog/machine-learning-with-tensorflow-and-kafka-in-data-collector作者:Dash Desai / 2018年10月18日 /工程,StreamSets新闻 只有当业务用户和应用程序能够从一系列来源访问原始和聚合数据并及时生成数据驱动的洞察时,才能实...翻译 2019-05-29 11:51:17 · 795 阅读 · 0 评论 -
使用Streamsets实现TensorFlow的二分类
原文链接:https://streamsets.com/blog/binary-classification-of-streaming-data-using-tensorflow-to-adls-gen1-and-adls-gen2/作者:Rupal Shah2019年5月2日/StreamSets新闻在过去的十年中,数字化转型已经发展,每个系统和设备都有数字化的线索:从IT服务器...翻译 2019-05-29 11:58:52 · 391 阅读 · 0 评论 -
使用sqoop从pg导入hive
1、第一次导入全量数据sqoop import --connect jdbc:postgresql://ip:5432/dc_centerdb_xy --username dc_center_xy --password pg123 --verbose -m 5 --split-by ccc_dx_etl_time --table anaphylaxis_info --hive-impo...原创 2016-11-22 10:20:41 · 3701 阅读 · 0 评论