- 博客(17)
- 收藏
- 关注
原创 水利水电行业之主数据识别
尽信书,不如不读书”这句话源自古代中国的一句俗语,其含义是告诫我们不能完全依赖书本上的知识,而应该结合实际情况进行思考和判断。在大数据开发领域,这句话同样适用。以上愚见,往大家多批评指正,共同交流促进水利行业大数据发展。
2024-05-08 11:19:05
976
1
原创 flink集群Standalone模式部署
示例:scp -r /opt/flink/flink-1.17.2 /opt/flink/flink-1.17.2【这里是我的安装目录,目录根据自己安装的目录修改】ssh-copy-id -i ~/.ssh/id_rsa.pub 需要免密的机器IP(注意:包含本机,三台服务器都要分发)示例:ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.119.110。进入conf目录修改flink-conf.yaml、master、worker三个文件。##master文件修改内容。
2024-02-29 17:35:09
1064
2
原创 dinky flinkcdc 同步mysql到doris时间类型datetime入doris时间类型datetime报错
mysql 同步doris 时间类型报错
2024-01-25 09:12:48
1021
原创 Dinky注册flink集群执行flink作业报错-ERROR:java.lang.NoClassDefFoundError
dinky+flink执行flink作业报错
2024-01-16 17:28:25
1063
1
原创 python安装surprise报错C++ Build Tools
Q1、python安装后无法执行python\pip命令A:需要配置系统环境变量,添加安装目录至系统变量即可Q2、无法安装surprise推荐算法库 提示C++ build tools 错误A:因为surprise需要microsoft Visual C++ 14.0编译,所以需要安装这个库。下载地址:链接: https://pan.baidu.com/s/19F4YurwwZ5A9WF5txzMZoQ密码: ka7qscikit-surprise安装方法:安装microsoft Visual
2021-10-21 18:19:58
546
原创 国内某头部跨境电商公司数仓重构之路 2021-09-09
文章目录一、从通信行业到跨境电商二、重构之前的数仓现状三、数仓重构之路二、使用步骤1.引入库2.读入数据总结一、从通信行业到跨境电商 年初换工作到现在也有小半年了,接手了一个跨境电商公司的数仓重构项目,在通信行业8年的工作经验(从O域到M域再到B域的数据处理经验)让我觉得任何数据及业务都可以玩转,显然我的想法太年轻了,被狠狠的教育了一把(下文会说明原因)。跳出舒适圈,离开自己熟悉的业务,开始一个全新的行业探索,可以给自己的职业生涯带了一些新的激情,就像刚参加工作是的状态,无限的求知欲是力量的源泉 .
2021-09-09 10:04:30
815
原创 阿里云-MaxComputer学习+踩坑 第087天 - 数据治理探索
文章目录前言一、数据治理是什么?二、平台系统是人管理意识的具象化1.数据质量管理流程2.事后学习改进总结前言经过有条不紊的3个月离线数仓的建设,目前公司离线数仓初步阶段已经完成,离线数据已经接入除财务数据的全部核心数据,模型已经开发完成,数据验证也接近尾声,后续就是常规日常需求支撑及开展实时数仓的建设(实时数仓目前正在技术选型阶段和架构设计阶段,后续细聊实时数仓建设心得),目前需要保障离线数仓数据的产出及准确性,话不多说,下面聊数据治理提示:以下是本篇文章正文内容,下面案例可供参考一、数据治..
2021-07-19 15:56:57
510
原创 MySQL 开发准则
转载:MySQL 开发准则(总结自阿里巴巴开发手册)命名规范【强制】对象名称必须用小写或者小写、下划线、数字组成。name;user_name;【强制】对象名称禁止使用 MySQL 保留关键字。如 ORDER 等【强制】对象名称要见名知其意,不要超过 32 个字符。nick_name,student_age,create_time【强制】临时表要以 tmp 为前缀,日期为后缀。tmp_export_user_20200721【强制】备份表要以 bak 为前缀,日期为后缀。bak_use
2021-07-02 14:16:59
134
原创 阿里云-MaxComputer学习+踩坑 第026天 - userAgent用户代理信息解析
文章目录前言一、字符串二、注册函数总结前言MaxCompute 自建函数解析userAgent用户信息代理,功能可实现,但效率太低,不知道后台到底什么逻辑,附上JAR包(导入后注册函数可用),但请大神们谨慎使用,我不到一分钟的任务,加上这个函数后半小时跑7%进度,蜗牛一般的速度一、字符串处理的字符串:Mozilla/5.0 (Linux; Android 10; SO-02L Build/53.1.B.0.474; wv) AppleWebKit/537.36 (KHTML, like ..
2021-05-20 14:11:42
472
1
原创 阿里云-MaxComputer学习+踩坑 第026天 - BASE64编码解码 +URL反向解码
文章目录前言一、GET_JSON_OBJECT二、BASE64/UNBASE64总结前言最近一直在处理公司商城的埋点日志,涉及很多JSON字符串的解析,还有URL的解析,结合这几天的摸索说些阿里云官方文档中没有的内容,涉及函数GET_JSON_OBJECT/BASE64/UNBASE64/URL_DECODE一、GET_JSON_OBJECTJSON字符串解析函数,如果是标准的json字符串可以很好的解析,如果不标准那就转换标准,改截取截取,改嵌套嵌套,没啥说的二、BASE64/UNBA..
2021-05-18 19:27:33
991
原创 阿里云-MaxComputer学习+踩坑 第022天 - 基于MC的时间维表实现
文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimpor..
2021-05-15 09:45:17
1140
原创 2021-04-30
阿里云-MaxComputer学习+踩坑 第007天文章目录前言一、书接上回二、老师傅遇到新问题1.OSS对象存储三、平台使用踩坑指南1.DATAWORKS 数据集成不足之处总结前言由于最近几天比较忙(比较懒)一直没有更新,项目实施在盲人摸象中一步步推进,既有平台使用大坑,又有新团队磨合的小插曲。接下来说说近一周的踩坑之路一、书接上回分区建表规范:每个分区的数据量上没有要求,注意不要太大(切忌把全量数据扔进一个分区里面),每次读取不必要的数据消耗计算资源。但也不要太小,搞太多太细的分区会使得小
2021-04-30 16:30:21
807
2
原创 阿里云-MaxComputer学习+踩坑 第001天
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、DataWorks是什么?二、MaxComputer是什么?1.产品介绍2.表分区规范3.官方分区文档总结前言由于公司(一家蒸蒸日上的小跨境电商公司)业务快速增长,之前的数仓一直在MySQL+TIDB中构建,目前业务支撑遇到瓶颈,公司准备上马数据中台,领导一拍脑袋就是要自建平台,服务器都买了十几台(要在机房吃灰了),最后考虑再三,还是引入现有产品,接触了几家云平台厂商,最后确定使用阿里云的数据平台DataWorks了
2021-04-23 18:55:05
3225
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人