
数据湖
文章平均质量分 69
专注前言数据湖动态,提升自我
敏叔V587
吃货程序员一枚
展开
-
改良海量数据存储的若干的手段-转变数据垃圾为黄金
直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~在这里插入图片描述一开始数据湖信息在设计时并没有考虑未来的访问和分析,机构会发现这样的数据湖仅仅是数据量大而已,大部分数据并不能真正支持他们的业务原创 2022-11-18 21:05:17 · 539 阅读 · 0 评论 -
大数据技术人员的打怪升级之路
事实上我们一般是把自己说成是技术人员,而在我们的 下游还有一部分也是做数据的,消费我们的数据,我们会把他们才叫做数据人员,在大数据的成长之路上,利用技术手段加持你真正的数据链路,从这个层面来讲探索新的etl pattern,带来新的设计范式,打造行业规范,也是可以星辰大海的一件事情,也就不会觉得数据人这个称呼不大行了!!............原创 2022-07-21 23:00:55 · 443 阅读 · 0 评论 -
SecureCRT运行SparkShell 删除键出现乱码的解法
SecureCRT 通过spark-shell启动控制台之后发现没办法进行删除操作一直按删除健没用选择----->会话选项---->映射键---->勾选两个勾仿真---->终端选择linux乱码问题,调整一下编码记得重启一下,后面界面也会变成linux的画风哦...原创 2022-06-18 12:13:41 · 605 阅读 · 0 评论 -
数据湖架构之Hudi编译篇
说起编译hudi,从第一遍过之后,再回过头来看,发现就是第一遍不熟悉,出现的一切问题可以总结为maven仓库没配置好。一开始我只是配置了阿里云仓库,但是后面不断报错,然后百度谷歌找原因,再调整配置,再编译,最后就成功了,所以整体来说编译不复杂,只要配置正确,那我把最后可以通过的配置贴出来,这也是我觉得可以帮助到大部分同学的地方。hudi迭代还是比较快的,因为同时也依赖了hadoop和spark,为了组合使用,我使用的是0.9.0版本,对应地址:[https://hudi.apache.org/release原创 2022-06-18 02:40:26 · 1472 阅读 · 0 评论