
大数据架构
文章平均质量分 59
刘飞强丶Conan
这个作者很懒,什么都没留下…
展开
-
Flink Watermark概要
Watermark和代码是基于 Flink1.12版本的,概念相似。有时间会陆续完善Watermark包含几个重要的知识点抽时间积累点知识,网上文档很多,仅根据自己的理解,概括性的记录下名称: 水位线 , 水印都行,就一个名字而已下文中的事件,指代数据库记录,log日志,流量日志,度量信息等等Watermark应用场景,如果这两个场景不满足,则不太需要考虑Watermark1. window算子2. EventTime作为计算时间注:Flink有三个时间,Ingest原创 2022-05-21 18:42:10 · 443 阅读 · 0 评论 -
Hive任务超时报错 Invalid OperationHandle
一个奇怪的问题有个任务报错如下Invalid OperationHandle: OperationHandle [opType=EXECUTE_STATEMENT, getHandleIdentifier()=373ae075-499f-4ccf-a75b-43152be71c67]查看hiveserver2的日志2020-04-28 06:06:50,413 WARN org...原创 2020-04-28 10:46:16 · 12247 阅读 · 2 评论 -
训练集和测试集的区别
1、训练集和测试集一般来说,训练集用来估计模型中的参数,使模型能够反映现实,进而预测未来或其他未知的信息,而测试集用来评估模型的预测性能。例如:已知1000个小朋友的体重和身高数据,想建立体重与身高的线性回归模型。我们可以用900个小朋友的身高和体重数据(训练集)来拟合模型中的参数,进而预测另外100个小朋友的体重(已知身高数据),预测值和实际值的差别就可以用来衡量模型的预测性能(测试集是...转载 2020-02-19 15:44:44 · 43111 阅读 · 3 评论 -
海量数据高并发的访问技术解决方案
海量数据高并发的访问技术解决方案原创 2017-06-14 20:07:45 · 841 阅读 · 0 评论