
大数据+AI
文章平均质量分 84
200_OK
whisky!whisky!
展开
-
大数据_flink交易监控_Flink+ML
Flink是一个开源的,专为高吞吐、低延迟的连续数据处理而设计。它的独特之处在于将批处理视为流处理的特例,提供统一的编程模型。原创 2025-04-15 15:37:31 · 944 阅读 · 0 评论 -
大数据_spark金融交易监测-随机森林算法
机器学习算法不能直接处理原始的表格数据,需要将多个特征列合并为一个"特征向量"。这就是的作用。【转换前】| 金额 | 时间 | 风险分 |【转换后】// 使用随机森林算法这里选择了随机森林算法来区分正常交易和欺诈交易。随机森林是一种集成学习算法,由多棵决策树组成。就像一片"森林"中有很多"树"一样,每棵树独立投票,最终取多数票作为结果。每位专家(决策树)只看部分资料(特征子集)每位专家有不同专长(随机性)最终通过"投票"做出集体决策(集成学习)原创 2025-04-15 15:36:50 · 704 阅读 · 0 评论 -
大数据_hive电商数据分析
依赖关系: Hive依赖MapReduce进行底层计算抽象层次: Hive是高层抽象,屏蔽了MapReduce复杂性面向用户: Hive面向SQL用户,MapReduce面向Java开发者执行模式: Hive查询最终会转换为一个或多个MapReduce作业执行当使用Hive执行查询时,实际上是在间接使用MapReduce进行数据处理。这就是为什么理解MapReduce原理对于优化Hive查询也很重要。原创 2025-04-15 15:35:08 · 943 阅读 · 0 评论 -
大数据_mapreduce日志分析
假设我们有一个网站的访问日志,需要分析每个URL的访问量、平均响应时间和HTTP状态码分布。原创 2025-04-15 15:32:11 · 207 阅读 · 0 评论 -
大数据计算资源基础知识,以及5个核心技术讲解(hadoop、mapreduce、hive、spark、flink)
大数据处理面临的主要挑战是数据量太大,无法在单台机器上高效处理。因此,需要分布式系统将数据和计算任务分散到多台机器上协同完成。根据处理方式和应用场景的不同,发展出了不同类型的计算资源。原创 2025-04-15 15:31:18 · 1061 阅读 · 0 评论 -
什么是数据血缘?以及具体案例解析
数据血缘是指数据从产生到消亡的整个生命周期中,记录数据流转、变化和影响关系的一种方法。简单来说,它就像是数据的"家谱",清晰展示数据从哪里来,经过哪些转换,最终去向何处。原创 2025-03-31 11:13:15 · 586 阅读 · 0 评论