
大数据挖掘与大数据应用案例
文章平均质量分 58
本专栏结合作者多年开发经验,将自己学习大数据时候学到的技术以及问题写成博文,主要分享大数据应用、大数据算法、大数据挖掘与大数据应用案例等。
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
杨鑫newlfe
算法就是我的灵魂
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入浅出理解什么是HTAP
关于HTAPHTAP(Hybrid Transactional/Analytical Processing)混合事务 / 分析处理。这里的HTAP就是常见的比较经典的OLAP和OLTP的处理场景的结合体。即可解决OLTP在线事务处理场景,还可以解决OLAP在线分析场景。Gartner也认为HTAP数据库将成为数据库领域的一个重要的发展趋势,一个集成的数据平台将会加速数字化转型。HTAP的概念最早在2014年Gartner的报告中提出这一概念,《混合事务/分析处理促进重大商业创新》。对于这个HTA原创 2022-05-12 01:13:09 · 17898 阅读 · 0 评论 -
新一代流式数据湖平台 Apache Hudi学习笔记 - 基础知识&定义
什么是Hudi?使用Hudi管理数据和基本概念理解,不处理和使用。仅是管理数据。发稿时,当前最新版本是V0.10.0为什么学习Apache HudiHudi是一个数据湖的框架。通过目录和表(分区,列式存储)进行管理。诞生于Uber并开源。数据仓库Data Warehouse 简称数仓、DW,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,分析结果是为企业提供决策支持(Decision Support)。数据仓库的特点是.原创 2022-04-18 22:33:50 · 486 阅读 · 0 评论 -
WhitespaceAnalyzer方法的使用
对于这个分词器,我的有一篇博客写了大概的简介(对于像我一样的新手,最好看一下),分词器文章链接:http://blog.youkuaiyun.com/u012965373/article/details/44870855如果你已经懂了分词器的功能,那么这里是代码:/** Lucene核心的分词器的结构在这里基本可以分成两种* 一是:* TokenFilter可以和别的TokenFilter嵌套在一起使用,* 形成一个嵌套的管道过滤器的结构;* 二是:* TokenFi...原创 2020-05-15 17:45:32 · 2539 阅读 · 0 评论 -
Kafka学习笔记 --- Kafka的TimingWheel时间轮/调度笔记
概念介绍在kafka中,有许多请求并不是立即返回,而且处理完一些异步操作或者等待某些条件达成后才返回,这些请求一般都会带有timeout参数,表示如果timeout时间后服务端还不满足返回的条件,就判定此次请求为超时,这时候kafka同样要返回超时的响应给客户端,这样客户端才知道此次请求超时了。比如ack=-1的producer请求,就需要等待所有的isr备份完成了才可以返回给客户端,或者到达timeout时间了返回超时响应给客户端。上面的场景,可以用延迟任务来实现。也就是定义一个任务,在t原创 2022-03-02 08:27:36 · 1797 阅读 · 1 评论 -
《数据仓库工具箱 - 纬度建模权威指南》--- 第一章 数据仓库、商业智能及纬度建模初步读书笔记
简述:该章节主要的讨论点: DW/BI的业务驱动目标 发布DW/BI系统的隐喻 维度建模和新概念以及涉及的主要词汇,包括事实表于维度表 Kimball DW/BI 架构的组件与原则 不同DW/BI架构的比较研究,维度建模在不同架构中所扮演的角色 文章主干:一、数据获取与数据分析的区别二、数据仓库与商业智能的目标三、纬度建模简介四、Kimball的DW/BI架构五、其他DW/BI架构六、维度建模神话一、数据获取与数据原创 2021-10-07 15:59:27 · 653 阅读 · 0 评论 -
准确率、召回率、F1值的思考
简述概念准确率(Accuracy)准确率(ACC), 所有预测正确的占总样本的比重。精确率/查准率(Precision)精确率(P):精确率/查准率,表示正确预测为正的占全部预测为正的比例。对某一类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比。召回率(Recall)召回率/查全率,表示正确预测为正的占全部实际为正的比例。对某一类别而言为正确预测为该类别的样本数与该类别的总样本数之比。F1值F1值:F1值为精确率和召回率的调和平均数,值越大越好。原创 2021-07-19 23:07:56 · 4778 阅读 · 0 评论 -
大数据架构演进历史小记
简述 从古人开始记录事件,到电子化时代的数据产生,都是从时间/事件/主题/维度等角度进行基础积累多种形态的数据存储需求。经典的几种架构可以拆分出来离线、实时、流批一体、OLAP、OLTP、分析、计算等经典模块。我们在解决了ETL/ELT问题之后,又增加了对数据进行分析的需求,同时基于业务数据特征和算法的特点,可以再次对数据进行深层次的分析和挖掘。达到业务数据价值最大化的目的。那么怎么快速的理解他们呢?架构演进 第一阶段:数据文件 (古代)我们常见的账本、石子、物品等...原创 2021-06-21 00:00:40 · 813 阅读 · 2 评论 -
数据架构在公司发展的历程节点
我们无论在谈论数据平台、数据仓库、还是数据湖以及数据中台。都是一个公司数据架构或业务发展的必经阶段,这里我梳理下我之前经历过公司的数据发展历程。第一期:原始需求,需要查看业务数据的离线报表。一般使用Python脚本编写,连接业务从库,获取数据组装成为Excel利用邮件发出。第二期:由于开发速度慢,业务越来越多,通常要写上千行的SQL,维护成本极高。因此开发了邮件报表系统。第三期:参数分析的数据量越来越大,单独的对业务从库查询并不能满足需求。隐私考虑使用分布式存储的数据仓库Hiv...原创 2021-03-28 17:07:04 · 577 阅读 · 0 评论 -
业务数据分层设计
数据分层 数据集成 维表数据 贴源数据 基础数据 汇总数据 基础指标 衍生指标 监管/战略/决策 数据服务体系 元数据管理 周期任务调度 数据质量管理 数据混淆系统 数据监控报警 数据治理体系 异常数据修复 干扰废弃数据 ..原创 2021-03-28 15:31:15 · 613 阅读 · 0 评论 -
记一次SQL左关联出现空结果的情况
前言 最近在用SQL统计数据的时候发现一个特别有意思的问题(剧透一下,我自己挖的坑),我在使用左关联的时发现结果竟是空。那么我们复现一下场景问题和问题的解决方案。过程 有如下一段左关联的SQL,t_xxx_1表是非空的数据集合,t_xxx_2 是一个空的数据集合,那么我们简单的就可以得出这个LEFT OUTER JOIN的结果是t_xxx_1的原始数据。对吗?不对....!!!SELECT t_1.id AS id, t_1.name A...原创 2021-02-26 00:05:29 · 2665 阅读 · 1 评论 -
用户画像 - 实现画像数据
我们一般可能会在数据仓库或者数据中台中构建画像相关的数据表,例如用户画像。 我们构建画像的时候很简单,可以通过事实表和维表来构建画像表。 思路-相关表如下 事实表(明细表)t_1 维表-1 t_2 (有与t_1关联的字段) 维表-2 t_3(有与t_1关联的字段) 维表-3 t_4 (有与t_1关联的字段) 维表-4 t_5(有与t_1关联的字段) ... 通过关...原创 2021-01-20 23:14:09 · 981 阅读 · 0 评论 -
数据工程师的开发自检素养
一、简述 在日常的快速开发和项目迭代工作中,我们通常以结果为导向开发完成各种需求,也处理各种上线前后的Bug。虽然目前有很多的自动化数据质量监测和检测工具,但对于自己开发产出的数据做自检是一个有素养的数据工程师必备的好习惯。我们通过自己的人肉质检可以在测试或预发环境以及上线前解决一些肉眼可见的小Bug,再经过多维度数据对比通常可以解决大部分易察觉的Bug。提高项目进度以及整体流程的时间把控,提升数据/项目质量。二、具体思路三、总结 目前很多自动化组件/...原创 2020-11-29 21:24:12 · 677 阅读 · 0 评论 -
脏数据清洗实践方案
一、概述 无论对于数据仓库/数据湖/数据中台,都会存在大量的脏数据,当我们在使用一张数据表时,发现其中出现大量的重复数据,活着其中的字段信息对应错误,原本ID:101 对应的name时YY,但实际存储的是XX,这种脏数据的场景就不举太多例子了肯定很常见。那么我来总结一个解决方案。 二、解决方案 现在有一张表t_1(按天分区全量),我们某一天发现t_1出现了概述中的提到的脏数据情况,那么我们大多数第一反应就是去找t_1_上游表,反馈给这个表的负责人(思路没问..原创 2020-11-22 12:44:26 · 2156 阅读 · 0 评论 -
数据中台学习笔记 --- 实战中的中台总结
关于中台的概念铺垫请参考前几篇的介绍:中台一中台二本篇主要叙述一下实际的中台是什么? 我们日常总听到的数据中台、业务中台、运营中台其实是跟我们所在的部门、事业部、事业群一样,都是人/数据/应用的集合; 对于大厂来说由于业务/数据快速发展到那一定成度,不是一个简单的数据仓库或者数据湖可以覆盖所有业务场景情况下提出的; 目的是为了解决人/数据/资源的高效运用和调度; 举个例子我们常见的中台在大厂中可以这样存在 例子一 人员原创 2020-11-12 23:46:57 · 806 阅读 · 0 评论 -
任务调度工具调研报告 --- Azkaban、Oozie、Airflow、DolphinScheduler
零、结论 这次分别调研了 Azkaban、Oozie、Airflow、DolphinScheduler 从四十多个角度来对比,作为程序员来看我会选择Azkaban来作为调度工具。不仅是为了收集相关元数据,支持复杂的依赖子任务的关系,还有二次开发或者开发对应的插件,以及监控报警等。 但是如果从可视化,易用的角度我会选择DophinScheduler; 一、需求 跑批任务调度; 脚本相关任务调度; 定时调度; SQL任务; 实时处理;..原创 2020-07-28 17:08:27 · 10369 阅读 · 7 评论 -
Azkaban执行目录产生小文件过多导致的问题
某天早上集群报警,磁盘、内存等报警,我一看发现如下图某个目录已经使用了100%,剩余0;然后我快速定位到了Azkaban出现了问题,某个目录下存有大量历史文件;该目录就是Azkaban的安装目录下/xxxxxxxxx/azkaban-executor-xxxxx/bin/executions/这些其实都是历史运行部分信息,但是随着Azkaban使用/更新的时长变多,慢慢累积了大量的小文件。导致磁盘空间不足;解决方案:这里我写了一个...原创 2020-07-01 11:40:13 · 898 阅读 · 0 评论 -
Sqoop导出Mysql报错主键冲突
2020-06-03 22:28:07,801 ERROR [Thread-12] org.apache.sqoop.mapreduce.AsyncSqlOutputFormat: Got exception in update thread: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Duplicate entry '1109883-2020-05-31 00:00:00' for key...原创 2020-06-04 12:54:02 · 1045 阅读 · 2 评论 -
Flume能否代替Canal实时同步Mysql的Binlog数据?
零、不废话先说结论 1.Flume不能代替Canal实时同步Mysql的Binlog数据(内部机制不支持); 2.Flume可以实现实时同步Mysql的数据(插件的方式); 下面是具体的结论理由推断; 一、Canal在同步Mysql的Binary log的作用 功能上看 1.master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,binary log events, ..原创 2020-06-01 00:03:19 · 3802 阅读 · 0 评论 -
源码分析 --- Spark如何确定Splits和分区数
一、结论: 默认情况下Splits和Task和Partition数是一一对应的,数量是一样的; 1.如果在没有指定分区数的时候,默认的是sc.defaultMinPartitions=min(sc.defaultParallelism,2)。也就是sc.defaultMinPartitions只有两个值1和2,当sc.defaultParallelism>1时值为2,当sc.defaultParallelism=1时,值为1; 2.如果是读取HDFS的文件的话,分区是当我们计原创 2020-05-29 16:27:33 · 1416 阅读 · 0 评论 -
源码分析 --- MapReduce如何确定任务的SplitSize、Splits、Map、Reduce
一、结论: 1.SplitsSize = Math.max(minSize, Math.min(maxSize, blockSize)) = 默认的Maxth.Max(minSize=1, Math.min(maxSize=Long的最大值,64或者128或者256M)) = 64M/128M/256M; 参数一:其中 minSize:long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(...原创 2020-05-28 23:43:59 · 605 阅读 · 0 评论 -
源码分析 --- HDFS 数据读、写操作流程和用户指令交互
一、这里首先介绍源码中的四个主要关键类(主要用于用户的hdfs dfs...命令交互实现、数据的读取、数据的写入) DFSClient: HDFS 客户端(如下是源码DFSClient类中的客户端说明信息,这里简述了使用ClientProtocol去访问NameNode线程以及连接DataNode数据目录去读写数据块); DFSClient can connect to a Hadoop Filesystem and perform..原创 2020-05-25 17:58:13 · 522 阅读 · 0 评论 -
源码分析 --- Kafka的幂等性机制和幂等性过程源码分析
一、什么是消息队列的幂等性? Kafka这里的幂等性指的是一般Producer发送了多少消息,consumer就消费了多少消息,保证了消费的唯一性,也是符合exactly-once语义的操作; 不会发生消息丢失或者消息重复的情况; 二、首先看一下Kafka的消息传输中的三种语义: 消息最多发送一次(At-Most-Once) 消息已经发出,不管收没收到,会存在消息丢失的情况; 通过配置实现 ..原创 2020-05-20 17:55:54 · 717 阅读 · 0 评论 -
CDH修改HDFS以及存储的副本数量由备份3到备份2
首先第一个问题,我们修改CDH的HDFS副本设置后,历史的备份3数据是否会删除,还是从设置后才开始遵守备份2的? 都需要操作哪些?好的,我们带着问题来具体操作一下;1.首先在CDH,HDFS中配置找到复制因子(dfs.replication),如下:将原有dfs.replication的值3 改为 2。2.然后所有服务列表会出现如下显示:3.我们只需要点击随意的一个flume或者hdfs或者其他服务的重启(包含配置分发)均可。4.等待成功重启后,我们就可以慢慢那么的看到HD.原创 2020-05-15 11:23:08 · 5688 阅读 · 1 评论 -
大数据技术生态体系图(基础版本)
原创 2020-05-07 01:14:01 · 1608 阅读 · 0 评论 -
Prometheus普罗米修斯调研笔记
项目简介: Prometheus是最初在SoundCloud上构建的开源系统监控和警报工具; 开源自2012年,许多公司和组织都采用了Prometheus,都拥有非常活跃的开发人员和用户社区; 现在它是一个独立的开源项目,2016年Prometheus在2016年加入了Cloud Native Computing Foundation,是继Kub...原创 2020-05-07 00:44:36 · 1549 阅读 · 0 评论 -
Hadoop学习笔记 - Hadoop 1 && 2的组成与区别
一、Hadoop 1.X 与 2.X区别与联系Hadoop 1.X Common(辅助工具) HDFS(数据存储) MapReduce(计算 + 资源调度) Hadoop 2.X Common(辅助工具) HDFS(数据存储) Yarn(资源调度) MapReduce(计算) 在Hadoop 1.X时代,Hadoop中...原创 2020-05-06 17:16:23 · 395 阅读 · 0 评论 -
大数据部门组织架构以及相关团队职能分析
数据相关分成五大体系 数据研发团队; 研发/执行 分析师辅助; 纯粹技术需求,ETL之类; 分析做实施执行工作; 工程化团队; 实现中台、数据平台等业务的技术实现; ...原创 2020-05-06 15:26:53 · 8410 阅读 · 1 评论 -
大数据部门组织架构(通用型)
数据平台组 集群运维、性能调优; 基础服务开发 搭建Hadoop、Spark等框架等组件; 基于Hadoop、Spark等的二次开发; 调研、对比服务升级等; 数据仓库组 数据建模 数据分析 ETL 数据挖掘...原创 2020-04-30 00:03:10 · 8993 阅读 · 3 评论 -
Sqoop根据字段的筛选条件导入Hive
我们这里使用参数--where "day>=20191001"来控制条件筛选,那么我们使用案例如下:sqoop import --connect jdbc:mysql://ip:3306/db——name --username user_name --password password -m 10 --table source_table --hive-import --...原创 2020-04-27 19:28:58 · 1166 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十六章、数据应用
本篇主要介绍两个应用:提供给外部商家使用的数据产品平台-生意参谋和服务于阿里巴巴内部的数据产品平台 一、生意参谋 作为大数据公司,阿里巴巴在推动业务数据化的同时,也在不断地帮助商家实现数据业务化。在对外产品方面,阿里巴巴以“生意参谋”作为官方统一的数据产品平台,为商家提供多种多样化,普惠性的数据赋能; 截止2016财年,生意参谋累计服务商家已超过2000万,越服务商家...原创 2020-04-16 14:58:17 · 716 阅读 · 2 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十五章、数据质量
随着IT向DT时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着极其重要的角色。而对于被日益重视的数据,如何保障其质量是一个关注的话题; 数据质量是数据分析结论有效性和准确性的基础,也是一切的前提。如何保障数字质量,确保数据可用性时阿里数据仓库建设不容忽视的环节。 一、数据质量保障原则 从四个方面评估 完整性 准确性...原创 2020-04-16 02:00:34 · 632 阅读 · 0 评论 -
Hive修改外部表分区名并且重命HDFS目录名字查询不到数据
问题描述: Hive创建的一张外部表 table_1, 有一个按照天增量存储的分区,dt=‘2020-04-01’我们通过 Hive 命令 ALTER TABLE 分区的名称修改为dt=‘2020-03-31’ ,我们也想把对应的HDFS目录改成dt=‘2020-03-31’但是发现查询的数据为空 ??? 原因: 由于是外部表,所以Hive的元数据记录与数据的...原创 2020-04-15 16:55:32 · 2712 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十四章、存储和成本管理
在大数据时代,移动互联、社交网络、数据分析、云服务等应用迅速普及,对数据中心提出了革命性的需求,存储管理已经成为了IT核心之一。对于数据爆炸式的增长,存储管理也要面临一系列挑战。如何有效地降低存储资源的消耗,节省存储成本,将是存储管理孜孜追求的目标; 一、数据压缩 在分布式文件系统中,为了提高数据的可用性与性能,通常会讲数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用...原创 2020-04-14 12:37:47 · 572 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十三章、计算管理
目前内部MaxCompute集群上有200多万个任务,每天存储资源、计算资源消耗都很大。如何降低资源的消耗,提高任务执行的性能,提升任务产出时间,是计算平台和ETL开发工程师孜孜追求的目标; 一、系统优化 Hadoop等分布式计算系统评估资源的方式,一般是根据输入数据量静态评估,Map任务用于处理输入,对于普通的Map任务,评估一般符合预期; 而对于Reduce任务,...原创 2020-04-12 22:46:18 · 607 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十二章、元数据
一、元数据概念 元数据定义 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程; 元数据主要记录数据仓库中的模型的定义、各层级间的映射关系、监控数据仓库的数据状态一级ETL的任务运行状态; 在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便的找到他们所...原创 2020-04-12 02:37:11 · 607 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十一章、事实表设计
本章节与上一章节第十章一样,都是本书最难理解的部分,建议如果有不理解的部分,可以先标记,后面实战后再消化。一、事实表基础 事实表特性 事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和于业务过程有关的度量; 事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表达:...原创 2020-04-08 01:35:50 · 640 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第十章、维度设计
零、写在前面此章节是我读到现在较难懂的一部分,如果数据仓库水平、处理的数据量、业务种类并不多的情况下,很多情况还是较难理解的,希望大家可以对不懂的地方多读些,欢迎交流讨论;内含拉链表,以及极限压缩等部分,对于数据仓库模型的优化很有帮助;一、维度设计基础 维度的基本概念 维度是维度建模的基础和灵魂; 在维度建模中,将度量称为“事实”,将环境称为...原创 2020-04-03 21:32:45 · 925 阅读 · 2 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第九章、阿里巴巴数据整合及管理体系
OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。 阿里巴巴大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面独特优势。借助这一统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公共层。 一、概述 阿里巴巴的大数据建设方法论的核心是: ...原创 2020-04-02 16:24:27 · 771 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第八章、大数据领域建模综述
一、为什么需要数据建模数据建模就是数据组织和存储方法,他强调从业务、数据存储和实用角度合理存储数据。有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处: 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐; 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本; 效率:良...原创 2020-04-01 16:46:21 · 551 阅读 · 0 评论 -
大数据之路、阿里巴巴大数据实践读书笔记 --- 第七章、数据挖掘
一、阿里巴巴算法平台框架和原理 算法平台计算框架MaxCompute MPI; 伏羲为阿里云飞天系统的分布式调度系统; 女娲为阿里云飞天系统的分布式一致性协同服务; 盘古为阿里云飞天喜听的分布式文件存储系统; 基于MaxCompute MPI,目前阿里巴巴的算法平台已经继承了攫夺大多数业界主流的机器学习算法 分类 ...原创 2020-03-31 21:01:53 · 707 阅读 · 0 评论