B - 大数据、数据挖掘
文章平均质量分 71
总觉得大数据 “离自己远”“太复杂”?其实它藏在你工作生活的决策里!这专栏专拆大数据、数据挖掘干货 —— 不堆公式术语,只讲能用的:比如从销售数据找爆品、用用户数据抓需求,连小白都能看懂上手。每周更实操案例,帮你告别 “凭感觉”,用数据避坑、提效率。想借数据让做事更精准?快订阅,别错过数据驱动的实用
本本本添哥
奶爸的编程之路,也就一周冷个三天~
专门分享AI大模型/Java微服务/计算机软考/项目管理/个人成长/思维框架/效能工具等相关内容
欢迎关注我的公众号:本本本添哥
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【项目实战】Apache Spark 是一种通用的大数据处理框架,以其高性能、内存计算和多样化处理模式在大数据领域占据重要地位。
Apache Spark 则是一个批处理框架,它的设计理念是 “多次处理,多次计算”,也就是说,Spark 会将数据分成多个批次进行处理,每个批次都会进行一次计算。Spark 适用于大规模数据处理、批处理等场景,它的性能也非常高,可以支持每秒数千亿条数据的处理。支持批处理、流处理(Spark Streaming/Structured Streaming)、机器学习(MLlib)、图计算(GraphX)及 SQL 查询(Spark SQL),实现“一站式”数据处理。原创 2025-04-22 11:34:35 · 114 阅读 · 0 评论
-
【项目实战】Apache Flink,一个开源的实时计算的流处理框架,专为分布式、高性能、实时和准确的大规模数据流处理而设计
Apache Flink 是一个开源的流处理框架,专为分布式、高性能、实时和准确的大规模数据流处理而设计。Flink 支持有状态计算,并且可以在所有常见的集群环境中运行,它能够自动进行水平扩展并恢复失败。: 用于连续数据流的处理。: 用于批处理任务(在有限的数据集上)。: 用于识别事件序列中的模式。原创 2025-01-16 14:15:15 · 142 阅读 · 0 评论
-
【项目实战】Apache Oozie ,Hadoop 的工作流调度器,适合 Hadoop 生态系统内的任务调度。
Apache Oozie 是一个用于 Apache Hadoop 的工作流和协调服务。它使用户能够在 Hadoop 分布式文件系统 (HDFS) 和 MapReduce 上执行 Hadoop 作业和其他类型的任务,并按照预定的时间表协调它们。Oozie 可以帮助开发者构建复杂的数据管道和批处理工作流。原创 2024-09-12 21:45:49 · 672 阅读 · 0 评论
-
【项目实战】Azkaban,由 LinkedIn 开发的批处理作业调度器,专注于简单性和可靠性。
Azkaban 是一个批处理作业的调度器和工作流管理器,最初由 LinkedIn 开发并开源。它旨在为大数据处理提供一个简单、可靠的方式来组织和执行一系列批处理作业。Azkaban 支持在 Hadoop 环境中执行 MapReduce 作业、Pig 脚本、Hive 查询等。原创 2024-09-12 21:45:39 · 338 阅读 · 0 评论
-
【项目实战】分布式调度系统Apache Airflow,不仅简化了数据管道的构建和管理,还提供了丰富的功能来支持大规模数据处理需求。
Apache Airflow,是一个开源的平台。Apache Airflow,用于编排复杂的计算工作流。Apache Airflow,提供了一种直观的方式来定义、监控和管理数据管道,支持任务的依赖关系和重试机制。Apache Airflow,核心优势在于它的可扩展性和灵活性,能够处理大量的数据处理任务。Apache Airflow,在数据工程和自动化任务调度方面的有很重要的作用。Apache Airflow,不仅简化了数据管道的构建和管理,还提供了丰富的功能来支持大规模数据处理需求。原创 2024-09-12 21:35:47 · 306 阅读 · 0 评论
-
【项目实战】Apache BookKeeper 深度解析:分布式日志存储的核心技术与实践
Apache BookKeeper 作为分布式日志存储领域的 “可靠性标杆”,通过独特的架构设计、强一致性机制与容错能力,解决了大规模场景下 “数据不丢失、低延迟、可扩展” 的核心痛点。随着其在金融、互联网、物联网等行业的深入应用,以及社区对性能与功能的持续优化,BookKeeper 有望成为更多流处理与日志存储系统的底层支撑,推动分布式存储技术向更高可靠性、更低成本方向发展。原创 2025-10-16 09:32:22 · 40 阅读 · 0 评论 -
【项目实战】现代客户体验管理(CEM)的核心是通过整合全渠道数据(如行为数据、反馈数据),构建客户旅程的实时监测与分析闭环,实现基于数据的持续体验优化(参考HEART模型)。
现代客户体验管理(Customer Experience Management, CEM)是一套以,通过数字化工具、数据驱动和全旅程优化,系统性提升客户与企业交互过程中的满意度、忠诚度及生命周期价值(LTV)的战略与实践体系。它区别于传统“以产品/流程为中心”的服务模式,更强调对客户“情感需求+功能需求”的全面感知,以及对“售前-售中-售后-复购”全触点体验的闭环管理。原创 2025-09-30 15:03:44 · 136 阅读 · 0 评论 -
【经典面试题】《通用数据保护条例》(GDPR)全面介绍
GDPR通过强化个人数据权利、规范企业处理行为,重塑了全球数据保护的格局。对于企业而言,合规不仅是法律义务,更是建立用户信任的关键;对于个人而言,其赋予了数字化时代更有力的隐私保护工具。随着技术与社会需求的变化,GDPR的实践与解读仍在持续演进,需持续关注其最新动态与影响。GDPR通过一系列规定,旨在确保欧盟公民的个人数据在跨境传输过程中得到充分保护,防止数据被滥用或泄露。对于涉及欧盟市场或处理欧盟公民个人数据的企业来说,在进行数据出入境活动时,必须遵守GDPR的相关要求,以避免巨额罚款等法律后果。原创 2025-07-01 11:15:09 · 143 阅读 · 0 评论 -
【项目实战】Apache Doris 的版本迭代历史,Apache Doris 通过持续迭代,已从专用报表系统演变为支持湖仓一体、存算分离的云原生分析型数据库,广泛应用于实时数仓、日志分析等场景。
Apache Doris 的版本迭代历史可划分为多个关键阶段,Apache Doris 通过持续迭代,已从专用报表系统演变为支持湖仓一体、存算分离的云原生分析型数据库,广泛应用于实时数仓、日志分析、高并发查询等场景。原创 2025-04-30 10:41:50 · 228 阅读 · 0 评论 -
【项目实战】数据存储单位从小到大依次为: Byte(B)、KB(千字节)、MB(兆字节)、GB(吉字节)、TB(太字节)、PB(拍字节)、EB(艾字节)、ZB(泽字节)、YB(尧字节)。
这些单位在实际应用中帮助我们理解和衡量不同规模的数据存储需求。例如,一张普通照片可能占用几百KB的空间,而一部高清电影可能需要几十GB甚至更大的存储空间。随着科技的发展,数据量呈指数级增长,从TB级别跃升至PB、EB乃至ZB级别,这标志着我们已进入“大数据”时代。这些单位之间的换算关系是基于1024倍递增,即每个单位比前一个单位大1024倍。原创 2025-04-22 11:29:57 · 1049 阅读 · 0 评论 -
【项目实战】个人信息治理过程中,有效保护用户隐私的措施,有效保护用户隐私需结合法律框架、技术手段、管理制度、用户赋权及监管协同,形成多层次防护体系,确保个人信息在合法、安全的前提下实现价值利用。
在个人信息治理过程中,有效保护用户隐私的措施包括以下方面,有效保护用户隐私需结合法律框架、技术手段、管理制度、用户赋权及监管协同,形成多层次防护体系,确保个人信息在合法、安全的前提下实现价值利用。原创 2025-04-16 14:49:26 · 228 阅读 · 0 评论 -
【项目实战】数据库系统 - 数据仓库中常见的ETL(Extract-Transform-Load)工具介绍:Informatica
Informatica 是一种广泛应用于数据仓库中的 ETL(Extract-Transform-Load)工具,其核心功能是通过提取、转换和加载数据来实现数据集成和管理。Informatica 是一款功能全面且强大的 ETL 工具,广泛应用于数据仓库、商业智能和主数据管理等领域。其强大的数据处理能力、灵活的转换功能和广泛的连接器支持使其成为企业数据集成的首选工具之一。然而,在选择 Informatica 时,企业需要权衡其高昂的成本和复杂的学习曲线。原创 2025-03-18 09:54:03 · 275 阅读 · 0 评论 -
【项目实战】数据隐私与合规,数据保护法规GDPR《通用数据保护条例》,是欧盟制定的一部全面的数据保护法律。
严格遵守各国的数据保护法规,如GDPR、CCPA等,确保用户数据在与第三方生态应用交互过程中的安全传输与合规使用。取得必要的用户授权,并在隐私政策中清晰说明数据共享情况。GDPR是英文“General Data ProtectionRegulation”的缩写。GDPR由欧盟于2016年4月推出,并于2018年5月25日正式生效。GDPR目的在于遏制个人信息被滥用,保护个人隐私。GDPR通常翻译为“通用数据保护条例”原创 2024-07-24 16:47:55 · 564 阅读 · 0 评论 -
【人工智能】全球核心隐私保护法律法规(隐私保护框架)解析与企业合规指南解析欧盟GDPR、美国CCPA与HIPAA、中国《个人信息保护法》《网络安全法》四大核心法规
这些法律的差异体现了不同司法管辖区对隐私保护的优先级和监管思路,企业需结合自身业务场景制定合规策略。原创 2025-03-16 10:54:02 · 411 阅读 · 0 评论 -
【项目实战】FlinkCDC,是Apache Flink生态中的一项关键技术,旨在实现实时数据变更捕获与处理。
FlinkCDC,即Flink Change Data Capture。FlinkCDC,是Apache Flink生态中的一项关键技术,旨在实现实时数据变更捕获与处理。FlinkCDC,允许从关系型数据库中实时捕获插入、更新和删除事件,从而实现低延迟的数据同步。FlinkCDC,对于构建实时数据管道至关重要,因为它能确保源数据库中的任何变动都能迅速且准确地反映到目标系统中。FlinkCDC,为现代企业提供了高效、可靠且易于使用的工具,用于实现实时数据同步及分析。原创 2025-01-23 16:06:49 · 90 阅读 · 0 评论 -
【项目实战】知识图谱,使用图形数据结构来存储和展示实体之间的关系
知识图谱,是一种结构化的知识库。知识图谱,使用图形数据结构来存储和展示实体之间的关系。原创 2024-09-20 20:02:51 · 480 阅读 · 0 评论 -
【项目实战】大数据处理分析技术类型及其代表产品
大数据处理分析技术涵盖了多种不同的计算模式,每种模式都有其独特的优势和适用场景。大数据处理分析技术类型,实际上对应了不同的大数据计算模式。通过选择合适的计算模式,企业或组织可以有效地处理和分析大规模数据,以支持业务决策和优化运营效率。原创 2024-09-12 20:50:03 · 740 阅读 · 0 评论 -
【项目实战】解决Kafka消费速度慢,缓解/解决Kafka消息积压的问题
Kafka消息积压的问题确实会影响系统的性能和业务的正常运作,尤其是在需要保证消息实时处理的场景下。通过以下措施,可以有效缓解甚至解决Kafka消息积压的问题,从而保障系统的稳定性和业务的连续性。原创 2024-09-09 12:41:02 · 1365 阅读 · 0 评论 -
【项目实战】利用日志采集工具(如Cloudera的Flume等)把实时采集的数据作为流计算系统的输入进行实时处理分析
许多公司的业务平台每天都会产生大量的日志文件。日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和Web服务器记录的用户访问行为。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行采集,然后进行数据分析,就可以从公司业务平台日志数据中挖掘得到具有潜在价值的信息,为公司决策和公司后台服务器平台性能评估提供可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。原创 2024-08-25 08:35:22 · 140 阅读 · 0 评论 -
【项目实战】常见的数据仓库Impala
Impala,是Cloudera开发的一款开源的SQL查询引擎。Impala,为Hadoop环境提供了高性能、低延迟的查询能力。Impala,可以直接在Hadoop的HDFS和HBase上运行,而无需将数据移动到关系型数据库中。Impala,采用MPP(Massively Parallel Processing)架构。Impala,能够实现大规模并行处理,提供近实时的查询响应。原创 2024-08-09 09:35:46 · 595 阅读 · 0 评论 -
【项目实战】常见的数据仓库GreenPlum
Greenplum,是戴尔科技集团(Dell Technologies)旗下的Pivotal Software开发的一款企业级数据仓库产品。Greenplum,采用了MPP(Massively Parallel Processing)架构。Greenplum,专为处理PB级别的数据和复杂分析查询而设计。Greenplum,能够提供高性能的分析能力和数据密集型应用支持,使其成为大数据分析领域的领先解决方案之一。Greenplum,学习资源-Greenplum,参考文献-原创 2024-08-09 09:35:30 · 231 阅读 · 0 评论 -
【项目实战】公域数据与私域数据介绍
公域数据与私域数据的区分和管理有助于促进数据的合理使用和流通,确保数据安全与隐私保护,同时激发数据的价值和创新潜力。原创 2024-08-09 09:35:07 · 387 阅读 · 0 评论 -
【项目实战】Python 编程语言入门介绍
Python,是一种面向对象、解释型的高级编程语言。Python,是一种面向对象的解释型计算机程序设计语言。Python,以其代码的清晰性和可读性著称。Python,设计哲学强调代码的可读性和简洁的语法。Python,为多种编程范式(如面向对象、过程化、函数式和元编程)提供了支持。Python,是纯粹的自由软件,源代码和解释器CPython遵循GPL(GNU General Public License)协议。原创 2024-08-09 09:34:53 · 136 阅读 · 0 评论 -
【项目实战】统计分析软件SPSS
SPSS的目标用户包括社会科学家、市场研究人员、教育工作者、数据分析师以及任何需要进行统计数据分析的专业人士或学生。由于其直观的界面,SPSS尤其受到那些没有深入编程背景但需要执行复杂统计分析的人士欢迎。原创 2024-08-08 21:29:26 · 214 阅读 · 0 评论 -
【项目实战】统计分析软件SAS
数据分析师统计学家研究人员业务分析师IT专业人士学生和教育工作者。原创 2024-08-08 21:34:14 · 448 阅读 · 0 评论 -
【项目实战】Python中的Anaconda和conda 的包管理器入门介绍
Anaconda是一个开源的Python发行版本。Anaconda 是一个非常流行的 Python 和 R 数据科学环境的发行版。Anaconda 是数据科学和机器学习领域的一个非常有用的工具。Anaconda 包含了数百个科学计算、数据分析、机器学习等相关领域的库和工具。Anaconda 由 Continuum Analytics 开发,并且现在由 Anaconda, Inc. 维护和支持。原创 2024-07-31 09:38:15 · 197 阅读 · 0 评论 -
【项目实战】Kafka基本的命令行工具
Apache Kafka 不直接提供一个单一的命令来查看所谓的“生产者队列”和“消费者队列”,因为 Kafka 的架构并不包含传统意义上的生产者和消费者队列。相反,Kafka 维护着主题(topics),生产者向主题发送消息,而消费者订阅这些主题并消费消息。但是,你可以使用 Kafka 提供的命令行工具来检查主题的状态、消息和消费者的偏移量。Kafka 中并没有生产者队列的概念,生产者直接发送消息到主题分区。同样,消费者也没有自己的队列;消费者直接从主题分区中拉取消息。原创 2024-07-24 16:19:03 · 288 阅读 · 0 评论 -
【项目实战】数据转换策略中常用的数据规范化方法
常用的包括Min-Max规范化、Z-Score规范化、小数定标规范化。原创 2024-07-21 09:31:48 · 526 阅读 · 0 评论 -
【项目实战】分布式消息订阅分发 (消息队列Kafka)入门介绍
Kafka的架构包括以下组件:主题、生产者、消费者、服务代理自定义分区器需要实现接口,并在方法中定义分区逻辑。例如,可以根据消息的键(key)的哈希值或特定属性来确定分区。创建自定义分区器后,需要在Kafka生产者的配置中指定分区器类。原创 2024-07-20 09:46:20 · 406 阅读 · 0 评论 -
【项目实战】一个可扩展的、全球分布式的数据库Google Spanner介绍
Google Spanner是一个可扩展的、全球分布式的数据库,Google Spanner是由谷歌公司设计、开发和部署的。在最高抽象层面,Spanner就是一个数据库,把数据分片存储在许多Paxos状态机上,这些机器位于遍布全球的数据中心内。复制技术可以用来服务于全球可用性和地理局部性。客户端会自动在副本之间进行失败恢复。随着数据的变化和服务器的变化,Spanner会自动把数据进行重新分片,从而有效应对负载变化和处理失败。原创 2024-05-23 21:18:40 · 288 阅读 · 0 评论 -
【项目实战】大数据时代的数据存储与管理技术(NewSQL数据库 、 NoSQL数据库 、 云数据库)入门介绍
【项目实战】大数据时代的数据存储与管理技术(NewSQL数据库 、 NoSQL数据库 、 云数据库)入门介绍原创 2024-05-23 20:48:53 · 395 阅读 · 0 评论 -
【项目实战】大数据时代的分布式存储和管理技术,分布式文件系统(如Hadoop的HDFS和谷歌的GFS)
分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统分布式文件系统是大数据时代的数据存储和管理技术。原创 2024-05-23 20:20:12 · 349 阅读 · 0 评论 -
【项目实战】大数据处理架构/框架Hadoop入门介绍
Hadoop是一个能够对大量数据进行分布式处理的软件框架Hadoop是以一种可靠、高效、可伸缩的方式进行处理的框架。原创 2024-05-23 20:15:30 · 524 阅读 · 0 评论 -
【项目实战】传统的数据存储与管理技术(文件系统 、关系数据库 、数据仓库 、并行数据库)入门介绍
文件系统是操作系统用于明确存储设备或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。存储设备:(常见的是磁盘,也有基于NAND Flash的固态硬盘)操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称“文件系统”平时在计算机上使用的各种文件,都是由操作系统中的文件系统进行统一管理的。各种文件,包括WORD文件、PPT文件、文本文件、音频文件、视频文件等。原创 2024-05-23 19:49:33 · 726 阅读 · 0 评论 -
【项目实战】网络爬虫入门介绍(Scrapy爬虫与反爬机制)
Scrapy是一套基于Twisted的异步处理框架。Scrapy运行于Linux/Windows/MacOS等多种环境。Scrapy具有速度快、扩展性强、使用简便等特点。Scrapy是纯Python实现的爬虫框架。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求对它进行修改。用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。即便是新手,也能迅速学会使用Scrapy编写所需要的爬虫程序。原创 2024-05-23 19:15:23 · 889 阅读 · 0 评论 -
【项目实战】数据采集与预处理之数据采集
数据采集,又称“数据获取”。数据采集,是数据分析的入口,也是数据分析过程中相当重要的一个环节。数据采集通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。原创 2024-05-23 17:29:47 · 887 阅读 · 0 评论 -
【项目实战】数据采集与预处理之数据清洗
数据清洗:包括一致性检查、处理缺失值和缺失值、去除重复记录、纠正错误数据等,确保数据质量。原创 2024-05-23 17:17:21 · 942 阅读 · 0 评论 -
【项目实战】数据采集与预处理之常见的数据转换策略
将数据按比例缩放,使之落入一个小的特定区间,如0到1之间。将属性值按比例缩放,使之落入一个特定的区间,比如0.0~1.0。将数据按比例缩放,使其落入一个特定的区间,如[0, 1]或[-1, 1],数据规范化是一种按比例缩放数据的方法,使得所有数据都落入一个特定的小区间,例如0到1之间。数据规范化有助于确保没有单一特征因规模过大而对模型造成不成比例的影响。将数据缩放到特定范围内的过程,通常用于将数据映射到[0,1]或[-1,1]的区间内。原创 2024-05-23 16:24:01 · 602 阅读 · 0 评论 -
【项目实战】数据采集与预处理之数据脱敏,基于Hutool的DesensitizedUtil实现数据脱敏
*** 脱敏策略/*** 身份证脱敏* 手机号脱敏* 地址脱敏* 邮箱脱敏* 银行卡//可自行添加其他脱敏策略 private final Function < String , String > desensitizer;} }/*** 脱敏策略/*** 身份证脱敏* 手机号脱敏* 地址脱敏* 邮箱脱敏* 银行卡//可自行添加其他脱敏策略 private final Function < String , String > desensitizer;原创 2024-05-23 15:11:57 · 619 阅读 · 0 评论 -
【项目实战】分布式理论之CAP模型/CAP理论 与 BASE理论 介绍
CAP 这3个字母代表:一致性/可用性/分区容忍性。原创 2024-05-23 13:01:11 · 292 阅读 · 0 评论
分享