大数据
文章平均质量分 88
深入总结大数据发展历史以及前言技术。结合大厂的大数据平台建设经验。对大数据组件选型。遇到的问题。从架构设计,到源码分析,生产调优,平台开发,数仓建设,工具使用,数据挖掘,AI智能,BI报表,监控运维等角度,加上软件开发,互联网发展等要点,总结大数据技术的使用历程。
shinelord明
北方待了10多年,北京六年多工作时间。先后在北京大唐电信,爱奇艺,京东等企业从事java开发、软件开发、与大数据开发、设计等相关工作。18年回重庆,在一家互联网金融公司,从事后端开发与大数据相关工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大数据技术实战】全栈数据组件(优化・集成・规模・部署・业务落地)
全栈数据组件技术,覆盖消息(Kafka/RocketMQ 等)、计算(Flink/Fluss)、存储(Doris/Paimon)、调度与 AI 全链路。内含具体配置示例、集群规模规划、多部署方案(物理机 / 容器 / 云托管),结合电商、金融等场景提供落地指南。实操性强,适配不同业务需求与成本预算,是技术架构师、运维及数据开发工程师的组件选型与故障排查实用手册。原创 2025-10-25 15:48:33 · 1023 阅读 · 1 评论 -
【大数据技术实战】Kafka 认证机制全解析
Kafka 作为流数据核心枢纽,认证是数据安全的基石。内部集群需防未授权访问,企业级多团队共享需统一身份管控,金融医疗等场景需满足合规要求,云原生环境需动态管控第三方接入。其技术必要性在于阻止身份伪造、数据窃听,保障数据完整性,适配多场景安全需求。原创 2025-10-18 13:18:49 · 1546 阅读 · 24 评论 -
【大数据开发实践】Kafka REST Proxy~无缝集成 Kafka
Kafka REST Proxy 是 Confluent 开源组件,核心是将 Kafka 原生协议封装为 RESTful API,打破多语言集成壁垒。支持消息生产、消费、主题管理及偏移量提交,兼容 JSON、Avro 格式,可对接 Schema Registry。具备 SSL 加密、多认证机制及 ACL 权限控制,提供批处理等性能优化特性,适配 Web、Serverless、DevOps 场景,还能暴露监控指标,助力开发者快速实现多语言应用与 Kafka 的高效交互。原创 2025-10-12 21:13:35 · 1322 阅读 · 1 评论 -
【数据行业发展】可信数据空间~数据价值的新型基础设施
可信数据空间正逐步成为数据要素市场化的核心支撑,它不仅有效破解了数据流通的信任难题,还重塑了数据价值分配格局。随着技术的不断成熟和生态的日益完善,可信数据空间必将推动数据真正成为驱动经济社会发展的核心引擎,引领数字经济迈向新的发展阶段。原创 2025-09-13 10:14:38 · 1598 阅读 · 25 评论 -
【大数据技术实战】Flink+DS+Dinky 自动化构建数仓平台
数仓现存开发效率低、运维碎片化、架构扩展性弱等痛点,如 Flink 开发门槛高、批流数据偏差、资源利用率仅 30%。以 “Flink+DolphinScheduler+Dinky” 构建平台,Dinky 简化开发、DolphinScheduler 实现分布式调度、Flink 保障批流一体。分六层架构,按 ODS 至 ADS 四层设计,统一模型与计算逻辑,批流数据差异率≤0.5%。平台支撑电商大屏、金融风控等场景,开发效率提升 300%,故障排查缩至 5 分钟,资源利用率提至 70%,高效满足企业数据需求原创 2025-09-03 22:23:05 · 982 阅读 · 17 评论 -
【大数据技术实战】流式计算 Flink~生产错误实战解析
Flink Kafka 连接器迁移的核心挑战是状态管理。故障排查需四步:定义问题、分析日志、定位根源、验证方案。迁移时,旧版 TopicPartitionOffsetState 与新版 SourceReaderState 不兼容,导致 “孤儿状态” 累积,使保存点_metadata 文件膨胀,引发 RPC 超限或内存溢出。解决需分阶段迁移,关键业务用 State Processor API 转换状态;紧急情况可提取关键状态或临时调整配置。实践中应规范使用连接器,明确算子 UID、清理保存点、监控指标等。原创 2025-08-31 12:53:25 · 979 阅读 · 9 评论 -
【运维实战】系统全链路监测方案~架构到实践
企业数字化转型中系统复杂度提升的监测挑战,提出一套全链路监测解决方案。方案覆盖从用户请求到后端处理全路径,通过SkyWalking+OpenTelemetry+Prometheus+Grafana技术组合,实现调用链追踪、性能指标采集和可视化展示。内容包括:用traceId实现跨服务追踪,建立标准化标准化监测指标体系,提供多语言接入示例,规范日志格式与traceId传递机制,分阶段实施路径与风险应对措施。原创 2025-08-18 23:20:10 · 1584 阅读 · 17 评论 -
【计算机存储架构】分布式存储架构
分布式存储是将数据分散存储在多个物理节点构成的集群中,通过协同工作提供高可用、可扩展存储服务的技术。它突破单机存储容量与性能瓶颈,通过横向扩展节点线性提升存储能力,利用多副本或纠删码保障数据冗余,借助一致性协议确保数据同步。相比传统存储,其优势在于可应对海量数据(如 2025 年预计 175ZB 的数据规模),支持高并发读写,成本更低且运维更高效,广泛应用于互联网、金融、医疗等领域,是大数据时代的核心基础设施。原创 2025-06-19 10:29:44 · 1918 阅读 · 33 评论 -
【SQL技术】不同数据库引擎 SQL 优化方案剖析
不同的数据库系统有其独特的架构和性能特点,因此 SQL 优化策略也需要因地制宜。在实际应用中,需要根据具体的业务需求和数据特点,选择合适的优化方法。同时,定期监控数据库的性能指标,不断调整优化策略,才能确保数据库系统始终保持高效稳定的运行。希望本文介绍的优化方案能为你在数据库性能优化方面提供一些有益的参考。原创 2025-02-06 16:56:48 · 1508 阅读 · 22 评论 -
【大数据】数据治理浅析
在数字化时代,数据作为企业的核心资产,其管理和利用显得尤为关键。数据治理,作为数据管理的重要组成部分,旨在确保数据的准确性、一致性、安全性和可用性。本文将从数据治理的基本概念、应用场景、必要性、需求分析等方面出发,深入探讨其功能架构、技术架构、应用架构和数据架构,最后展望其发展趋势和市场现状。数据治理是一种组织数据的方法论,旨在确保数据质量、合规性和价值。它涉及制定策略、标准、流程和技术,以确保数据能够被准确地捕获、存储、管理、共享和分析。数据治理,简而言之,就是对数据进行全面、系统、有序的管理。原创 2025-01-26 23:27:40 · 1922 阅读 · 22 评论 -
【行业发展报告】2024大数据与智能化行业发展浅析
大数据与智能化是当今科技领域的两大核心驱动力,它们相互依存、相互促进,正深刻地改变着人们的生活和各个行业的发展模式。大数据是指海量、多样化、快速增长的数据集合,而智能化则是通过应用人工智能、机器学习等技术,对这些数据进行分析、挖掘和处理,以实现自动化、智能化的决策和行动。随着信息技术的不断进步,大数据与智能化在各行业的重要性日益凸显,成为企业提升竞争力、实现创新发展的关键因素。原创 2024-12-28 15:18:55 · 2887 阅读 · 18 评论 -
【理论科学与实践技术】数学与经济管理中的学科与实用算法
在现代商业环境中,数学与经济管理的结合为企业提供了强大的决策支持。本文将介绍几个主要学科,包括数学基础、经济学模型、管理学及风险管理,并探讨相关的实用算法和这些算法在中国及全球知名企业中的实际应用。原创 2024-10-02 23:40:03 · 1138 阅读 · 12 评论 -
【大数据】大数据运维方案浅析总结
流行的大数据运维管理,包括Cloudera的CDH和CDP、Hortonworks的HDP、Apache的Ambari、国产开源平台Datasophon,以及自动化运维工具Ansible和SaltStack。原创 2024-09-27 14:59:01 · 2114 阅读 · 6 评论 -
【大数据】UDF技术浅析
用户定义函数(User Defined Function, UDF)是一种扩展数据库或数据处理系统功能的机制。通过定义自己的函数,用户可以在传统的查询功能之外实现更加复杂的数据处理逻辑。UDF被广泛用于数据分析、数据处理、数据清洗等场景。原创 2024-09-23 11:11:25 · 2413 阅读 · 5 评论 -
【大数据】基于HADOOP组件源码手动搭建集群
手动HDFS集群搭建原创 2023-03-24 18:45:00 · 367 阅读 · 0 评论 -
【分布式】Zookeeper安装部署
zookeeper安装原创 2023-03-26 10:44:57 · 359 阅读 · 0 评论 -
【大数据】Elasticsearch安装部署
elasticsearch部署安装原创 2023-03-28 20:01:43 · 294 阅读 · 0 评论 -
【大数据】日志采集组件Flume
Flume 是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。原创 2023-04-01 23:15:43 · 802 阅读 · 0 评论 -
【大数据】大数据OLAP查询引擎选型对比
目前大数据比较常用的OLAP查询引擎包括:Presto、Impala、Druid、Kylin、Doris、Clickhouse、GreenPlum等。不同引擎特点不尽相同,针对不同场景,可能每个引擎的表现也各有优缺点。原创 2023-04-10 22:46:25 · 7774 阅读 · 1 评论 -
【大数据】消息中间件对比
常见消息中间件对比原创 2023-04-15 00:31:27 · 556 阅读 · 0 评论 -
【大数据】日志文件数据采集组件
日志文件数据采集组件对比原创 2023-04-15 22:17:50 · 559 阅读 · 0 评论 -
【大数据】构建高效可靠的数据血缘技术架构-文字解说
在日益快速增长的大数据领域,了解和管理数据的来源、流向以及变化成为了一项重要任务。数据血缘分析可以帮助企业更好地了解数据的历史记录和变化过程,提高数据质量和决策的准确性。构建高效可靠的数据血缘技术架构,有助于以下几点:提高数据质量:通过了解数据的来源、流向和变化过程,可以更好地监控和管理数据质量,减少数据错误和冗余,从而提高数据的准确性和可靠性。支持决策分析:数据血缘分析可以帮助企业更好地理解数据背后的故事,为决策提供可靠的数据支持。通过追踪数据的历史记录和变化,可以更准确地评估数据对业务决策的影响。原创 2024-02-06 13:06:54 · 1329 阅读 · 0 评论 -
【大数据】浅谈数仓发展
数仓作为企业数据管理的核心架构,经历了从传统到现代的演进过程。现代新型数仓采用灵活、可扩展的技术架构,具备更好的实时性和扩展性。未来数仓将继续推动数据创新应用的发展,并与人工智能、区块链等技术相结合,开创更广阔的数据管理和洞察领域。随着技术的不断发展和应用,数仓将继续发挥着重要的作用,助力企业实现数据驱动的业务成功。原创 2024-02-20 23:03:14 · 1410 阅读 · 0 评论 -
【大数据】浅谈大数据智能化技术在多个领域的应用实践
大数据智能化技术在当今信息社会中得到了广泛的应用。从金融、互联网电商、视频行业到垂直短视频领域,从工业互联网到云计算、边缘计算等领域,大数据智能化技术已经成为了企业竞争力的重要组成部分。技术实践、架构设计、指标体系、数据质量、数据分析、数据挖掘、数据采集、数据智能化应用、BI、AI等方面,大数据智能化技术在不同领域的应用场景和代码编写。原创 2024-01-21 20:51:56 · 2155 阅读 · 0 评论 -
【大数据】浅析大数据汇总
传统,大数据主要关注数据的采集、存储和处理能力。随着互联网的快速发展,用户在互联网上产生了大量的数据,这些数据包括用户行为数据、社交媒体数据、传感器数据等。传统的数据库技术已经无法满足对这些海量数据的存储和处理需求,因此出现了分布式存储和计算技术,如Hadoop、HBase等。这些技术使得大数据的存储和处理变得更加可行,同时也带来了对数据分析和挖掘能力的需求。现阶段,大数据不再局限于数据的规模,更多地关注数据的质量、价值和应用。随着人工智能技术的快速发展,大数据与人工智能的结合成为了一个重要的趋势。原创 2024-01-28 22:49:31 · 1834 阅读 · 0 评论 -
【大数据】海豚调度DolphinScheduler入门学习
DolphinScheduler 是一款分布式的、易扩展的、高可用的数据处理平台,主要包含调度中心、元数据管理、任务编排、任务调度、任务执行和告警等模块。其技术架构基于 Spring Boot 和 Spring Cloud 技术栈,采用了分布式锁、分布式任务队列等技术确保任务高可用性。部署灵活,支持单机部署、分布式部署、容器化部署等方式。应用场景广泛,可用于大数据处理、定时任务和流程管理等领域。具有易扩展性、高可用性、多语言支持、易用性和活跃的开发社区等技术优势。原创 2024-02-25 22:43:44 · 4532 阅读 · 1 评论 -
【AI】人工智能AI网站推荐
AI爱好者在论文整理和分享方面有着非常出色的内容和质量,其中不仅有很多经典的AI论文,还有大量来自大牛教授的学术讲座和专业领域的实践案例。如果想开展AI领域的深度研究和学习,这个平台值得一试。AI中国(https://www.aicn.me/)致力于收集与AI相关的热门工具,包括但不限于ChatGPT、AI视频、AI办公、AI语音等领域,并为广大AI爱好者提供学习平台,降低获取学习资源的成本。该机构致力于推动科技信息的传播和共享,他们的网站提供了丰富的学术论文资源,包括人工智能领域的研究成果。原创 2024-03-05 22:53:52 · 2291 阅读 · 0 评论 -
【车联网】车联网大数据与人工智能一体化:开启智慧出行新时代
车联网通过将车辆与互联网相连,实现了车辆信息的采集、传输和处理,为用户提供了更加智能、便捷的出行服务。而大数据和人工智能作为车联网的核心技术,为车辆数据的分析和利用提供了重要支撑,可以帮助实现智能驾驶、智慧交通等多种应用场景。原创 2024-04-14 00:52:41 · 4762 阅读 · 2 评论 -
【AI】SpringAI 技术解析
项目的灵感来自著名的 Python 项目,如 LangChain 和 LlamaIndex,但 Spring AI 并不是这些项目的直接复制。随着人工智能技术的快速发展,SpringAI 逐渐成为 Spring 生态系统中的一个重要组成部分,为开发者提供了便捷、灵活的解决方案。SpringAI 可以与数据库进行交互,例如,您可以将用户的自然语言查询翻译成 SQL 查询,并执行相应的数据库操作。通过以上示例和说明,您可以开始在您的项目中使用 SpringAI,为用户提供智能化的自然语言交互体验。原创 2024-05-12 00:20:19 · 1242 阅读 · 0 评论 -
【边缘计算】浅析边缘计算技术
边缘计算是一种分布式计算范式,它将计算任务和数据存储从中心化的云端推向网络的边缘,即设备或终端,以提高响应速度和降低网络带宽需求。此外,将敏感数据在本地处理可以减少数据泄露的风险,提高系统的可靠性,因为即使网络连接中断,本地设备仍然可以继续运行。边缘计算的应用场景非常广泛,包括物联网(IoT)、智能家居、自动驾驶、工业、远程医疗、增强现实(AR)和虚拟现实(VR)等。在这些场景中,边缘计算能够显著减少数据传输延迟,提高系统的实时性和响应速度,同时减轻数据中心的负担。:智能货架、用户行为分析、定制化推荐等。原创 2024-04-29 01:12:05 · 1482 阅读 · 1 评论 -
【行业】技术革命的十年:计算机、互联网、大数据、云计算与AI
近10年来,计算机、互联网、大数据、云计算和人工智能等技术领域发展迅速,带来了巨大的变革和创新。原创 2024-06-08 21:17:19 · 2837 阅读 · 1 评论 -
【产品】数据产品经理知识库构建
数据产品是指利用数据分析、数据挖掘等技术,将数据转化为具有实际应用价值的产品或服务。这些产品可以是内部工具,也可以是面向客户的解决方案。原创 2024-06-30 22:20:49 · 1262 阅读 · 0 评论 -
【算法】遗传算法
遗传算法是一种灵活强大的优化工具,适用于多个领域。通过不断演化和选择,可以找到较优的解。在具体实现时,需综合考虑问题的实际需求,合理设计适应度函数和遗传操作。由于遗传算法的随机性,可能需要多次运行以找到较优解。希望这篇博文能帮助你更好地理解和实现遗传算法。原创 2024-09-18 11:33:03 · 3248 阅读 · 9 评论 -
【算法】模拟退火
模拟退火算法(Simulated Annealing, SA)是一种启发式全局优化算法,灵感来源于固体退火原理。在冶金学中,退火是将金属加热到一定温度,再缓慢冷却以消除内部应力,使金属结构达到稳定状态。在优化问题中,模拟退火算法通过接受一定概率的“坏解”(即解质量下降的情况),以跳出局部最优,最终逼近全局最优解。原创 2024-09-09 15:52:08 · 19058 阅读 · 15 评论 -
【算法】PageRank
PageRank算法由拉里·佩奇和谢尔盖·布林在1996年提出,旨在为网页排序并评估其重要性。算法的核心思想是认为一个网页的重要性与指向它的网页的重要性成正比,一个网页被多个重要网页链接到,意味着它也应该被视为重要网页。原创 2024-09-03 15:59:48 · 4653 阅读 · 3 评论 -
【算法】粒子群优化
粒子群优化算法(PSO)是一种基于群体智能的优化算法,由Kennedy和Eberhart于1995年提出。PSO模拟鸟群觅食行为,通过一组“粒子”在解空间中搜索最优解。每个粒子代表一个潜在解,粒子根据自身的历史最佳位置和群体的历史最佳位置调整自己的位置,从而逐步逼近全局最优解。PSO的主要优势在于其简单易懂的结构和较少的参数设置,适用于多种复杂优化问题,如函数优化、机器学习和数据挖掘等。它能够有效处理非线性和高维问题,收敛速度较快。然而,PSO也存在一些缺点,如易陷入局部最优解和对参数设置敏感等。在原创 2024-08-23 19:08:21 · 4538 阅读 · 5 评论 -
【算法】令牌桶算法
令牌桶算法是一种有效的流量控制技术,能够平滑流量并限制突发请求。通过在桶中动态生成和管理令牌来限制数据发送速率。算法的核心原理是设置桶的容量和令牌生成速率,从而控制请求处理的速率,适用于网络流量控制和API限流等场景。相比其他算法(如漏桶算法、固定窗口计数等),令牌桶能更灵活地应对突发流量。原创 2024-08-20 00:00:00 · 3275 阅读 · 1 评论 -
【后端】浅析缓存技术
缓存技术通过在高速存储介质中暂存数据副本,显著提升数据访问速度和系统响应性能。在人工智能领域,AI缓存技术特别突出。它利用先进的算法和模型预测用户需求,将数据预加载到内存中,以减少推断时间并提升AI模型的实时性能。另外,Alluxio作为一种开源的分布式存储系统,能够通过将数据在内存中进行存储和管理,为大数据处理提供高速访问能力,从而加速数据访问和分析过程。这些缓存技术不仅在数据管理和应用性能优化中发挥关键作用,也在提升系统效率和用户体验方面具有重要意义。原创 2024-06-23 23:11:33 · 1695 阅读 · 1 评论 -
【大数据】数据治理系统论-结合数据要素等
数据治理是指组织内外部对数据进行管理和监控的全面框架。它涵盖了数据的安全、合规性、可用性和价值最大化等方面。通过有效的数据治理,组织能够更好地理解其数据资产,并确保数据被正确地管理和利用。治理技术:包括数据质量管理、元数据管理、主数据管理、数据安全等技术。治理工具系统。原创 2024-03-17 18:58:02 · 1751 阅读 · 1 评论 -
【大数据】Flink技术简介与入门实践
Flink 是一个分布式流处理和批处理计算框架,具有高性能、容错性和灵活性。JobManager:JobManager 是 Flink 集群的主节点,负责接收和处理用户提交的作业。解析和验证用户提交的作业。生成执行计划,并将作业图分发给 TaskManager。协调任务的调度和执行。管理作业的状态和元数据信息。:TaskManager 是 Flink 集群的工作节点,负责执行具体的任务。原创 2024-03-11 00:19:42 · 1462 阅读 · 0 评论
分享