
大数据
文章平均质量分 87
深入总结大数据发展历史以及前言技术。结合大厂的大数据平台建设经验。对大数据组件选型。遇到的问题。从架构设计,到源码分析,生产调优,平台开发,数仓建设,工具使用,数据挖掘,AI智能,BI报表,监控运维等角度,加上软件开发,互联网发展等要点,总结大数据技术的使用历程。
shinelord明
北方待了10多年,北京六年多工作时间。先后在北京大唐电信,爱奇艺,京东等企业从事java开发、软件开发、与大数据开发、设计等相关工作。18年回重庆,在一家互联网金融公司,从事后端开发与大数据相关工作。
展开
-
【SQL技术】不同数据库引擎 SQL 优化方案剖析
不同的数据库系统有其独特的架构和性能特点,因此 SQL 优化策略也需要因地制宜。在实际应用中,需要根据具体的业务需求和数据特点,选择合适的优化方法。同时,定期监控数据库的性能指标,不断调整优化策略,才能确保数据库系统始终保持高效稳定的运行。希望本文介绍的优化方案能为你在数据库性能优化方面提供一些有益的参考。原创 2025-02-06 16:56:48 · 1290 阅读 · 22 评论 -
【大数据】数据治理浅析
在数字化时代,数据作为企业的核心资产,其管理和利用显得尤为关键。数据治理,作为数据管理的重要组成部分,旨在确保数据的准确性、一致性、安全性和可用性。本文将从数据治理的基本概念、应用场景、必要性、需求分析等方面出发,深入探讨其功能架构、技术架构、应用架构和数据架构,最后展望其发展趋势和市场现状。数据治理是一种组织数据的方法论,旨在确保数据质量、合规性和价值。它涉及制定策略、标准、流程和技术,以确保数据能够被准确地捕获、存储、管理、共享和分析。数据治理,简而言之,就是对数据进行全面、系统、有序的管理。原创 2025-01-26 23:27:40 · 1568 阅读 · 22 评论 -
【行业发展报告】2024大数据与智能化行业发展浅析
大数据与智能化是当今科技领域的两大核心驱动力,它们相互依存、相互促进,正深刻地改变着人们的生活和各个行业的发展模式。大数据是指海量、多样化、快速增长的数据集合,而智能化则是通过应用人工智能、机器学习等技术,对这些数据进行分析、挖掘和处理,以实现自动化、智能化的决策和行动。随着信息技术的不断进步,大数据与智能化在各行业的重要性日益凸显,成为企业提升竞争力、实现创新发展的关键因素。原创 2024-12-28 15:18:55 · 2198 阅读 · 18 评论 -
【理论科学与实践技术】数学与经济管理中的学科与实用算法
在现代商业环境中,数学与经济管理的结合为企业提供了强大的决策支持。本文将介绍几个主要学科,包括数学基础、经济学模型、管理学及风险管理,并探讨相关的实用算法和这些算法在中国及全球知名企业中的实际应用。原创 2024-10-02 23:40:03 · 968 阅读 · 12 评论 -
【大数据】大数据运维方案浅析总结
流行的大数据运维管理,包括Cloudera的CDH和CDP、Hortonworks的HDP、Apache的Ambari、国产开源平台Datasophon,以及自动化运维工具Ansible和SaltStack。原创 2024-09-27 14:59:01 · 1629 阅读 · 6 评论 -
【大数据】UDF技术浅析
用户定义函数(User Defined Function, UDF)是一种扩展数据库或数据处理系统功能的机制。通过定义自己的函数,用户可以在传统的查询功能之外实现更加复杂的数据处理逻辑。UDF被广泛用于数据分析、数据处理、数据清洗等场景。原创 2024-09-23 11:11:25 · 1816 阅读 · 5 评论 -
【大数据】基于HADOOP组件源码手动搭建集群
手动HDFS集群搭建原创 2023-03-24 18:45:00 · 296 阅读 · 0 评论 -
【分布式】Zookeeper安装部署
zookeeper安装原创 2023-03-26 10:44:57 · 300 阅读 · 0 评论 -
【大数据】Elasticsearch安装部署
elasticsearch部署安装原创 2023-03-28 20:01:43 · 228 阅读 · 0 评论 -
【大数据】日志采集组件Flume
Flume 是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。原创 2023-04-01 23:15:43 · 733 阅读 · 0 评论 -
【大数据】大数据OLAP查询引擎选型对比
目前大数据比较常用的OLAP查询引擎包括:Presto、Impala、Druid、Kylin、Doris、Clickhouse、GreenPlum等。不同引擎特点不尽相同,针对不同场景,可能每个引擎的表现也各有优缺点。原创 2023-04-10 22:46:25 · 7324 阅读 · 1 评论 -
【大数据】消息中间件对比
常见消息中间件对比原创 2023-04-15 00:31:27 · 487 阅读 · 0 评论 -
【大数据】日志文件数据采集组件
日志文件数据采集组件对比原创 2023-04-15 22:17:50 · 494 阅读 · 0 评论 -
【大数据】构建高效可靠的数据血缘技术架构-文字解说
在日益快速增长的大数据领域,了解和管理数据的来源、流向以及变化成为了一项重要任务。数据血缘分析可以帮助企业更好地了解数据的历史记录和变化过程,提高数据质量和决策的准确性。构建高效可靠的数据血缘技术架构,有助于以下几点:提高数据质量:通过了解数据的来源、流向和变化过程,可以更好地监控和管理数据质量,减少数据错误和冗余,从而提高数据的准确性和可靠性。支持决策分析:数据血缘分析可以帮助企业更好地理解数据背后的故事,为决策提供可靠的数据支持。通过追踪数据的历史记录和变化,可以更准确地评估数据对业务决策的影响。原创 2024-02-06 13:06:54 · 1172 阅读 · 0 评论 -
【大数据】浅谈数仓发展
数仓作为企业数据管理的核心架构,经历了从传统到现代的演进过程。现代新型数仓采用灵活、可扩展的技术架构,具备更好的实时性和扩展性。未来数仓将继续推动数据创新应用的发展,并与人工智能、区块链等技术相结合,开创更广阔的数据管理和洞察领域。随着技术的不断发展和应用,数仓将继续发挥着重要的作用,助力企业实现数据驱动的业务成功。原创 2024-02-20 23:03:14 · 1148 阅读 · 0 评论 -
【大数据】浅谈大数据智能化技术在多个领域的应用实践
大数据智能化技术在当今信息社会中得到了广泛的应用。从金融、互联网电商、视频行业到垂直短视频领域,从工业互联网到云计算、边缘计算等领域,大数据智能化技术已经成为了企业竞争力的重要组成部分。技术实践、架构设计、指标体系、数据质量、数据分析、数据挖掘、数据采集、数据智能化应用、BI、AI等方面,大数据智能化技术在不同领域的应用场景和代码编写。原创 2024-01-21 20:51:56 · 1841 阅读 · 0 评论 -
【大数据】浅析大数据汇总
传统,大数据主要关注数据的采集、存储和处理能力。随着互联网的快速发展,用户在互联网上产生了大量的数据,这些数据包括用户行为数据、社交媒体数据、传感器数据等。传统的数据库技术已经无法满足对这些海量数据的存储和处理需求,因此出现了分布式存储和计算技术,如Hadoop、HBase等。这些技术使得大数据的存储和处理变得更加可行,同时也带来了对数据分析和挖掘能力的需求。现阶段,大数据不再局限于数据的规模,更多地关注数据的质量、价值和应用。随着人工智能技术的快速发展,大数据与人工智能的结合成为了一个重要的趋势。原创 2024-01-28 22:49:31 · 1613 阅读 · 0 评论 -
【大数据】海豚调度DolphinScheduler入门学习
DolphinScheduler 是一款分布式的、易扩展的、高可用的数据处理平台,主要包含调度中心、元数据管理、任务编排、任务调度、任务执行和告警等模块。其技术架构基于 Spring Boot 和 Spring Cloud 技术栈,采用了分布式锁、分布式任务队列等技术确保任务高可用性。部署灵活,支持单机部署、分布式部署、容器化部署等方式。应用场景广泛,可用于大数据处理、定时任务和流程管理等领域。具有易扩展性、高可用性、多语言支持、易用性和活跃的开发社区等技术优势。原创 2024-02-25 22:43:44 · 3693 阅读 · 1 评论 -
【AI】人工智能AI网站推荐
AI爱好者在论文整理和分享方面有着非常出色的内容和质量,其中不仅有很多经典的AI论文,还有大量来自大牛教授的学术讲座和专业领域的实践案例。如果想开展AI领域的深度研究和学习,这个平台值得一试。AI中国(https://www.aicn.me/)致力于收集与AI相关的热门工具,包括但不限于ChatGPT、AI视频、AI办公、AI语音等领域,并为广大AI爱好者提供学习平台,降低获取学习资源的成本。该机构致力于推动科技信息的传播和共享,他们的网站提供了丰富的学术论文资源,包括人工智能领域的研究成果。原创 2024-03-05 22:53:52 · 1767 阅读 · 0 评论 -
【车联网】车联网大数据与人工智能一体化:开启智慧出行新时代
车联网通过将车辆与互联网相连,实现了车辆信息的采集、传输和处理,为用户提供了更加智能、便捷的出行服务。而大数据和人工智能作为车联网的核心技术,为车辆数据的分析和利用提供了重要支撑,可以帮助实现智能驾驶、智慧交通等多种应用场景。原创 2024-04-14 00:52:41 · 3626 阅读 · 2 评论 -
【AI】SpringAI 技术解析
项目的灵感来自著名的 Python 项目,如 LangChain 和 LlamaIndex,但 Spring AI 并不是这些项目的直接复制。随着人工智能技术的快速发展,SpringAI 逐渐成为 Spring 生态系统中的一个重要组成部分,为开发者提供了便捷、灵活的解决方案。SpringAI 可以与数据库进行交互,例如,您可以将用户的自然语言查询翻译成 SQL 查询,并执行相应的数据库操作。通过以上示例和说明,您可以开始在您的项目中使用 SpringAI,为用户提供智能化的自然语言交互体验。原创 2024-05-12 00:20:19 · 1001 阅读 · 0 评论 -
【边缘计算】浅析边缘计算技术
边缘计算是一种分布式计算范式,它将计算任务和数据存储从中心化的云端推向网络的边缘,即设备或终端,以提高响应速度和降低网络带宽需求。此外,将敏感数据在本地处理可以减少数据泄露的风险,提高系统的可靠性,因为即使网络连接中断,本地设备仍然可以继续运行。边缘计算的应用场景非常广泛,包括物联网(IoT)、智能家居、自动驾驶、工业、远程医疗、增强现实(AR)和虚拟现实(VR)等。在这些场景中,边缘计算能够显著减少数据传输延迟,提高系统的实时性和响应速度,同时减轻数据中心的负担。:智能货架、用户行为分析、定制化推荐等。原创 2024-04-29 01:12:05 · 1122 阅读 · 1 评论 -
【行业】技术革命的十年:计算机、互联网、大数据、云计算与AI
近10年来,计算机、互联网、大数据、云计算和人工智能等技术领域发展迅速,带来了巨大的变革和创新。原创 2024-06-08 21:17:19 · 2345 阅读 · 0 评论 -
【产品】数据产品经理知识库构建
数据产品是指利用数据分析、数据挖掘等技术,将数据转化为具有实际应用价值的产品或服务。这些产品可以是内部工具,也可以是面向客户的解决方案。原创 2024-06-30 22:20:49 · 1045 阅读 · 0 评论 -
【算法】遗传算法
遗传算法是一种灵活强大的优化工具,适用于多个领域。通过不断演化和选择,可以找到较优的解。在具体实现时,需综合考虑问题的实际需求,合理设计适应度函数和遗传操作。由于遗传算法的随机性,可能需要多次运行以找到较优解。希望这篇博文能帮助你更好地理解和实现遗传算法。原创 2024-09-18 11:33:03 · 2500 阅读 · 9 评论 -
【算法】模拟退火
模拟退火算法(Simulated Annealing, SA)是一种启发式全局优化算法,灵感来源于固体退火原理。在冶金学中,退火是将金属加热到一定温度,再缓慢冷却以消除内部应力,使金属结构达到稳定状态。在优化问题中,模拟退火算法通过接受一定概率的“坏解”(即解质量下降的情况),以跳出局部最优,最终逼近全局最优解。原创 2024-09-09 15:52:08 · 8121 阅读 · 14 评论 -
【算法】PageRank
PageRank算法由拉里·佩奇和谢尔盖·布林在1996年提出,旨在为网页排序并评估其重要性。算法的核心思想是认为一个网页的重要性与指向它的网页的重要性成正比,一个网页被多个重要网页链接到,意味着它也应该被视为重要网页。原创 2024-09-03 15:59:48 · 2928 阅读 · 3 评论 -
【算法】粒子群优化
粒子群优化算法(PSO)是一种基于群体智能的优化算法,由Kennedy和Eberhart于1995年提出。PSO模拟鸟群觅食行为,通过一组“粒子”在解空间中搜索最优解。每个粒子代表一个潜在解,粒子根据自身的历史最佳位置和群体的历史最佳位置调整自己的位置,从而逐步逼近全局最优解。PSO的主要优势在于其简单易懂的结构和较少的参数设置,适用于多种复杂优化问题,如函数优化、机器学习和数据挖掘等。它能够有效处理非线性和高维问题,收敛速度较快。然而,PSO也存在一些缺点,如易陷入局部最优解和对参数设置敏感等。在原创 2024-08-23 19:08:21 · 3233 阅读 · 5 评论 -
【算法】令牌桶算法
令牌桶算法是一种有效的流量控制技术,能够平滑流量并限制突发请求。通过在桶中动态生成和管理令牌来限制数据发送速率。算法的核心原理是设置桶的容量和令牌生成速率,从而控制请求处理的速率,适用于网络流量控制和API限流等场景。相比其他算法(如漏桶算法、固定窗口计数等),令牌桶能更灵活地应对突发流量。原创 2024-08-20 00:00:00 · 2221 阅读 · 1 评论 -
【后端】浅析缓存技术
缓存技术通过在高速存储介质中暂存数据副本,显著提升数据访问速度和系统响应性能。在人工智能领域,AI缓存技术特别突出。它利用先进的算法和模型预测用户需求,将数据预加载到内存中,以减少推断时间并提升AI模型的实时性能。另外,Alluxio作为一种开源的分布式存储系统,能够通过将数据在内存中进行存储和管理,为大数据处理提供高速访问能力,从而加速数据访问和分析过程。这些缓存技术不仅在数据管理和应用性能优化中发挥关键作用,也在提升系统效率和用户体验方面具有重要意义。原创 2024-06-23 23:11:33 · 1414 阅读 · 1 评论 -
【大数据】数据治理系统论-结合数据要素等
数据治理是指组织内外部对数据进行管理和监控的全面框架。它涵盖了数据的安全、合规性、可用性和价值最大化等方面。通过有效的数据治理,组织能够更好地理解其数据资产,并确保数据被正确地管理和利用。治理技术:包括数据质量管理、元数据管理、主数据管理、数据安全等技术。治理工具系统。原创 2024-03-17 18:58:02 · 1654 阅读 · 1 评论 -
【大数据】Flink技术简介与入门实践
Flink 是一个分布式流处理和批处理计算框架,具有高性能、容错性和灵活性。JobManager:JobManager 是 Flink 集群的主节点,负责接收和处理用户提交的作业。解析和验证用户提交的作业。生成执行计划,并将作业图分发给 TaskManager。协调任务的调度和执行。管理作业的状态和元数据信息。:TaskManager 是 Flink 集群的工作节点,负责执行具体的任务。原创 2024-03-11 00:19:42 · 1208 阅读 · 0 评论 -
【大数据】大数据智能化-长视频领域
随着数字化与AI时代的到来,长视频领域的发展迎来了新的机遇和挑战。在这一背景下,大数据智能化技术的应用成为长视频行业提升用户体验、优化运营管理的重要手段之一。本文将从优爱腾3大长视频背景需求出发,分析静态资源CDN、视频文件存储与分发、UGC/PGC/AIGC内容管理与应用、用户APP埋点数据分析等方面的大数据智能化应用流程,并以爱奇艺的天工大数据运维平台为例,探讨大数据技术在长视频领域的具体应用。原创 2024-03-02 10:47:55 · 1430 阅读 · 0 评论 -
【大数据】基于CU,PO,RD,IPO矩阵图分析数据资产-自创
通过计算出的数据资产的可靠度,使用权重指标,可以对数据是否有下游使用,使用的重要程度,对数据是否可以归档或则销毁作为参考,以及对数据的价值,质量具有一定参考意义。像金融,社交媒体,视频网站,电商零售,传统房地产,车联网企业,制造业,工业互联网等每天都产生大量的数据,这些数据就像水一样,处理的好会成为一种力量能源,帮助公司的业务能够朝着正确的方向,更好更快的前进;数据资产管理,涉及对数据的复用,生产,数据资产成本分析,数据资产评级等,形成系统化的功能后,可以总结,并开发出数据资产管理相关的系统或产品。原创 2024-02-14 17:26:06 · 2019 阅读 · 0 评论 -
【软件工程】软件工程师书籍推荐
推荐一些书籍,新年来了,可以卷起来,可以不上学,但是不可以不读书。(其中有几本读过一些)。原创 2024-01-07 23:29:41 · 2381 阅读 · 0 评论 -
【大数据】浅谈Doris在物联网应用
本文介绍了如何使用Doris分析物联网设备数据,包含基本概念和技术实现。通过使用Doris,我们可以轻松地对物联网设备数据进行建模、导入和查询,进一步分析设备使用情况和环境变化情况,为设备维护和管理提供有力支持。同时,我们还提供了Python代码示例,帮助读者更好地理解和使用Doris。原创 2024-01-04 21:47:28 · 1143 阅读 · 0 评论 -
【数据治理】Atlas-实现数据治理的利器
Atlas是一款强大的开源数据治理和元数据管理工具,旨在帮助组织管理其数据资产、了解数据血缘关系,并确保数据的合规性和安全性。本篇博客将深入探讨Atlas组件的各方面内容,包括应用架构、业务架构、数据架构、功能架构、技术架构等,并重点介绍其与大数据生态系统中Hadoop、Hive、HBase等组件的集成。血缘关系的采集是Atlas的核心功能之一,通过元数据管理和数据血缘追踪,用户可以了解数据的来源、传输路径和影响范围。Atlas的数据架构主要包括元数据存储和索引,用于存储和检索各种数据资产的元数据信息。原创 2023-04-20 20:37:48 · 663 阅读 · 0 评论 -
【大数据】数仓选型对比
数仓类型大致如下:"传统数仓(SQLServer、Oracle等关系型数据库)""MPP数仓(以GreenPlum为例)"Hadoop数仓原创 2023-04-13 23:41:39 · 778 阅读 · 0 评论 -
【数据库】图数据库选型对比
常见的图数据库包括:JanusGraph、Neo4j、Dgraph、NebulaGraph、HugeGraph、OrientDB、ArangoDB、TigerGraph等。下面列举,主流和推荐的几款图数据库的简介,应用场景和架构。原创 2023-04-11 23:34:53 · 6647 阅读 · 0 评论 -
【大数据】HBase集群搭建
HBase集群搭建原创 2023-03-27 21:13:03 · 110 阅读 · 0 评论