
大数据技术域
文章平均质量分 93
该专栏可能聚焦于大数据技术的前沿动态、应用实践以及技术解析。它或许会涵盖数据采集、存储、处理、分析等关键技术,分享行业案例,探讨如何利用大数据驱动业务创新,为从业者提供学习交流的平台,助力读者深入理解大数据技术的全貌和应用价值。
庄小焱
我是庄小焱,某大厂Java高级工程师、PMP项目管理专家、系统架构设计师(高级)、优快云博文专家。博主在支付交易领域,信贷金融领域、机器学习模型算法领域深耕,我在博客中分享业务、技术、产品相关知识,欢迎大家和我交流学习。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hear大数据项目——推荐系统架构与数据模型设计
实时推荐系统的设计原创 2020-06-22 15:16:09 · 4792 阅读 · 1 评论 -
Hear大数据项目——Hera推荐系统需求分析
大数据技术之电商推荐系统源码:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop.git1 项目体系架构设计1.1系统架构设计项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实原创 2020-08-04 12:51:02 · 5144 阅读 · 2 评论 -
Hear大数据项目——日志系统需求分析
系统项目的git仓库的地址是:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop.git大型网站日志数据分析系统项目背景介绍项目框架设计项目数据采集项目数据清洗项目的业务项目系统优化项目背景介绍项目框架设计项目数据采集项目数据清洗项目的业务项目系统优化.........原创 2020-07-22 10:45:13 · 1689 阅读 · 0 评论 -
Elasticsearch——Elasticsearch查询实战
本文主要介绍了Elasticsearch查询实战,包括模糊匹配的编辑距离概念以及具体的查询示例。还涉及了DSL查询中的复合查询、Match类型查询、Term查询等多种查询方式,并提供了相关的官方文档参考。原创 2025-01-25 09:49:12 · 1040 阅读 · 0 评论 -
Elasticsearch——Elasticsearch性能优化实战
本文主要介绍了 Elasticsearch 性能优化的实战方法,从硬件配置优化、索引优化设置、查询方面优化、数据结构优化以及集群架构设计等五个方面进行了详细阐述,旨在帮助读者提升 Elasticsearch 的性能表现。原创 2025-01-25 09:42:52 · 1642 阅读 · 0 评论 -
Elasticsearch——Elasticsearch实现原理解析
本文深入解析了Elasticsearch的实现原理,首先介绍了其整体结构,包括集群模式下的节点、分片和副本,以及底层的Lucene索引文件。接着详细阐述了Lucene索引结构,包括词典索引、倒排表、正向文件等组成部分。此外,还涉及了Elasticsearch的分析器、索引文档流程及其实现机制等内容,为读者全面理解Elasticsearch的内部工作原理提供了详尽的参考。原创 2025-01-22 08:48:23 · 1172 阅读 · 0 评论 -
Elasticsearch——Elasticsearch索引管理实战
本文主要介绍了 Elasticsearch 中索引与索引模板的实战操作。首先讲解了索引管理,包括禁止自动创建索引、索引的格式、创建索引示例、修改索引示例、打开/关闭索引示例、删除索引、查看索引以及 Kibana 管理索引等内容。接着阐述了索引模板管理,涉及模板类型、内置模板示例、模拟多组件模板、模拟某个索引结果、模拟组件模板结果以及模拟组件模板和自身模板结合后的结果等。原创 2025-01-21 22:53:58 · 1340 阅读 · 1 评论 -
Elasticsearch——Elasticsearch基本原理
本文主要介绍了 Elasticsearch(ES)的基本原理,包括其特点、基础概念、Elastic Stack 组件、容器下载与部署以及查询和聚合查询的相关内容。通过具体示例展示了如何使用 ES 进行单个查询、批量查询、分页查询以及聚合查询等操作,并提供了相关的参考资源。原创 2025-01-20 22:58:59 · 1149 阅读 · 0 评论 -
大数据——Flink原理
Apache Flink 是一个强大的开源框架和分布式处理引擎,专门用于对无界和有界数据流进行有状态计算。Flink 支持高吞吐量、低延迟的实时数据流处理,同时也能够高效地处理批处理任务。其核心特点包括事件时间处理、有状态操作、容错机制,以及能够在各种常见的集群环境中运行,如 Hadoop、Kubernetes 和自定义集群。Flink 还具有高度可扩展性,能够处理从小规模到大规模的数据集,同时保持较低的内存占用和高效的计算速度。Flink 常用于实时分析、数据管道、流式 ETL、机器学习等场景,广泛应用于原创 2024-08-18 22:16:18 · 3676 阅读 · 1 评论 -
大数据——Hive原理
Apache Hive 是一个基于 Hadoop 分布式文件系统 (HDFS) 的数据仓库软件项目,专为存储和处理大规模数据集而设计。它提供类似 SQL 的查询语言 HiveQL,使用户能够轻松编写复杂的查询和分析任务,而无需深入了解 Hadoop 的底层实现。原创 2024-07-28 14:07:27 · 1490 阅读 · 0 评论 -
大数据——HBase原理
HBase 是一个开源的、非关系型的分布式数据库系统,主要用于存储海量的结构化和半结构化数据。它是基于谷歌的 Bigtable 论文实现的,运行在 Hadoop 分布式文件系统(HDFS)之上,并且可以与 Hadoop 生态系统的其他组件无缝集成。HBase 的设计目标是提供高可扩展性、实时读写和随机访问能力,这使其特别适合于需要快速处理和查询大数据集的应用场景。它采用行键(Row Key)作为主键,并使用列族(Column Family)来组织数据,数据在物理上按照行键的顺序存储,支持范围查询。原创 2024-07-27 19:23:51 · 1649 阅读 · 0 评论