自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Spark Word Count 与 MapReduce Word Count 对比

摘要(150字): 本文通过5个维度对比Spark与MapReduce的Word Count实现。Spark基于RDD内存计算,采用DAG模型和惰性执行,通过预聚合减少Shuffle数据量,性能更高且支持多语言开发;MapReduce依赖磁盘IO和两阶段模型,适合批处理但效率较低。Spark在容错(lineage恢复)、扩展性和小数据场景表现更优,而MapReduce部署简单、版本兼容性更好。实验显示Spark在3节点集群下任务启动快50%,Shuffle数据量减少30-50%,但需注意Scala版本匹配等

2025-10-19 13:50:41 821

原创 Spark 3.3.0 词频统计全流程实操指南(Scala 版,适配 Hadoop 集群)

本文提供Spark 3.3.0词频统计的完整实操指南,涵盖环境配置、数据准备和Scala实现三个核心部分。首先详细说明集群环境参数和前置检查步骤,包括Spark和HDFS服务验证;然后指导如何准备测试数据并上传至HDFS;最后重点讲解Scala词频统计代码实现,包括Maven项目结构规范、核心逻辑编写和打包配置。所有步骤均适配Hadoop集群环境,并进行了版本兼容性验证,确保用户能够顺利完成分布式词频统计任务。

2025-10-18 20:04:29 811

原创 Spark 3.3.0 集群安装与配置实战指南(适配 Hadoop/HBase 环境)

本文详细介绍了Spark 3.3.0集群在Hadoop/HBase环境下的安装与配置过程。主要内容包括:环境检查与兼容性验证(JDK 1.8、Hadoop 3.1.3、HBase 2.4.18)、Spark核心配置文件修改(spark-env.sh、workers)、HBase集成配置(复制hbase-site.xml和依赖JAR包)、集群同步与权限配置、以及集群启动验证步骤。特别强调了HBase与Spark的集成配置,提供了完整的spark-env.sh配置示例,并给出了进程查看和Web UI验证方法。

2025-10-18 17:06:59 914

原创 解决非凸问题的 PAM 算法体系及最优方案解析

本文系统解析了解决非凸聚类问题的PAM算法体系及其最优方案。首先梳理了5类改进算法:随机重启PAM、CLARANS、CLARA、Fuzzy PAM和Kernel PAM,重点分析了它们针对非凸问题的优化策略。其中,Kernel PAM通过核技巧将低维非凸数据映射到高维凸空间,从根本上解决了复杂非凸分布(如螺旋形、网状)的聚类难题,成为最优解决方案。文章详细阐述了Kernel PAM的三步核心流程(核映射、高维PAM聚类、结果映射),并指出其在强非线性适配性、鲁棒性等方面的优势,同时也讨论了核函数选择和计算效

2025-10-17 14:31:57 956

原创 20251014太理大三老登鼠鼠的悲伤日记:今天的苦,比太原的温差还拧巴

摘要:太原理工大学大三学生记录疲惫的一天,从早八寒风中赶课到下午被太阳晒晕,全程被繁重课业和待办事项压得喘不过气。区块链笔记、JavaWeb作业、算法研究等任务堆积,连午休都被舍友闹钟打断。最终因过度疲惫翘课,对着夕阳感叹大学生活被课表和ddl填满的无奈,连最爱的乒乓球都没时间练习。文章以"鼠鼠"自嘲的口吻,展现了当代大学生在学业压力下的真实状态。

2025-10-14 16:41:48 308

原创 OLTP 与 OLAP

摘要: OLTP(在线事务处理)与OLAP(在线分析处理)是数据处理的两大核心模式。OLTP面向高频业务操作(如订单支付),强调实时性、高并发和ACID事务,使用行存储关系型数据库;OLAP专注于历史数据分析(如销售报表),支持复杂聚合查询,采用列存储数据仓库。二者通过ETL流程形成数据闭环:OLTP产生原始数据,OLAP挖掘决策价值。HTAP技术则融合两者能力,实现实时事务与分析的统一。简言之,OLTP是“业务执行系统”,OLAP是“决策分析系统”,共同驱动企业数据价值链。

2025-10-13 10:34:59 452

原创 Apache Phoenix 全面解析:介绍、作用、工作流程与 HBase 关系

Apache Phoenix 是一个基于 HBase 的开源 SQL 引擎,为 HBase 提供标准 SQL 接口和 JDBC 驱动,解决了 HBase 原生 API 操作复杂的问题。其核心作用包括简化 HBase 数据操作、优化查询性能(通过二级索引、计算下推等技术)、集成生态工具(如 BI 工具、Flink/Spark)以及简化表结构管理。Phoenix 工作流程为:SQL 解析→查询优化→生成 HBase 操作序列→分布式执行→结果聚合。Phoenix 与 HBase 是上层工具与底层存储的关系,Ph

2025-10-13 10:28:44 1031

原创 Hadoop集群的启动与关闭

摘要: Hadoop集群启动应遵循依赖关系顺序:先启动HDFS(start-dfs.sh),再启动YARN(start-yarn.sh),最后启动HBase(start-hbase.sh)。关闭时逆向操作:先停HBase(stop-hbase.sh),再停YARN(stop-yarn.sh),最后停HDFS(stop-dfs.sh)。验证需通过jps检查各节点关键进程状态。使用绝对路径执行命令可避免环境变量问题,确保集群稳定运行。

2025-10-10 22:43:05 325

原创 HBase 集群启动问题排查总结(含流程图、方法表、心得体会)

本文总结了HBase集群启动过程中遇到的8个典型问题及解决方案。问题包括命令未找到、权限不足、环境变量配置错误、HDFS依赖问题、端口不一致等。核心解决思路涉及:确保PATH环境变量正确配置、统一目录权限和所有者、验证HDFS状态、检查端口配置一致性等。通过规范环境变量管理、统一集群配置、权限控制和进程管理,最终实现了HBase集群的稳定启动。这些经验对分布式系统运维具有普适参考价值。

2025-10-10 22:42:26 681

原创 HBase 2.4.18 安装指南

本文介绍了HBase 2.4.18的安装配置指南,内容涵盖HBase核心原理、安装准备工作、配置步骤、集群启动流程和故障排查方法。HBase作为分布式列式数据库,基于HDFS存储数据,通过ZooKeeper协调集群状态。安装过程包括创建目录、下载解压、配置关键文件(hbase-env.sh、hbase-site.xml等)和启动集群。文档特别强调了启动顺序和常见问题的解决方案,如端口冲突、HDFS权限和类路径问题。最后提供了安装验证表,帮助用户确认安装是否成功。

2025-10-10 22:41:42 413

原创 zookeeper(分布式应用程序协调服务软件)的本地部署

摘要 ZooKeeper 是分布式系统的核心协调服务,提供一致性保障、高可用性及简化接口。本地部署需下载预编译版本(如 3.5.6),配置集群时需确保: 所有节点的 zoo.cfg 文件一致(含 server.x=IP:2888:3888 列表); 各节点 dataDir 下的 myid 文件与配置对应; 开放 2181/2888/3888 端口。 常见问题包括:网络不通导致集群模式失效(显示 standalone)、myid 配置错误或端口冲突,可通过日志分析(zookeeper.out)和 telnet

2025-10-09 21:11:51 845

原创 20251008太原理工大学数字图像处理第二次作业

本文介绍了数字图像处理中的关键概念和方法。主要内容包括:1. 图像数字化规则,针对不同图像类型选择采样和量化策略;2. 图像质量评价指标,如动态范围、饱和度、对比度等;3. 算术运算在图像处理中的应用,包括平滑噪声、增强差异等;4. 图像重采样方法(最近邻、双线性、双三次)的原理、特点及适用场景对比。这些技术为图像处理提供了理论基础和实用方法,可根据不同需求选择合适的处理方式。

2025-10-08 17:17:13 656

原创 使用 Docker 部署 Hadoop 集群

虚拟机(Virtual Machine, VM)是通过软件模拟物理计算机硬件运行环境的程序或系统,允许多个操作系统在同一物理机上同时运行。其通过虚拟化技术抽象物理资源(CPU、内存等),为每个虚拟机提供独立环境,彼此隔离。类型:系统虚拟机(如 VMware、VirtualBox,可运行完整操作系统)和进程虚拟机(如 Java 虚拟机,用于特定应用)。优势:资源利用率高、灵活性强、易于管理,适用于服务器虚拟化、开发测试等场景。VMware 安装保姆级教程。

2025-10-08 15:06:02 1367

原创 20250928小白入门级新手教程markdown文档语法

链接: https://pan.baidu.com/s/1eXUJ1uEg07r0yADQ-AY5gg?pwd=winf 提取码: winf–来自百度网盘超级会员v3的分享。

2025-09-28 09:39:07 548

原创 20250928比特币减半次数计算

比特币减半次数

2025-09-28 08:45:12 243

原创 20250926比特币总量计算

比特币总量计算原理以及代码实现

2025-09-26 16:19:09 393

原创 清风数学建模-Matlab寒假学习-第三章矩阵运算-第二节矩阵【1】

继续在向量的基础上延申到二维或多维矩阵,进行更深一步的学习。

2025-01-25 21:06:55 1799

原创 清风数学建模-Matlab寒假学习-第三章矩阵运算-第一节向量的有关操作

开学就大二下学期了,前面因为某些社团耽误了数学建模的学习,所以我准备在寒假剩下的20天内,学完Matlab基础,并主攻编程部分,进行实战编写锻炼,最后实现能读懂代码,并且可以独立编写一些代码。

2025-01-20 19:46:33 677

原创 人生第一篇博客!!!

在追逐梦想的道路上还有很多的艰辛在等着我,但我不害怕,甚至有些兴奋,我还年轻,我还能拼,加油吧,18岁的我!

2023-11-24 10:43:56 403 4

原创 c语言的基础概念

/末尾隐藏了\0 (字符串的结束标志) "abc"----}abc\0。//*0 数字0 ‘0’ 字符0 ASCII 48。//ctrl+k+u 取消注释。//关键字:一批保留的名字的符号。//转义字符:转变原来字符的意义。//ctrl+k+c 注释。//*字符使用单引号引起来的。//format 格式。//*不能自己创造关键字。//*关键字不能当作变量。//字符和ASCII编码。//*0-31 无法打印。//print 打印。//%s 字符串 “”//%f 单精度浮点数。

2023-11-22 09:58:08 70

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除