开心快乐幸福一家人-优快云博客

原创 Spark-SQL与Hive集成及数据分析实践

将`hive-site.xml`、`core-site.xml`、`hdfs-site.xml`复制到Spark的`conf/`目录。若遇权限问题，可设置`System.setProperty("HADOOP_USER_NAME", "node01")`。统计满足条件（uid、phone、addr均非空）的有效数据条数，并找出用户数量最多的前20个地址。将MySQL驱动放入`jars/`目录，重启Spark服务即可连接Hive元数据。1. 内嵌Hive：无需额外配置，直接使用，但生产环境不推荐。

2025-04-21 17:55:48 812

原创 Spark核心架构与RDD：大数据处理的基石

Master & Worker：在独立部署模式下，Master负责资源调度，Worker管理节点资源，类似于YARN中的ResourceManager与NodeManager。Driver：作为控制节点，负责解析用户程序为作业（Job），调度任务（Task），并监控Executor的执行。Executor：工作节点中的JVM进程，执行具体任务，管理数据缓存（如RDD），任务间相互独立，具备容错能力。2. 依赖关系：窄依赖（父分区仅被子分区一对一依赖）与宽依赖（引发Shuffle，如GroupByKey）。

2025-04-09 18:19:39 439

原创 Spark概述

Spark的核心模块包括Spark Core、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX。Spark Core提供了Spark最基础与最核心的功能，而其他模块如Spark SQL用于操作结构化数据，Spark Streaming提供实时数据的流式计算，Spark MLlib提供机器学习算法库，Spark GraphX则面向图计算提供框架与算法库。本文将简要介绍Spark的基本概念、与Hadoop的对比、核心模块以及运行模式。Spark的运行模式。

2025-04-08 16:29:27 865

原创 Scala编程小练习：递归求和与水仙花数判断

以下是两个简单示例： 1. 递归求和通过递归计算1到n的和，需注意终止条件和逻辑完整性。原代码存在语法错误（如`if`与`else`不匹配），修正后如下： ```scala def sum(num: Int): Int = { if (num == 1) 1 else num + sum(num - 1) } ``` 调用`sum(10)`可计算1到10的和（结果为55）。修正语法错误后，这两个函数能高效实现目标功能，适合初学者练习基础语法与逻辑设计。

2025-04-02 17:18:42 233

原创 Scala：大数据开发的优雅之选

在大数据技术蓬勃发展的今天，Scala 凭借其独特的优势成为开发者钟爱的语言之一。它不仅完美兼容 Java 生态，还融合了函数式编程与面向对象编程的精髓，兼顾高效与简洁。支持面向对象、函数式编程，代码简洁且表达力强。例如，一行 `val sum = (1 to 10).reduce(_ + _)` 即可实现累加。提供丰富的不可变（`List`、`Set`）与可变集合（`ArrayBuffer`），支持链式操作。利用 Scala 的高阶函数和并行集合，编写高效的分布式数据处理逻辑，如 `RDD` 转换操作。

2025-04-01 22:22:43 394

原创 Scala：融合面向对象与函数式编程的现代语言

它完美融合了面向对象编程（OOP）与函数式编程（FP）的特性，既能构建复杂的层次化系统，又能以简洁的代码处理高并发任务。Scala以其优雅的语法、强大的功能和对现代编程范式的支持，成为开发者提升生产力的利器。无论是希望从Java过渡到更高效的语言，还是为大数据和分布式系统奠定基础，Scala都是值得深入学习的语言。大数据生态：Scala是Spark、Kafka等框架的核心语言，与Hadoop生态深度集成，是大数据领域的首选语言之一。函数式编程：提供高阶函数、不可变数据、模式匹配和闭包，简化复杂逻辑的实现。

2025-03-27 17:27:49 468

原创图像分割技术：从概念到应用

图像分割是计算机视觉领域的核心技术之一，旨在将图像中的每个像素划分到特定类别，从而精准识别目标轮廓。3. 全景分割：结合前两者，为每个像素同时分配语义类别和唯一实例ID，兼顾背景与前景的完整解析。无论是精准医疗还是无人驾驶，图像分割都扮演着“视觉理解之眼”的角色，持续推动AI技术落地生根。2. 实例分割：在语义分割基础上，区分同一类别的不同实例（如区分不同行人），常用于目标检测。VOC数据集：涵盖20类物体，支持语义与实例分割，包含近万张标注图像。医学影像：提取病灶或组织区域，辅助诊断。

2025-03-20 11:39:39 568

原创 YOLOV1与YOLOV2详解YOLO系列概述

其次，训练时采用更高分辨率的图像（448x448），并进行微调，进一步提升了检测性能。此外，YOLOV2通过K-means聚类提取先验框，引入Anchor Box，增加了预测的边界框数量，提升了检测精度。YOLOV2还具备一些特色功能，如感受野优化，通过堆叠小卷积核来增大感受野，同时减少参数数量。YOLOV1作为系列的开山之作，以其快速、简单的特点，广泛应用于实时视频检测领域。综上所述，YOLOV2在YOLOV1的基础上进行了多项改进和优化，提升了检测精度和适应性，为目标检测领域的发展做出了重要贡献。

2025-03-12 16:36:39 256

原创目标检测：从基础到应用

掌握其核心原理与评估方法，是深入实践的重要一步。在计算机视觉领域，目标检测是一项核心任务，旨在识别图像中的物体类别并定位其位置（通过边界框）。AP与mAP：AP（平均精度）通过P-R曲线面积计算，mAP是多个类别AP的平均值，综合反映模型性能。2. One-stage算法（如YOLO、SSD）：直接预测类别和位置，速度快，适合实时检测。COCO：规模更大，涵盖80类物体，平均每图标注7.2个目标，广泛用于复杂场景的模型训练。IoU（交并比）：衡量预测框与真实框的重合程度，高于阈值（如0.5）视为正确。

2025-03-11 16:50:55 579

原创人工智能与深度学习的演进与启示

早期感知机的局限性（如无法处理异或问题）催生了多层感知机（MLP），通过引入非线性激活函数（如ReLU）和隐藏层，模型具备了处理复杂模式的能力。LeNet、AlexNet和VGG等经典网络的迭代，体现了“更深更宽”的设计哲学，也验证了表示学习在视觉分层中的重要性——从边缘到语义特征的逐级抽象。从机械化到信息化再到人工智能时代，人类工业文明的演变揭示了技术驱动社会变革的本质。从线性回归到卷积网络，每一步突破都印证了“简单即有效”的工程智慧，而工具与框架的革新则为这场征程插上了翅膀。从理论到实践的技术跃迁。

2025-03-11 10:15:39 624

原创集成算法详解

其核心理念是：对于一个复杂任务，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。随机森林是Bagging的代表算法，它通过数据采样随机和特征选择随机来构造多个决策树，最终通过投票或平均的方式得出预测结果。AdaBoost是Boosting的典型代表，它通过给分类错误的样本增加权重，分类正确的样本降低权重，逐步训练出多个弱分类器，并最终根据各弱分类器的准确性确定其权重，组合成强分类器。结语集成算法通过结合多个学习器的预测结果，有效提高了模型的准确性和稳定性。

2025-03-05 16:10:39 289

原创图像分类技术概览

图像分类技术通过精准的评估指标、灵活的模型设计以及有效的样本处理策略，正广泛应用于各领域，助力智能化发展。‌召回率（Recall）‌：模型正确识别为正类的样本数占总正类样本数的比例，体现模型的查全能力。深度学习中，网络的深度指计算最长路径的卷积层+全连接层数量，而网络的宽度则指每个网络层的通道数。‌精确率（Accuracy）‌：模型识别正确的个数占总样本数的比例，是衡量模型效果的基本指标。‌准确率（Precision）‌：在识别为正类的样本中，真正为正类的比例，反映模型的查准能力。

2025-03-03 17:23:55 437

原创图像分类技术与应用

主对角线上的元素表示正确分类的样本数，其余元素表示错误分类的样本数。图像分类是计算机视觉领域的一个重要任务，旨在将不同的图像划分到预定义的类别标签中，以实现最小的分类误差。更细粒度的分类：随着数据集的不断丰富和模型能力的提升，图像分类将能够处理更加细粒度的分类任务，例如区分同一物种的不同个体。子类细粒度图像分类：这一层次要求对同一大类中的子类进行更细致的分类，例如区分不同种类的鸟类或不同型号的汽车。通用的多类别图像分类：这是最常见的分类任务，涉及将图像分类到广泛的类别中，如动物、植物、交通工具等。

2025-02-28 10:16:05 901

原创 Pytorch数据处理与可视化工具箱探索

然后，在训练过程中，通过SummaryWriter的add_scalar、add_image、add_histogram等方法记录各种指标和可视化数据。Pytorch的数据处理与可视化工具箱为我们提供了强大的功能，使得数据处理和模型训练过程中的可视化变得更加简单和高效。Pytorch，作为当前最流行的深度学习框架之一，提供了丰富的工具箱来帮助我们高效地处理数据和进行可视化。Pytorch的数据处理工具箱主要集中在torch.utils.data模块中，该模块为我们提供了处理数据集和数据加载的核心功能。

2025-02-27 12:56:40 594

原创用PyTorch玩转数据：从整理到“看图说话

PyTorch的Dataset类就像智能相册，只要定义好__getitem__（怎么找照片）和__len__（总共有多少张），它就能瞬间把你的数据码得整整齐齐。而DataLoader更像快递分拣员，能自动打包（批量处理）、随机抓取（数据打乱），现在还能用CUDA流预加载，训练时完全不用担心数据"断粮"。最近还新增了模糊匹配功能，像"布偶猫_2024"和"布偶猫_2025"会自动合并标签，妈妈再也不用担心我文件夹命名不规范了。今天就把这套"厨房级"工具链拆解给大家看看，连我这种手残党都能轻松上手。

2025-02-26 17:26:59 532

原创 PyTorch神经网络工具箱：轻松构建AI模型

nn.Module（如`nn.Linear`、`nn.Conv2d`）是“类”，需实例化后调用。无论是快速堆叠模型（用`Sequential`），还是自定义复杂结构（继承`nn.Module`），都能高效实现。nn.functional（如`F.relu`、`F.max_pool2d`）是纯函数，需手动传入参数。2. 定义损失函数与优化器：如交叉熵损失（`nn.CrossEntropyLoss`）和随机梯度下降（`torch.optim.SGD`）。三步搭建神经网络。训练模型四步走。

2025-02-25 16:44:23 595

原创 Pytorch神经网络工具箱入门指南

此外，我们还可以使用nn.ModuleList和nn.ModuleDict等模型容器来封装网络模块，提高代码的可读性和可维护性。例如，残差块（ResNet Block）就是一种常用的自定义模块，它通过将输入与输出相加，然后应用激活函数ReLU，来提高网络的性能。在Pytorch中，我们可以轻松地定义这样的模块，并将其集成到我们的神经网络中。今天，我们就来一起探索Pytorch神经网络工具箱，看看如何利用它来构建和训练神经网络。总之，Pytorch神经网络工具箱为我们提供了强大的工具来构建和训练神经网络。

2025-02-24 17:04:07 784

原创本文将介绍几种经典的卷积神经网络

近年来，深度学习在图像识别领域取得了令人瞩目的成就。本文将介绍几种经典的卷积神经网络（CNN）架构，包括LeNet、AlexNet和VGG，并通过一张图片详解它们的区别与演变历程。首先，我们来看LeNet（图a），它堪称最早出现的卷积神经网络之一，由Yann LeCun在1998年提出。LeNet主要由两个部分组成：卷积编码器和全连接层密集块。它能够通过不断调整和优化，实现手写数字识别等功能。随后，AlexNet应运而生（图b），它在2012年的ImageNet挑战赛上一举夺魁。相比LeNet，Alex

2025-02-21 10:19:38 244

原创《全连接到卷积神经网络：图像识别的演变历程》

这篇文章会从传统全连接层面临的困境说起，揭示卷积神经网络（CNN）成为图像识别核心动力的原因，探究其背后蕴含的设计思想与技术创新。但是回顾历史，CNN的出现提醒我们：技术的突破往往是由对自然规律的模仿和重新构建得来的。也许，当机器真的学会“像人一样看世界”的时候，它们的“眼睛”早就超过生物视觉的限制了。例如，用5×5的核处理224×224的输入时，只要25个参数（而不是全连接那种百万级的）。* 局部性：网络的底层只需留意局部的地方（像边缘、纹理这样的地方），不用管那些全局像素之间复杂的关系。

2025-02-20 11:11:52 619

原创从感知机到多层感知机：探索深度学习的基石——解析神经网络的核心概念与应用

训练过程中的前向传播与反向传播、模型评估中的泛化能力分析，以及过拟合与欠拟合的平衡，共同构成了构建高效模型的完整方法论。未来，随着更复杂的网络结构（如卷积神经网络、Transformer）的发展，这些基础理论仍将是理解前沿技术的钥匙。本文将从感知机出发，逐步深入多层感知机、激活函数、训练过程等核心概念，并探讨模型评估与优化的方法，为读者揭开深度学习的神秘面纱。它的工作原理非常简单：给定输入信号(x)、权重(w)和偏置(b)，输出通过线性加权和与阈值的比较结果（0或1）。此时，单层模型无法正确分类。

2025-02-19 16:37:41 596

原创线性回归与Softmax回归：从连续值预测到多类分类

例如，MNIST任务中，输入为784像素（28x28展开），输出层为10个神经元，分别表示数字0-9的置信度。例如，输入为\([1, -1, 2]\)时，Softmax结果为\([0.26, 0.04, 0.7]\)。当任务从预测连续值变为预测离散类别时（如手写数字识别），模型需要输出每个类别的**置信度**，并将其转化为概率分布。其中，\(w_i\)为权重，\(b\)为偏置，模型的目标是找到一组参数\((w, b)\)，使得预测值\(y\)尽可能接近真实值。其中，学习率（\(\eta\)）控制步长。

2025-02-18 18:12:17 602

原创图像识别技术与应用：从工业革命到人工智能时代

1950年，计算机科学之父艾伦·图灵提出“图灵测试”，用于评估机器是否具备人类水平的智能：测试者通过文字对话判断对方是人还是机器，若机器能误导30%以上的测试者，则视为通过测试。21世纪，我们正站在人工智能时代的浪潮之巅，而图像识别技术作为其中的核心技术之一，已悄然渗透到生活的方方面面。未来，我们不仅需要更强大的模型，还需建立技术应用的道德框架，让AI真正成为造福人类的工具。优化算法（Algorithm）：梯度下降是最常用的优化方法，通过计算损失函数的梯度逐步调整参数，使模型预测更接近真实值。

2025-02-17 19:03:18 815 1

2401_82434295的博客