自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Spark-SQL与Hive集成及数据分析实践

将`hive-site.xml`、`core-site.xml`、`hdfs-site.xml`复制到Spark的`conf/`目录。若遇权限问题,可设置`System.setProperty("HADOOP_USER_NAME", "node01")`。统计满足条件(uid、phone、addr均非空)的有效数据条数,并找出用户数量最多的前20个地址。将MySQL驱动放入`jars/`目录,重启Spark服务即可连接Hive元数据。1. 内嵌Hive:无需额外配置,直接使用,但生产环境不推荐。

2025-04-21 17:55:48 812

原创 Spark核心架构与RDD:大数据处理的基石

Master & Worker:在独立部署模式下,Master负责资源调度,Worker管理节点资源,类似于YARN中的ResourceManager与NodeManager。Driver:作为控制节点,负责解析用户程序为作业(Job),调度任务(Task),并监控Executor的执行。Executor:工作节点中的JVM进程,执行具体任务,管理数据缓存(如RDD),任务间相互独立,具备容错能力。2. 依赖关系:窄依赖(父分区仅被子分区一对一依赖)与宽依赖(引发Shuffle,如GroupByKey)。

2025-04-09 18:19:39 439

原创 Spark概述

Spark的核心模块包括Spark Core、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX。Spark Core提供了Spark最基础与最核心的功能,而其他模块如Spark SQL用于操作结构化数据,Spark Streaming提供实时数据的流式计算,Spark MLlib提供机器学习算法库,Spark GraphX则面向图计算提供框架与算法库。本文将简要介绍Spark的基本概念、与Hadoop的对比、核心模块以及运行模式。Spark的运行模式。

2025-04-08 16:29:27 865

原创 Scala编程小练习:递归求和与水仙花数判断

以下是两个简单示例: 1. 递归求和 通过递归计算1到n的和,需注意终止条件和逻辑完整性。原代码存在语法错误(如`if`与`else`不匹配),修正后如下: ```scala def sum(num: Int): Int = { if (num == 1) 1 else num + sum(num - 1) } ``` 调用`sum(10)`可计算1到10的和(结果为55)。修正语法错误后,这两个函数能高效实现目标功能,适合初学者练习基础语法与逻辑设计。

2025-04-02 17:18:42 233

原创 Scala:大数据开发的优雅之选

在大数据技术蓬勃发展的今天,Scala 凭借其独特的优势成为开发者钟爱的语言之一。它不仅完美兼容 Java 生态,还融合了函数式编程与面向对象编程的精髓,兼顾高效与简洁。支持面向对象、函数式编程,代码简洁且表达力强。例如,一行 `val sum = (1 to 10).reduce(_ + _)` 即可实现累加。提供丰富的不可变(`List`、`Set`)与可变集合(`ArrayBuffer`),支持链式操作。利用 Scala 的高阶函数和并行集合,编写高效的分布式数据处理逻辑,如 `RDD` 转换操作。

2025-04-01 22:22:43 394

原创 Scala:融合面向对象与函数式编程的现代语言

它完美融合了面向对象编程(OOP)与函数式编程(FP)的特性,既能构建复杂的层次化系统,又能以简洁的代码处理高并发任务。Scala以其优雅的语法、强大的功能和对现代编程范式的支持,成为开发者提升生产力的利器。无论是希望从Java过渡到更高效的语言,还是为大数据和分布式系统奠定基础,Scala都是值得深入学习的语言。大数据生态:Scala是Spark、Kafka等框架的核心语言,与Hadoop生态深度集成,是大数据领域的首选语言之一。函数式编程:提供高阶函数、不可变数据、模式匹配和闭包,简化复杂逻辑的实现。

2025-03-27 17:27:49 468

原创 图像分割技术:从概念到应用

图像分割是计算机视觉领域的核心技术之一,旨在将图像中的每个像素划分到特定类别,从而精准识别目标轮廓。3. 全景分割:结合前两者,为每个像素同时分配语义类别和唯一实例ID,兼顾背景与前景的完整解析。无论是精准医疗还是无人驾驶,图像分割都扮演着“视觉理解之眼”的角色,持续推动AI技术落地生根。2. 实例分割:在语义分割基础上,区分同一类别的不同实例(如区分不同行人),常用于目标检测。VOC数据集:涵盖20类物体,支持语义与实例分割,包含近万张标注图像。医学影像:提取病灶或组织区域,辅助诊断。

2025-03-20 11:39:39 568

原创 YOLOV1与YOLOV2详解YOLO系列概述

其次,训练时采用更高分辨率的图像(448x448),并进行微调,进一步提升了检测性能。此外,YOLOV2通过K-means聚类提取先验框,引入Anchor Box,增加了预测的边界框数量,提升了检测精度。YOLOV2还具备一些特色功能,如感受野优化,通过堆叠小卷积核来增大感受野,同时减少参数数量。YOLOV1作为系列的开山之作,以其快速、简单的特点,广泛应用于实时视频检测领域。综上所述,YOLOV2在YOLOV1的基础上进行了多项改进和优化,提升了检测精度和适应性,为目标检测领域的发展做出了重要贡献。

2025-03-12 16:36:39 256

原创 目标检测:从基础到应用

掌握其核心原理与评估方法,是深入实践的重要一步。在计算机视觉领域,目标检测是一项核心任务,旨在识别图像中的物体类别并定位其位置(通过边界框)。AP与mAP:AP(平均精度)通过P-R曲线面积计算,mAP是多个类别AP的平均值,综合反映模型性能。2. One-stage算法(如YOLO、SSD):直接预测类别和位置,速度快,适合实时检测。COCO:规模更大,涵盖80类物体,平均每图标注7.2个目标,广泛用于复杂场景的模型训练。IoU(交并比):衡量预测框与真实框的重合程度,高于阈值(如0.5)视为正确。

2025-03-11 16:50:55 579

原创 人工智能与深度学习的演进与启示

早期感知机的局限性(如无法处理异或问题)催生了多层感知机(MLP),通过引入非线性激活函数(如ReLU)和隐藏层,模型具备了处理复杂模式的能力。LeNet、AlexNet和VGG等经典网络的迭代,体现了“更深更宽”的设计哲学,也验证了表示学习在视觉分层中的重要性——从边缘到语义特征的逐级抽象。从机械化到信息化再到人工智能时代,人类工业文明的演变揭示了技术驱动社会变革的本质。从线性回归到卷积网络,每一步突破都印证了“简单即有效”的工程智慧,而工具与框架的革新则为这场征程插上了翅膀。从理论到实践的技术跃迁。

2025-03-11 10:15:39 624

原创 集成算法详解

其核心理念是:对于一个复杂任务,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。随机森林是Bagging的代表算法,它通过数据采样随机和特征选择随机来构造多个决策树,最终通过投票或平均的方式得出预测结果。AdaBoost是Boosting的典型代表,它通过给分类错误的样本增加权重,分类正确的样本降低权重,逐步训练出多个弱分类器,并最终根据各弱分类器的准确性确定其权重,组合成强分类器。结语集成算法通过结合多个学习器的预测结果,有效提高了模型的准确性和稳定性。

2025-03-05 16:10:39 289

原创 图像分类技术概览

图像分类技术通过精准的评估指标、灵活的模型设计以及有效的样本处理策略,正广泛应用于各领域,助力智能化发展。‌召回率(Recall)‌:模型正确识别为正类的样本数占总正类样本数的比例,体现模型的查全能力。深度学习中,网络的深度指计算最长路径的卷积层+全连接层数量,而网络的宽度则指每个网络层的通道数。‌精确率(Accuracy)‌:模型识别正确的个数占总样本数的比例,是衡量模型效果的基本指标。‌准确率(Precision)‌:在识别为正类的样本中,真正为正类的比例,反映模型的查准能力。

2025-03-03 17:23:55 437

原创 图像分类技术与应用

主对角线上的元素表示正确分类的样本数,其余元素表示错误分类的样本数。图像分类是计算机视觉领域的一个重要任务,旨在将不同的图像划分到预定义的类别标签中,以实现最小的分类误差。更细粒度的分类:随着数据集的不断丰富和模型能力的提升,图像分类将能够处理更加细粒度的分类任务,例如区分同一物种的不同个体。子类细粒度图像分类:这一层次要求对同一大类中的子类进行更细致的分类,例如区分不同种类的鸟类或不同型号的汽车。通用的多类别图像分类:这是最常见的分类任务,涉及将图像分类到广泛的类别中,如动物、植物、交通工具等。

2025-02-28 10:16:05 901

原创 Pytorch数据处理与可视化工具箱探索

然后,在训练过程中,通过SummaryWriter的add_scalar、add_image、add_histogram等方法记录各种指标和可视化数据。Pytorch的数据处理与可视化工具箱为我们提供了强大的功能,使得数据处理和模型训练过程中的可视化变得更加简单和高效。Pytorch,作为当前最流行的深度学习框架之一,提供了丰富的工具箱来帮助我们高效地处理数据和进行可视化。Pytorch的数据处理工具箱主要集中在torch.utils.data模块中,该模块为我们提供了处理数据集和数据加载的核心功能。

2025-02-27 12:56:40 594

原创 用PyTorch玩转数据:从整理到“看图说话

PyTorch的Dataset类就像智能相册,只要定义好__getitem__(怎么找照片)和__len__(总共有多少张),它就能瞬间把你的数据码得整整齐齐。而DataLoader更像快递分拣员,能自动打包(批量处理)、随机抓取(数据打乱),现在还能用CUDA流预加载,训练时完全不用担心数据"断粮"。最近还新增了模糊匹配功能,像"布偶猫_2024"和"布偶猫_2025"会自动合并标签,妈妈再也不用担心我文件夹命名不规范了。今天就把这套"厨房级"工具链拆解给大家看看,连我这种手残党都能轻松上手。

2025-02-26 17:26:59 532

原创 PyTorch神经网络工具箱:轻松构建AI模型

nn.Module(如`nn.Linear`、`nn.Conv2d`)是“类”,需实例化后调用。无论是快速堆叠模型(用`Sequential`),还是自定义复杂结构(继承`nn.Module`),都能高效实现。nn.functional(如`F.relu`、`F.max_pool2d`)是纯函数,需手动传入参数。2. 定义损失函数与优化器:如交叉熵损失(`nn.CrossEntropyLoss`)和随机梯度下降(`torch.optim.SGD`)。三步搭建神经网络 。训练模型四步走 。

2025-02-25 16:44:23 595

原创 Pytorch神经网络工具箱入门指南

此外,我们还可以使用nn.ModuleList和nn.ModuleDict等模型容器来封装网络模块,提高代码的可读性和可维护性。例如,残差块(ResNet Block)就是一种常用的自定义模块,它通过将输入与输出相加,然后应用激活函数ReLU,来提高网络的性能。在Pytorch中,我们可以轻松地定义这样的模块,并将其集成到我们的神经网络中。今天,我们就来一起探索Pytorch神经网络工具箱,看看如何利用它来构建和训练神经网络。总之,Pytorch神经网络工具箱为我们提供了强大的工具来构建和训练神经网络。

2025-02-24 17:04:07 784

原创 本文将介绍几种经典的卷积神经网络

近年来,深度学习在图像识别领域取得了令人瞩目的成就。本文将介绍几种经典的卷积神经网络(CNN)架构,包括LeNet、AlexNet和VGG,并通过一张图片详解它们的区别与演变历程。 首先,我们来看LeNet(图a),它堪称最早出现的卷积神经网络之一,由Yann LeCun在1998年提出。LeNet主要由两个部分组成:卷积编码器和全连接层密集块。它能够通过不断调整和优化,实现手写数字识别等功能。 随后,AlexNet应运而生(图b),它在2012年的ImageNet挑战赛上一举夺魁。相比LeNet,Alex

2025-02-21 10:19:38 244

原创 《全连接到卷积神经网络:图像识别的演变历程》

这篇文章会从传统全连接层面临的困境说起,揭示卷积神经网络(CNN)成为图像识别核心动力的原因,探究其背后蕴含的设计思想与技术创新。但是回顾历史,CNN的出现提醒我们:技术的突破往往是由对自然规律的模仿和重新构建得来的。也许,当机器真的学会“像人一样看世界”的时候,它们的“眼睛”早就超过生物视觉的限制了。例如,用5×5的核处理224×224的输入时,只要25个参数(而不是全连接那种百万级的)。* 局部性:网络的底层只需留意局部的地方(像边缘、纹理这样的地方),不用管那些全局像素之间复杂的关系。

2025-02-20 11:11:52 619

原创 从感知机到多层感知机:探索深度学习的基石——解析神经网络的核心概念与应用

训练过程中的前向传播与反向传播、模型评估中的泛化能力分析,以及过拟合与欠拟合的平衡,共同构成了构建高效模型的完整方法论。未来,随着更复杂的网络结构(如卷积神经网络、Transformer)的发展,这些基础理论仍将是理解前沿技术的钥匙。本文将从感知机出发,逐步深入多层感知机、激活函数、训练过程等核心概念,并探讨模型评估与优化的方法,为读者揭开深度学习的神秘面纱。它的工作原理非常简单:给定输入信号(x)、权重(w)和偏置(b),输出通过线性加权和与阈值的比较结果(0或1)。此时,单层模型无法正确分类。

2025-02-19 16:37:41 596

原创 线性回归与Softmax回归:从连续值预测到多类分类

例如,MNIST任务中,输入为784像素(28x28展开),输出层为10个神经元,分别表示数字0-9的置信度。例如,输入为\([1, -1, 2]\)时,Softmax结果为\([0.26, 0.04, 0.7]\)。当任务从预测连续值变为预测离散类别时(如手写数字识别),模型需要输出每个类别的**置信度**,并将其转化为概率分布。其中,\(w_i\)为权重,\(b\)为偏置,模型的目标是找到一组参数\((w, b)\),使得预测值\(y\)尽可能接近真实值。其中,学习率(\(\eta\))控制步长。

2025-02-18 18:12:17 602

原创 图像识别技术与应用:从工业革命到人工智能时代

1950年,计算机科学之父艾伦·图灵提出“图灵测试”,用于评估机器是否具备人类水平的智能:测试者通过文字对话判断对方是人还是机器,若机器能误导30%以上的测试者,则视为通过测试。21世纪,我们正站在人工智能时代的浪潮之巅,而图像识别技术作为其中的核心技术之一,已悄然渗透到生活的方方面面。未来,我们不仅需要更强大的模型,还需建立技术应用的道德框架,让AI真正成为造福人类的工具。优化算法(Algorithm):梯度下降是最常用的优化方法,通过计算损失函数的梯度逐步调整参数,使模型预测更接近真实值。

2025-02-17 19:03:18 815 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除