- 博客(30)
- 收藏
- 关注
原创 文件内容课堂总结
sortByKey算子在一个(K,V)的RDD上调用,K须实现Ordered接口,返回按key排序的RDD。join算子在类型为(K,V)和(K,W)的RDD上调用,返回相同key对应的所有元素连接在一起的(K,(V,W))的RDD。cogroup算子在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD。reduce算子用于聚集RDD所有元素,先聚合分区内数据再聚合分区间数据。takeOrdered算子返回排序后的前n个元素组成的数组。
2025-04-11 18:02:26
99
原创 文件内容课堂总结
cogroup函数在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的RDD。join函数在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素连接在一起的(K,(V, W))的RDD。sortByKey函数在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的RDD。sortBy函数用于排序数据,排序后新产生的RDD的分区数与原RDD的分区数一致,中间存在shuffle的过程。
2025-04-10 19:28:39
304
原创 文件内容课堂总结
Spark在Yarn环境中通过资源申请、任务分解、调度执行完成计算,RDD封装逻辑并生成Task发送给Executor。弹性分布式数据集(RDD):Spark核心数据处理模型,具备弹性、不可变、可分区、并行计算特性。弹性:存储(内存/磁盘切换)、容错(自动恢复)、计算(重试机制)、分片(动态调整)。宽依赖:父分区被子分区多对多依赖(如reduceByKey),触发Shuffle。缓存(Cache/Persist):数据暂存内存/磁盘,血缘保留,可重复使用。
2025-04-09 19:17:56
367
原创 文件内容课堂总结
执行bin\spark-shell.cmd(启动Spark Shell).flatMap(_.split(" "))(按空格切分单词).reduceByKey(_ + _)(按单词聚合).map((_, 1))(转换为键值对)D:\spark(路径不含中文或空格).collect(输出结果)
2025-04-08 11:33:26
205
原创 文件内容课堂总结
Standalone模式:独立集群(Master-Worker架构),由Spark自身管理资源,适合小规模独立部署。Windows模式:支持本地Windows环境运行,避免虚拟机资源消耗,适合学习和本地开发。Yarn模式:集成Hadoop YARN资源调度,资源利用率高,是国内主流生产环境选择。Spark Core:提供基础功能(任务调度、内存管理、故障恢复),支持其他模块扩展。Local模式:单机本地运行,无需集群资源,适用于教学、调试和演示。数据通信:Spark基于内存,Hadoop基于磁盘。
2025-04-08 11:32:53
136
原创 文件内容课堂总结
例如,中提到,当IDEA自动生成的pom文件中Scala版本与本地环境不一致时,需要修改pom文件中的Scala版本以匹配本地环境版本。此外,也提到,Spark版本与Scala插件版本不一致会导致错误,因此需要确保Scala插件版本与项目需求一致。例如,中提到,即使安装了Scala插件,仍需引入Scala SDK才能解决“skipping Scala files without a Scala SDK in module”错误。解决方法:检查并修改pom.xml文件中的Scala版本,确保与本地环境一致。
2025-04-07 21:12:24
338
原创 文件内容课堂总结
水仙花数判断函数 isShuiXianHuaShu :判断输入的整数是否为水仙花数(三位数)。isShuiXianHuaShu(123) // 输出 "123 不是水仙花数"isShuiXianHuaShu(153) // 输出 "153 是水仙花数"val a = num / 100 // 百位。val b = (num % 100) / 10 // 十位。println(sum(10)) // 输出 55。// 判断三位数是否为水仙花数。
2025-04-02 20:25:35
163
原创 文件内容课堂总结
变量声明区分var(可变)与val(不可变),强调强类型校验机制。数据类型分为值类型(AnyVal)与引用类型(AnyRef),包含数值类型自动转换规则(如Int溢出转Long)。类型层级:Any(根类型)分为 AnyVal(值类型)和 AnyRef(引用类型)。特殊类型:Nothing(所有类型的子类)、Null(仅 null 值)。所有类型为对象(无基本类型),如 Int、Double、String。加强类型(如 RichInt)提供扩展方法(如 1.to(10))。
2025-04-01 19:51:43
358
原创 文件内容课堂总结
关键特征包括:静态类型体系、JVM字节码编译能力、与Java生态的无缝兼容。入门案例需掌握object对象中的main方法定义,理解Unit类型特性。变量声明区分var(可变)与val(不可变),强调强类型校验机制。数据类型分为值类型(AnyVal)与引用类型(AnyRef),包含数值类型自动转换规则(如Int溢出转Long)。特殊类型需注意:Unit替代void、Null引用类型限制、Nothing底层类型特性。类型转换包含自动提升(如Int→Long)与强制转换语法,数值与字符串互转需处理异常情况。
2025-03-31 20:53:00
92
原创 文件内容课堂总结
闭包:函数捕获外部变量(如 val f = (x: Int) => x * factor)。类型层级:Any(根类型)分为 AnyVal(值类型)和 AnyRef(引用类型)。arr.map(_ * 10) // 简写形式(等价于 x => x * 10)特殊类型:Nothing(所有类型的子类)、Null(仅 null 值)。所有类型为对象(无基本类型),如 Int、Double、String。加强类型(如 RichInt)提供扩展方法(如 1.to(10))。
2025-03-29 11:19:44
405
原创 文件内容课堂总结
核心结构:经典的编码器-解码器架构,通过特征拼接(跳跃连接)实现浅层与深层特征的融合。深度监督(Deep Supervision):多层级输出联合计算损失,提升训练效率。支持模型剪枝:因各层独立监督,可依据计算资源需求灵活剪枝模型深度,平衡速度与精度。引入密集连接(DenseNet思想),通过多层次特征融合增强信息传递。跳跃连接与特征拼接思想被广泛迁移到其他视觉任务(如检测、生成模型)。通过不同池化层整合低阶特征(如X1、X2层的轮廓信息)。定位:探索性改进方向,注重更精细的特征组合策略。
2025-03-21 11:13:49
282
原创 文件内容课堂总结
事物(Stuff):不可数的背景元素,如天空、草地,关注语义类别而非个体(语义分割)。物体(Things):可数的独立目标,如行人、汽车,通常需要区分个体(实例分割)。输出:单通道掩膜图(如Cityscapes中每个像素标注"道路"或"建筑")。优势:缓解类别不平衡问题(如Cityscapes中"道路"占比40%)。案例:自动驾驶场景中同时识别"路灯"(语义)和"第3号路灯"(实例)。如2012年版本:20类语义标签(如"人"、"车"),5k+实例。
2025-03-20 16:27:32
250
原创 文件内容课堂总结
需实现三级标题自动识别(H1/H2/H3),支持主流文档格式(Word/PDF/Markdown/纯文本)。据要点抓取:使用正则表达式库匹配数值模式(含千分位符/百分号/货币符号),结合领域词典识别专业术语(医学/金融/法律等)分句处理:基于NLTK中文分句器,结合句号/问号/感叹号/省略号多级断句。表格解析:支持Excel/CSV/PDF表格数据提取(准确率91%)公式识别:LaTeX公式结构化提取(数学/化学公式支持)图表解析:柱状图/折线图数据点识别(误差率≤3%)
2025-03-14 17:10:41
361
原创 文件内容课堂总结
该版本通过渐进式创新,在保持实时检测优势的同时,显著缩小了与两阶段检测器(如Faster R-CNN)的性能差距,成为当前工业级部署的主流方案之一。YOLO-V3作为YOLO系列的第三代改进版本,在保持实时检测速度优势的同时显著提升了小目标检测精度。如果设计三种不同尺度的特征图(13x13、26x26、52x52),对应不同大小目标的检测需求。整体网络舍弃传统池化层和全连接层,完全由卷积层构成,下采样通过步长为2的卷积实现。26x26层:检测20-40像素的中等目标(如行人)
2025-03-13 17:28:07
228
原创 文件内容课堂总结
YOLO(You Only Look Once)是一种经典的one-stage目标检测方法,通过将检测问题转化为回归问题,仅用一个CNN网络即可完成检测,可应用于视频实时检测,领域广泛。舍弃Dropout,卷积后全部加入Batch Normalization,网络每一层输入归一化,收敛更容易,提升约2%mAP,已成为网络必备处理。输出为(S*S)*(B*5 + C),其中C为类别数(当前数据集中有20个类别),B为每个网格预测的边界框数(2个),S为网格大小(7*7)。
2025-03-12 16:09:06
265
原创 文件内容课堂总结
计算预测框与真实框的重叠面积占比,用于判定检测结果是否为真阳性(TP)或假阳性(FP)。标注格式:XML文件,记录绝对坐标(Xmin/Ymin/Xmax/Ymax)。目标检测是同时识别图像中物体类别和定位其位置(通过边界框坐标)的多任务技术。mAP(均值AP):所有类别AP的算术平均,用于综合评估模型性能。查准率(Precision) = TP / (TP + FP)。标注格式:JSON文件,记录目标左上角坐标及宽高(非归一化)。TP/FP/TN/FN:基于IoU阈值划分检测结果类别。
2025-03-11 15:18:27
278
原创 文件内容课堂总结
PyTorch工具箱:数据处理:DataLoader(批量加载)、transforms(图像增强与转换)、ImageFolder(按目录读取数据)。卷积神经网络基础:卷积层(局部感知)、填充(Padding)、步幅(Stride)、多通道处理。训练流程:加载数据、定义模型、选择损失函数与优化器、循环训练、验证与测试、可视化结果。评估指标:混淆矩阵:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例)。经典模型:LeNet(1998):手写数字识别,由卷积层、池化层和全连接层组成。
2025-03-10 17:04:01
381
原创 文件内容课堂总结
常用公开数据集如MNIST(手写数字)、CIFAR-10(图像分类)等,可通过Keras等库直接加载。对于自定义数据,需进行数据清洗、格式转换(如图片裁剪为统一尺寸)。标签编码:分类任务需将标签转换为独热编码(如Keras的 to_categorical )。隐藏层:常用全连接层(Dense),可添加ReLU、Sigmoid等激活函数引入非线性。归一化:将像素值缩放至0-1范围(如 x_train / 255.0 )。输入层:节点数与特征维度一致(如MNIST图像展平为784维)。
2025-03-06 16:07:48
98
原创 文件内容课堂总结
Boosting(序列化方法):基学习器按顺序训练,每轮调整样本权重(错误样本权重增加,正确样本权重降低),最终加权组合弱学习器。Stacking(分阶段聚合):分两阶段训练——第一阶段用全部数据训练多个基学习器,第二阶段将基学习器的预测结果作为新特征,训练元学习器(如逻辑回归)组合结果。Bagging(并行化方法):基学习器独立训练,通过自助采样生成多样化数据集,结果通过投票或平均聚合。核心思想:分两阶段训练——第一阶段生成基学习器的预测结果作为新特征,第二阶段用元学习器(如逻辑回归)组合结果。
2025-03-05 16:59:19
172
原创 文件内容课堂总结
例如,输入特征图尺寸为 7 \times 7 \times 512 时,GAP会计算每个通道的均值,输出一个长度为512的一维向量。数学上,若特征图为 H \times W \times C,则输出为 C 个标量值,每个值对应一个通道的平均值。适应不同输入尺寸:GAP直接对整个特征图操作,无需固定尺寸,适用于图像分类、目标检测等任务中输入尺寸变化的情况。保留全局特征:通过整合通道内所有像素信息,GAP能捕捉特征图的全局上下文,增强模型对输入的整体表达能力。
2025-03-04 17:57:44
219
原创 文件内容课堂总结
PR曲线展示不同阈值下Precision与Recall的变化面积越大模型越好。1 通用多类别分类将图像划分到不同的大类如CIFAR10的10个类别。多类别混淆矩阵K×K矩阵主对角线表示正确分类数其余为错误数。3 实例级分类识别具体实例如区分不同个体的同一类物体。2 子类细粒度分类区分大类中的子类如不同品种的鸟类。精确率Accuracy模型整体预测正确的比例。召回率Recall实际正类中被正确预测的比例。宽度每层通道数如LeNet的C1层有6个通道。深度网络层数如LeNet为5层。PyTorch实现要点。
2025-03-03 20:04:55
201
原创 文章内容课堂总结
混淆矩阵 kk矩阵k为类别数 主对角线为正确分类数 非对角线为错误分类数。精确率 Precision 预测正类中实际正类的比例关注预测准确性。PR曲线 横轴为召回率 纵轴为精确率 曲线下面积越大模型性能越好。召回率 Recall 实际正类中被正确预测的比例关注覆盖能力。子类细粒度分类 区分更细粒度的类别如狗的品种而非仅动物。示例 LeNet中C1层有6个通道 C3层有16个通道。医疗影像 工业检测等领域因样本获取困难导致数据稀缺。定义 最长路径上的卷积层 全连接层数量。注意 对数据不平衡敏感。
2025-02-28 11:09:42
130
原创 文章内容课堂总结
PyTorch提供了一套完整的数据处理工具链,涵盖数据加载(`Dataset`/`DataLoader`)、预处理(`transforms`)、高效读取(`ImageFolder`)及可视化(TensorBoard),可大幅提升图像任务的开发效率。- 数据处理流程:`Dataset` → `DataLoader` → `transforms`预处理。- **数据加载效率**:合理设置`num_workers`和`pin_memory`以加速训练。
2025-02-26 17:21:30
225
原创 文章内容课堂总结
CPU 版本(无需 GPU):pip install torch torchvision torchaudio。确保数据在 GPU 上( .to(device) ),并使用 torch.no_grad() 加速推理。print(torch.cuda.is_available()) # 若为 True 表示 GPU 可用。需安装 NVIDIA GPU 驱动 + CUDA Toolkit(根据显卡型号选择版本)。检查 GPU 驱动、CUDA 和 cuDNN 是否安装正确,或切换 CPU 版本。
2025-02-25 11:25:28
383
原创 文章内容课堂总结
`nn.Module` 实例化后可链式调用(如 `model(input)`),而 `nn.functional` 需传递参数(如 `F.relu(x)`)。- Dropout 层在 `nn.Module` 中可通过 `model.eval()` 自动切换状态,`nn.functional` 需手动控制。- 状态管理:训练阶段 (`model.train()`) 和测试阶段 (`model.eval()`) 需手动切换。- 切换模型为测试模式 (`model.eval()`)。
2025-02-24 16:57:54
299
原创 文章内容课堂总结
$\text{共享参数比例} = \frac{\text{卷积层参数}}{\text{全连接等效参数}} = \frac{C_{in}C_{out}k_hk_w}{H_{in}W_{in}C_{in}H_{out}W_{out}C_{out}}}$$- \( n \) 个 \( 3 \times 3 \) 卷积层(参数:\( 3 \times 3 \times C_{in} + 1 \))- \(I\): 输入矩阵,\(K\): 卷积核,\(b\): 偏置,\(k_h/k_w\): 核高/宽。
2025-02-21 11:19:24
317
原创 文章内容课堂内容
text{低层} \xrightarrow{\text{边缘/纹理}} \text{中层} \xrightarrow{\text{物体部件}} \text{高层} \xrightarrow{\text{语义}}- \( N_{\text{in}} \): 输入神经元数,\( N_{\text{out}} \): 输出神经元数。- \( H \): 输入高度,\( K \): 卷积核尺寸,\( P \): 填充,\( S \): 步幅。- 结构:2个卷积层(5×5核,Sigmoid激活)+3个全连接层。
2025-02-20 09:49:21
229
原创 文章内容课堂总结
**与门真值表**:参数示例(0.5,0.5,-0.7)、(0.5,0.5,-0.8)、(1.0,1.0,-1.0)。- **异或门**:无法通过单层感知机实现(线性不可分问题)。- **与非门**:参数(-0.5, -0.5, 0.7)。- **验证数据集**:用于评估模型(避免与训练数据混用)。- **过拟合**:模型过度适应训练数据特性(如死记硬背)。- **解决方案**:权重衰减、暂退法(Dropout)。- **或门**:参数(0.5, 0.5, -0.3)。
2025-02-19 17:14:07
229
原创 内容课堂总结
梯度指示的反向是各点处的函数值减小最多的方向,但无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。在寻找函数的最小值的位置任务中,以梯度的信息为线索,决定前进的方向。流程:在梯度法中,函数的取值从当前位置沿着梯度方向前进一定的距离,然后在新的方向重新求梯度,再沿着新梯度的方向前进,如此反复,不断的沿梯度方向前进。回归问题最常用的损失函数是平方损失。流程:在梯度法中,函数的取值从当前位置沿着梯度方向前进一定的距离,然后在新的方向重新求梯度,再沿着新梯度的方向前进,如此反复,不断的沿梯度方向前进。
2025-02-18 11:13:39
164
原创 文章内容课堂总结
它主要包含多个步骤,首先是图像采集,这个过程就像是为后续的处理搭建一个基础架构,从各种途径获取到图像信息。去噪能去除图像采集过程中可能混入的干扰信息,如同清洁一块被弄脏的玻璃,让图像更加清晰纯净;特征提取:通过算法提取图像中的关键特征,如颜色、形状、纹理等。常用的特征提取方法包括霍夫变换、矢量基元组合方法、基于最优熵的分割等。常见的方法有基于模板匹配、基于特征提取和基于机器学习的算法。图像处理:包括图像采集、预处理(如去噪、增强、归一化等)、特征提取等步骤。这些步骤为后续的图形识别提供了基础数据。
2025-02-17 18:37:30
130
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人