北屿升：-优快云博客

原创 spark总结

所以是否可以推论，该指标过高的店铺存在刷单，刷销量的行为。那么，双11活动反而在双11当天的销量有剧烈的下滑，其原因大概率是双11的预热、预售活动等等。在临近双11时，9日销量达到最高，因为更临近了，所以关注的人更多，购买的人更多。但是在10日有所下降，和双11下降有相同的理由，是人们都主观的认为双11当天的购买人数太多，可能会有网络、平台卡顿导致无法成功下单的忧虑，所以反而造成了双11当天销量急剧下滑。通过加入平均每单单价之后，观察销售额较高的几个品牌相宜本草，欧莱雅，佰草集，悦诗风吟，雅诗兰黛。

2025-05-07 19:23:23 509

原创星火燎原：大数据时代的Spark技术革命在数字化浪潮席卷全球的今天，海量数据如同奔涌不息的洪流，传统的数据处理方式已难以满足实时、高效的需求。

随着时间的推移，Spark不断完善和扩展，逐渐形成了一个涵盖数据处理全流程的生态系统，包括Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图计算库）等组件，广泛应用于数据科学、商业智能、实时分析等多个领域。在未来，Spark必将继续引领大数据处理的潮流，为数字化时代的数据驱动决策和创新发展提供强大的动力，如同星火一般，照亮大数据世界的每一个角落，实现燎原之势。在数字化浪潮席卷全球的今天，海量数据如同奔涌不息的洪流，传统的数据处理方式已难以满足实时、高效的需求。

2025-04-25 21:44:26 1239

原创 Spark-Streaming

存在的问题，接收数据的 Executor 和计算的 Executor 速度会有所不同，特别在接收数据的 Executor速度大于计算的 Executor 速度，会导致计算数据的节点内存溢出。DirectAPI：是由计算的 Executor 来主动消费 Kafka 的数据，速度由自身控制。一个topic中的数据，只能被一个groupId所属的consumer消费一次。每一条数据，只存在于当前主题的一个分区中，所有的副本中，都有数据。读取数据时，分区间的数据是无序的，分区中的数据是有序。

2025-04-24 15:26:43 595

原创星火燎原：Spark技术如何重塑大数据处理格局

未来，Spark将朝着更高效、更智能的方向发展。随着人工智能技术的快速发展，Spark将与机器学习、深度学习进行更深度的融合，推出更多智能化的功能和算法，为企业提供更强大的数据分析和决策支持能力。在未来，随着技术的不断进步和创新，Spark有望继续引领大数据处理技术的发展潮流，点燃更多领域的创新之火，为数字化时代的发展提供强大的动力支持。而Apache Spark作为大数据领域的明星框架，凭借其卓越的性能与强大的功能，如同一束璀璨的星火，照亮了大数据处理的新征程，在全球范围内掀起了一场技术变革的燎原之势。

2025-04-23 18:58:00 1013

原创 Spark SQL核心解析：大数据时代的结构化处理利器

逻辑计划生成后，Catalyst优化器会对其进行一系列的优化，包括谓词下推（将过滤条件尽可能下推到数据源读取阶段，减少数据扫描量）、列裁剪（只选取查询中需要的列，减少数据传输和处理开销）、常量折叠（在编译时计算常量表达式的值）等。逻辑计划描述了查询的逻辑操作，如过滤、投影、连接等，但不涉及具体的执行细节。Spark SQL提供了丰富的数据转换和处理函数，可以方便地对数据进行清洗（如去除重复数据、填充缺失值）、转换（如数据类型转换、特征提取）等操作，为后续的数据分析和建模提供高质量的数据。

2025-04-21 21:37:30 975

原创 spatk-sql核心

以Hive为例，Spark SQL可以直接访问Hive的元数据和表数据，无需额外的数据迁移操作，这使得企业能够在不改变现有数据存储架构的前提下，利用Spark SQL强大的处理能力对Hive中的海量数据进行分析。DataFrame是一种以命名列方式组织的分布式数据集，本质上是Dataset[Row]，每一行数据类型为Row，它提供了类似于传统关系数据库表的操作方式，支持SQL查询语法和DataFrame API操作，方便数据分析人员使用熟悉的方式处理数据。一、Spark SQL的架构基石。

2025-04-15 19:15:07 630

原创 spark-sql核心

Catalyst优化器是Spark SQL的智能大脑，它将用户编写的SQL语句或者DataFrame操作转换为逻辑执行计划，再利用基于成本和规则的优化策略，生成高效的物理执行计划。Spark SQL作为Spark生态系统的核心组件之一，以其独特的架构设计、高效的工作原理和广泛的应用场景，成为大数据处理领域不可或缺的工具。在大数据处理领域，Apache Spark已成为极为重要的分布式计算框架，而Spark SQL作为其重要组件，极大地拓展了Spark的能力边界，为结构化数据处理提供了高效、便捷的解决方案。

2025-04-14 18:22:31 1017

原创 spark Core

Apache Spark作为当今最为流行的大数据处理框架之一，其核心组件Spark Core为整个Spark生态系统提供了基础的分布式计算能力。本文将深入探讨Spark Core的核心概念、架构、编程模型以及其在实际应用中的优势与场景。在Spark Core中，对RDD的操作分为转换和行动两类。首先从文本文件创建RDD，然后通过flatMap将每行文本拆分成单词，接着使用map为每个单词创建键值对，最后通过reduceByKey对相同单词的计数进行累加，完成词频统计。四、Spark Core编程模型。

2025-04-11 14:31:36 920

原创 spark core

② 功能的角度Map 算子主要目的将数据源中的数据进行转换和改变。使用 map 操作。一个组的数据在一个分区中，但是并不是说一个分区中只有一个组val dataRDD = sparkContext.makeRDD(List(1,2,3,4),1)val dataRDD1 = dataRDD.groupBy( _%2) 7）filter① 函数签名def filter(f: T => Boolean): RDD[T]② 函数说明将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。

2025-04-10 16:50:57 938

原创大数据技术之Scala

④扁平化+映射注：flatMap 相当于先进行 map 操作，在进行 flatten 操作集合中的每个元素的子元素映射到某个函数并返回新集合。Reduce 简化（归约）：通过指定的逻辑将集合中的数据进行聚合，从而减少数据，最终获取结果。//（2）转化/映射println(list.map(x => x + 1))// 单词计数：将集合中出现的相同的单词，进行计数，取计数排名前三的结。单词计数：将集合中出现的相同的单词，进行计数，取计数排名前三的结果。// 4) 对计数完成后的结果进行排序（降序）

2025-04-08 11:14:22 1061

原创 Scala：大数据时代的多面手

在大数据编程中，开发者可更专注于业务逻辑，而非复杂的类型声明。比如，Scala可使用JavaBeans风格的属性访问器，使两种语言间的数据交互更自然，在大数据项目整合Java与Scala代码时极为便利。• Maven与Gradle的补充：由于Scala与Java的兼容性，Maven和Gradle也能用于构建Scala项目，方便在混合语言项目中集成Scala代码。• 性能优化难度：尽管Scala基于JVM，有不错的性能，但要充分发挥其潜力，开发者需深入理解底层机制，进行性能调优，这对开发者要求较高。

2025-04-01 16:23:31 1177

原创大数据技术之Scala：特性、应用与生态系统

它与 Java 无缝兼容，可运行于 Java 虚拟机（JVM）之上，这使其能够充分利用 Java 丰富的类库资源，同时又提供了更为灵活和强大的编程模型，满足大数据处理的复杂需求。同时，阐述其在大数据处理框架（如 Apache Spark）中的广泛应用，并介绍围绕 Scala 形成的丰富生态系统，包括相关工具与库，为大数据开发者全面了解和运用 Scala 提供参考。• 高阶函数与集合操作：Scala 的集合类提供了丰富的高阶函数，如 map、filter、reduce 等，方便对集合中的元素进行批量处理。

2025-03-31 18:36:53 1043

原创探索Scala基础：融合函数式与面向对象编程的强大语言

Scala拥有丰富的数据类型，包括数值类型（Byte、Short、Int、Long、Float、Double）、字符类型（Char）、布尔类型（Boolean）以及字符串类型（String）等。Scala作为一门在现代编程领域备受瞩目的编程语言，融合了函数式编程和面向对象编程的特性，运行于Java虚拟机（JVM）之上，与Java有着良好的互操作性。Scala还提供了单例对象的概念，使用object关键字定义，它类似于Java中的静态类，可以包含属性和方法，常用于工具类或存放全局共享的常量和方法。

2025-03-29 11:56:12 622

原创基于深度学习的图像分割项目实践：从理论到应用

U-Net的跳跃连接设计，能够有效地融合不同层次的特征，对小目标的分割表现出色，在医学图像分割中应用广泛。本项目开发的图像分割模型可集成到医院的影像诊断系统中，为医生提供快速、准确的肺部CT图像分割结果，辅助医生进行疾病诊断和病情评估。同时，为了增加数据的多样性，采用了数据增强技术，如旋转、翻转、噪声添加等，扩充训练数据集，防止模型过拟合。2. 实时分割与移动端应用：优化模型结构和算法，实现模型的轻量化和实时性，使其能够在移动设备上运行，为远程医疗和基层医疗提供便捷的影像诊断支持。

2025-03-20 14:50:22 921

原创 YOLOv4：目标检测的卓越进展

未来，随着硬件技术的不断发展和新算法的研究，有望进一步提升YOLOv4的性能。PANet在FPN（Feature Pyramid Network）的基础上，增加了自下而上的路径增强，使得底层的强定位特征能够更好地传递到高层，高层的强语义特征也能更好地融合到底层，从而提升了不同尺度目标的检测性能。YOLO（You Only Look Once）系列算法凭借其快速的检测速度和较高的准确率，成为目标检测领域的重要力量，而YOLOv4则是这一系列算法中的杰出代表，进一步推动了目标检测技术的发展。

2025-03-14 17:10:26 1090

原创 YOLOv3：目标检测领域的璀璨之星

这种多尺度检测机制，使得YOLOv3在复杂场景下，无论是微小的物体还是较大的物体，都能取得较好的检测效果。在自动驾驶领域，YOLOv3可用于检测道路上的车辆、行人、交通标志等，帮助自动驾驶汽车做出正确的决策，确保行驶安全。与传统的基于区域提议的目标检测算法（如R-CNN系列）不同，YOLOv3无需生成大量的候选区域，而是直接在一次前向传播中预测出目标的类别和位置，大大提高了检测速度。随着研究的不断深入和技术的持续创新，相信基于YOLOv3改进和发展的算法将在未来的计算机视觉领域发挥更加重要的作用。

2025-03-13 10:14:47 778

原创从YOLOv1到YOLOv2：目标检测算法的革新与演进

这种端到端的设计，使得模型只需对图像进行一次前向传播，就能直接输出检测结果，相比基于区域提议的传统算法，检测速度大幅提高，实现了实时检测的可能。对比YOLOv1和YOLOv2，后者在性能上的提升是全方位的。其中，YOLOv1和YOLOv2作为该系列的重要成员，各自以独特的设计理念和技术创新，在目标检测的发展历程中留下了浓墨重彩的一笔。它们不仅为后续YOLO系列算法的发展提供了宝贵经验，也为整个计算机视觉领域的发展注入了强大动力，激励着研究者们不断探索和创新，以实现更加智能、高效的目标检测技术。

2025-03-12 16:26:32 818

原创目标检测项目

尽管面临复杂场景检测精度、小目标检测、实时性与准确性平衡等挑战，但随着模型轻量化、多模态融合、弱监督学习等技术发展，目标检测技术将不断完善，为各行业智能化发展提供更强大支持，在未来发挥更大作用。通过车载摄像头、雷达等传感器数据，检测道路上的车辆、行人、交通标志和信号灯等目标，为自动驾驶车辆提供决策依据，确保行驶安全。• 模型轻量化与加速：研究轻量化神经网络结构和模型压缩技术，如剪枝、量化等，在不损失太多精度前提下减少模型参数和计算量，提高检测速度，满足移动设备和嵌入式系统实时检测需求。

2025-03-11 11:16:45 742

原创机器学习与深度学习算法及工具在图像分类中的应用总结

在图像分类中，通过训练多个不同的 CNN 模型（例如不同结构的 CNN 或者在不同数据子集上训练的相同结构 CNN），然后将这些模型的预测结果进行融合，如简单投票法（分类任务）或平均法（回归任务），可以提高分类的准确性和稳定性。综上所述，线性回归和 Softmax 回归是基础的机器学习模型，多层感知机引入非线性提升了表达能力，卷积神经网络则针对图像数据特点设计，成为图像分类的主流模型。在图像分类项目中，尤其是面对复杂的图像数据和高难度的分类任务时，集层算法可以显著提升模型的性能，使其更加鲁棒和准确。

2025-03-10 16:53:05 982

原创手写数字识别项目：从原理到实践

通过深入理解其原理，合理选择数据集和模型，并进行有效的训练和优化，可以实现较高的识别准确率，为实际应用提供有力的支持。该数据集的图像已经经过了预处理，如归一化和中心化，方便进行算法的训练和测试。在当今数字化时代，手写数字识别作为模式识别和人工智能领域的重要应用，有着广泛的用途，如邮政信封上的邮编识别、银行支票上的数字处理等。除了 MNIST 数据集，还有其他一些公开的手写数字数据集，如 USPS 数据集、EMNIST 数据集等，它们在图像的风格、数量和质量上各有特点，可以根据具体的需求选择合适的数据集。

2025-03-06 11:25:11 1026

原创集成算法：提升机器学习性能的有效策略

2. Boosting算法：Boosting算法是一种迭代的算法，它在每一轮迭代中，根据上一轮的预测结果调整样本的权重，使得模型更加关注那些被错误分类的样本。在机器学习领域，集成算法是一种强大且实用的技术，它通过结合多个弱学习器的预测结果，来构建一个性能更优的强学习器。它将多个单独训练的模型（基学习器）的预测结果进行组合，从而得到最终的预测输出。3. 处理复杂的数据分布：对于一些复杂的数据分布，单个模型可能难以捕捉到数据的全部特征，而集成算法可以通过组合多个基学习器的优势，更好地处理这些复杂的数据。

2025-03-05 17:18:54 576

原创图像分类技术研究与应用

未来，图像分类技术可能会朝着更加轻量化、可解释性更强的方向发展，同时结合其他技术，如迁移学习、少样本学习等，以在数据稀缺的情况下依然保持良好的性能。而深度学习的兴起，特别是卷积神经网络（CNN）的出现，为图像分类带来了革命性的突破，能够自动学习到图像中丰富的特征表示，显著提升了分类准确率。本文详细阐述了图像分类的基本概念、深度学习在图像分类中的关键技术，包括卷积神经网络（CNN）的结构与原理，并探讨了其训练过程中的要点。例如，通过对肺部 CT 图像的分类，辅助医生检测肺癌等疾病，提高诊断的准确性和效率。

2025-03-04 13:57:33 949

原创图像分类技术：原理、方法与应用

卷积层通过卷积核在图像上滑动进行卷积操作，提取图像的局部特征，不同的卷积核可以捕捉不同的特征，如边缘、纹理等。此外，还有基于小波变换的纹理特征提取方法，利用小波变换对不同频率成分的分析能力，提取纹理的细节信息，在纹理图像分类中取得了较好的效果。准确率是分类正确的样本数占总样本数的比例，反映了模型的整体分类能力。例如，Eakins等人提出的方法，通过重画规则简化形状轮廓，并用邻接族和形族函数对形状进行分类，综合考虑了形状的边界信息、区域信息、质心、周长以及位置特征矢量等，提高了形状分类的准确性。

2025-03-03 18:37:44 2020

原创图像分类项目：技术、应用与挑战

卷积神经网络（CNN）作为深度学习的重要模型，通过多层卷积和池化操作，能够自动提取图像的特征，大大提高了图像分类的准确率。这些模型的成功得益于其强大的特征提取能力和深度结构，能够处理复杂的图像数据。例如，数据增强技术可以通过对原始数据进行变换，如旋转、翻转、缩放等，增加数据的多样性，提高模型的泛化能力。未来，随着技术的不断发展和创新，图像分类项目将在更多领域得到应用，为人们的生活和工作带来更多的便利和价值。我们需要不断探索新的技术和方法，提高图像分类的准确率和效率，以应对日益复杂的图像数据和应用需求。

2025-02-28 14:47:14 668

原创 PyTorch数据处理工具箱

在深度学习的世界里，数据处理是至关重要的一环。PyTorch作为一款强大的深度学习框架，提供了丰富且实用的数据处理工具箱，极大地简化了数据处理的流程，提高了开发效率。PyTorch提供了torchvision.transforms模块，用于对图像数据进行各种转换和增强操作，如裁剪、翻转、归一化等。通过继承Dataset类，我们可以轻松地自定义数据集，实现数据的加载和索引。DataLoader类用于将Dataset类加载的数据进行批量处理，同时还支持数据的并行加载和打乱等操作。

2025-02-27 19:06:20 213

原创 PyTorch数据处理工具箱深度解析

的数据处理工具箱提供了灵活且强大的功能，使得数据预处理、加载和批处理变得简单高效。已经非常强大，但在某些情况下，你可能需要更高级的功能，比如自定义的采样策略。，作为一个强大的深度学习框架，提供了一系列高效且灵活的工具来处理数据。是一个迭代器，它包装了一个Dataset对象，并提供了一个批处理机制、数据打乱以及。在进行数据加载之前，通常需要对数据进行一些预处理操作，如归一化、裁剪、翻转等。的数据处理工具箱，帮助你更高效地进行数据预处理、加载和批处理。模块，该模块提供了几个关键类，使得数据处理变得简单且高效。

2025-02-26 18:47:07 581

原创 PyTorch神经网络工具箱

PyTorch的核心优势在于其动态计算图，使得代码的调试和修改更加直观和便捷。可以通过官方网站（https://pytorch.org/）根据你的操作系统和CUDA版本选择合适的安装命令。在深度学习领域，PyTorch已成为最受欢迎的框架之一。通过本文的介绍，相信你对PyTorch神经网络工具箱有了更深入的了解。PyTorch的强大功能和灵活性使得它成为深度学习开发的理想选择。张量是PyTorch的核心数据结构，类似于NumPy的数组。张量可以在GPU上进行高效计算，这是PyTorch实现快速训练的关键。

2025-02-25 17:39:46 927

原创 Pytorch神经网络工具箱

PyTorch提供了丰富的神经网络工具箱（torch.nn），使得构建、训练和部署深度学习模型变得更加高效和便捷。PyTorch提供了多种内置的损失函数，如均方误差损失（nn.MSELoss）、交叉熵损失（nn.CrossEntropyLoss）等。PyTorch的nn工具箱提供了多种预定义的层，如全连接层（nn.Linear）、卷积层（nn.Conv2d）、池化层（nn.MaxPool2d）等。4. 社区支持：PyTorch拥有一个活跃的社区，提供了大量的教程、示例和开源项目。一、神经网络核心组件。

2025-02-24 16:22:45 1001

原创卷机神经网络（2）

AlexNet由⼋层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。表示学习：如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习。• AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。• 今天，AlexNet已经被更有效的架构所超越，但它是从浅层⽹络到深层网络的关键一步。浅层学习：不涉及特征学习，其特征主要靠人工经验或特征转换方法来抽取。w称为权重：控制输入信号的重要性的参数。

2025-02-21 10:31:53 122

原创卷积神经网络

平移不变性不管检测对象出现在图像中的哪个位置，神经网络的前面几层都应该对相同的图像区域具有相似的反应。局部性神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远的区域的关系。加上偏移后得到输出核矩阵和偏移是可学习的参数核矩阵的大小是超参数给定输入图像（32 x 32）应用5 x 5大小的卷积核第1层得到输出大小28 x 28。形状从减少到填充和步幅可以改变输出的高度和宽度填充在输入周围添加额外的行/列，增加输出的高度和宽度步幅是每次滑动核窗口时的行/列的步长，

2025-02-20 17:02:27 362

原创多层感知机

激活函数：刚才登场的h（x）函数会将输入信号的总和转换为输出信号，这种函数一般称为激活函数（activation function）（3）激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。（2）激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。感知机的局限性:感知机的局限性就是只能表示由一条直线分割的空间。（1）连续并可导（允许少数点上不可导）的非线性函数。b称为偏置：偏置是调整神经元被激活的容易程度参数。w称为权重：控制输入信号的重要性的参数。

2025-02-19 16:34:10 242

原创线性回归和softmax回归

1. 基本概念：训练数据包含了一系列的样本，每个样本通常由特征（输入变量）和对应的标签（输出变量，对于无监督学习可能没有标签）组成。模型通过对这些样本的学习，来发现数据中的模式、规律和关系，从而能够对新的、未见过的数据进行预测或分类等任务。训练集用于模型的参数学习，验证集用于调整模型超参数、防止过拟合等，测试集则用于评估最终模型的性能。• 特征：是对样本的描述属性，例如在预测房价的任务中，房屋的面积、房间数量、房龄等都可以作为特征。• 标签：是样本对应的目标值，是模型需要学习预测的结果。

2025-02-18 11:26:43 334

原创人工智能与图像识别

在当今快速发展的科技领域，人工智能（AI）与图像识别技术的结合正引领着一场技术革命。从自动驾驶汽车到人脸识别系统，图像识别技术已经渗透到我们生活的方方面面，极大地改变了我们的工作方式和日常生活。展望未来，我们有理由相信，随着技术的不断进步和创新，图像识别将在更多领域发挥更大的作用，为人类社会的发展贡献更多的力量。随着图像识别技术的广泛应用，隐私保护和伦理规范将成为亟待解决的问题。随着技术的不断发展，图像识别将与更多的AI技术相融合，如自然语言处理、增强现实等，从而创造出更多创新的应用场景。

2025-02-17 18:52:17 380

2501_90679485的博客