ZHW_AI课题组-优快云博客

原创基于线性回归的广告与销售额预测

线性回归(Linear regression)是利用回归方程(函数) 对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。是一种用于预测连续变量的经典机器学习算法。它通过拟合一条直线（或超平面）来描述自变量和因变量之间的线性关系。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。目标：是最小化预测值与实际值之间的误差。

2025-04-03 15:31:24 98

OCR是Optical Character Recognition(光学字符识别)的英文简称，它借助光学与计算机技术，将纸上印刷或手写文字读取并转化为计算机可接受、人类能理解的格式。图像预处理：在进行文字识别之前，要对带有噪声的文字图像进行处理。以应对纸张的厚薄、光洁度和印刷质量都会造成的文字畸变，断笔、粘连和污点。字符分割：对文档版面进行分析，首先对每一行进行行分割，再对每一行的文字单独分割。特征提取：根据字符的结构、笔画等信息，提取能够代表字符的特征。

2025-04-02 19:28:59 757

原创调用阿里云API实现运营商实名认证

杨旭，男，西安工程大学电子信息学院，2024级研究生研究方向：机器人抓取电子邮件：3156694657@qq.com乔幸荣，女，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：模式识别与智能系统电子邮件：2029518801@qq.com阿里云创立于2009年，总部设在杭州，为阿里巴巴集团的数字技术与智能骨干业务，向全球客户提供全方位云服务，包括自有服务器、弹性计算、存储、网络安全、数据库和大数据等服务。

2025-04-01 14:48:30 444

原创调用通义千问实现语音合成并将合成的音频通过扬声器播放

通义千问是阿里云推出的一个大型语言模型，基于先进的深度学习技术打造，能够理解和生成自然语言，在多轮对话、知识问答等多种应用场景中发挥重要作用。优点：它具有高度准确的语言理解能力，能精准把握用户问题和意图；支持多种语言输入输出，如中文、英文等；还具备出色的多轮对话支持能力，可依据上下文进行交互，提供自然流畅的对话体验。

2025-03-26 20:27:29 1168

原创 PCA降维算法--kaggle手写数字识别

PCA : 是一种常用的降维算法。通过线性变换将高维数据投影到低维空间，同时保留数据的主要特征，目标是减少数据的维度，同时尽可能保留数据的方差信息。（1）来源：https://www.kaggle.com/c/digit-recognizer/data（2）内容：包含 28x28 像素的手写数字图像，每个像素值为 0-255。（3）规模：训练集：60,000 张图像。测试集：10,000 张图像。（4）标签：每张图像对应一个数字标签（0-9）。

2025-03-26 20:22:15 1079

原创使用DCGAN实现动漫图像生成

王晓睿，男，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：智能视觉检测与工业自动化技术电子邮件：3234002295@qq.com。

2025-03-26 16:24:21 988

原创基于MLP回归的鸢尾花花瓣长度预测

郝梦月，女，西安工程大学电子信息学院，2024级研究生研究方向：模式识别与智能系统电子邮件：479997163@qq.com王晓睿，男，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：智能视觉检测与工业自动化技术电子邮件：3234002295@qq.com多层感知器（MLP）是为了创建决策边界，把多个感知器合并成为一个更大的网络。MLP一般至少由三层组成，其中第一层为数据集的每个输入特征，都有一个节点，最后一层有每个类标签的结点。

2025-03-26 15:42:50 1086

原创【调用腾讯智能云API实现文本翻译】

喻娥，女，西安工程大学电子信息学院，2024级研究生研究方向：机器视觉与人工智能电子邮件：1501437257@qq.com乔幸荣，女，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：模式识别与智能系统电子邮件：2029518801@qq.com腾讯智能云是腾讯公司旗下的云计算服务品牌，专注于为企业及开发者提供云计算、人工智能（AI）、大数据等综合数字化解决方案。

2025-03-25 16:51:11 745

原创调用阿里云API实现快递地址解析

陈莹莹，女，西安工程大学电子信息学院，2024级研究生研究方向：电力负荷预测电子邮件：2950275912@qq.com乔幸荣，女，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：模式识别与智能系统电子邮件：2029518801@qq.comAPI(应用程序接口，Application Programming Interface)是软件系统之间进行通信和数据交换的桥梁。它提供了一组定义和协议，允许不同的软件应用程序相互沟通，简化了软件开发和集成。

2025-03-25 14:54:09 504

原创【调用百度智能云API实现图像分辨率提升】

原理：拉普拉斯算子是一种二阶微分算子，对图像中的灰度突变较为敏感，能够检测出图像中的边缘和细节。通过将拉普拉斯算子与图像进行卷积运算，得到图像的拉普拉斯变换图像，该图像中的边缘和细节部分会得到增强。然后将原始图像与拉普拉斯变换图像相加，就可以增强图像的清晰度。

2025-03-25 09:02:43 879

原创基于随机森林回归预测葡萄酒质量

朱亚彬，男，西安工程大学电子信息学院， 2024级研究生研究方向：任务卸载与边缘计算电子邮件：2292036787@qq.com王晓睿，男，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：智能视觉检测与工业自动化技术电子邮件：3234002295@qq.com随机森林回归（Random Forest Regression）是一种基于集成学习的回归算法，通过组合多个决策树来提高预测的准确性和稳定性。名称数据集地址。

2025-03-22 21:23:36 780

原创调用百度智能云API实现货币识别

卢美琳，女，西安工程大学电子信息学院，2024级研究生研究方向：机器视觉与人工智能电子邮件：2251081972@qq.com王子谦，男，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：机器视觉与人工智能电子邮件：1523018430@qq.com组合服务接口提供一个API接口，同时调用多个模型服务。支持图像识别的多个接口：通用物体和场景识别、图像单主体检测、动物识别、植物识别、果蔬识别、自定义菜品识别检索、菜品识别、红酒识别、地标识别、图像多主体检测等12。

2025-03-19 19:50:02 1094

原创利用knn算法实现手写数字分类

王鹏飞，男，西安工程大学电子信息学院，2024级研究生研究方向：机器视觉与人工智能电子邮件：2018659934@QQ.com王海博, 男 , 西安工程大学电子信息学院, 2024级研究生, 张宏伟人工智能课题组研究方向:模式识别与人工智能电子邮件:1137460680@qq.com。

2025-03-19 17:23:12 888

原创使用GoogleNet实现对花数据集的分类预测

使用GoogleNet实现对花数据集的分类预测

2025-03-18 20:44:54 1028

原创【论文笔记】RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder

吴思雨，女，西安工程大学电子信息学院，2023级研究生，张宏伟人工智能课题组研究方向：人工智能与机器视觉电子邮件：2879944563@qq.com原文链接：https://arxiv.org/html/2405.14222v1向量量化（VQ）是机器学习中用于学习离散表示的基本技术，在多个任务中取得了显著成果。VQ-VAE（向量量化变分自编码器）在保留变分自编码器（VAE）的编码器-解码器结构的基础上，提出了用于处理离散潜在表示的方法。通过VQ-VAE学习离散潜在变量模型在计算机视觉、音频、语音以及其他

2025-03-18 20:04:25 1166 1

原创【论文笔记】Myriad: A Large Multimodal Model Applying Vision Experts for Industrial Anomaly Detection

笔记作者：乔幸荣，女，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：模式识别与智能系统电子邮件：2029518801@qq.com。

2025-03-18 17:28:52 883 1

原创调用腾讯智能云API实现人脸性别转换

祁佳程，男，西安工程大学电子信息学院，2024级研究生研究方向：机器视觉与人工智能电子邮件：1825627843@qq.com乔幸荣，女，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：模式识别与智能系统电子邮件：2029518801@qq.com1）早期阶段（20世纪50-70年代）这一阶段的API主要用于操作系统内部功能接口，供程序开发人员使用，功能简单，是软件开发的基础工具，为后续发展奠定基础。2）分布式时代（20世纪80年代-世纪末）

2025-03-18 15:31:00 1152

原创 [论文笔记]在复杂环境中使用基于注意力机制的深度确定性策略梯度进行路径规划

基于注意力的深度确定性策略梯度在复杂环境中进行路径规划

2025-03-17 22:00:00 1342 1

原创使用U2net对DUTS数据集进行语义分割

语义分割；Unet与U2net；DUTS数据集；

2025-03-17 20:56:05 538

原创调用华为云API实现口罩识别

调用华为云API实现口罩识别

2025-03-17 20:18:16 721

原创通过PCA实现对糖尿病数据的降维处理

丁怡锡，男，西安工程大学电子信息学院，2024级研究生研究方向：机器视觉与人工智能电子邮件：2214983431@qq.com王晓睿，男，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：智能视觉检测与工业自动化技术电子邮件：3234002295@qq.com主成分分析（PCA）:是一种常用的降维技术，通过线性变换将高维数据映射到低维空间，同时保留数据的主要特征。PCA的核心思想是找到数据中方差最大的方向（主成分），并将数据投影到这些方向上，从而实现降维。目标。

2025-03-17 09:44:34 717

原创随机森林对乳腺癌数据集进行分类

随机森林对乳腺癌数据集进行分类

2025-03-16 14:56:42 674

原创【论文笔记】E-TD3：A Deep Reinforcement Learning-based Autonomous Flight Decision-Making Method for UAV

随着无人机在低空空域应用的不断拓展，对其自主、智能机动和自适应能力提出了更高的要求。为克服这一挑战，提出了一种基于深度强化学习的端到端无人机飞行决策方法，为无人机安全稳定规避环境障碍物威胁和跟踪目标的使命提供了动态规划方案。该方法基于双延迟深度确定性策略梯度（TD3）框架，引入门控递归单元。为了进一步提高算法的探索能力和样本效率，将专家经验融入到强化学习中，提出了ETD3算法。通过重构体验回放缓冲区，设计了混合样本采集机制，动态调整演示数据的比例。最后，在AirSim平台上进行了实验验证。

2025-03-10 17:07:13 1020 1

转载【论文笔记】FINE-GRAINED ABNORMALITY PROMPT LEARNING FOR ZERO-SHOT ANOMALY DETECTION

目前的零样本异常检测方法在促使大型预先训练的视觉语言模型在不使用任何特定于数据集的训练或演示的情况下检测目标数据集中的异常方面取得了显著的成功。然而，这些方法通常集中在制作/学习提示上，这些提示只捕捉异常的粗粒度语义，因此，它们在识别具有独特视觉外观的各种异常细节方面的能力有限。为了解决这一限制，我们提出FAPrompt，这是一个新颖的框架，旨在学习细粒度异常提示以获得更准确的零样本异常检测能力。

2025-03-09 23:36:55 73 1

转载 [论文笔记]大规模多局域网的分段联邦学习入侵检测

网络安全问题的传统方法通常在特定类型的攻击发生后保护用户免受攻击。此外，最近的网络攻击模式往往是多变的，这增加了它们的不可预测性。另一方面，机器学习作为一种新的入侵检测方法，正受到越来越多的关注。此外，通过共享本地培训数据，集中式学习方法已被证明可以提高模型的性能。本研究提出了一种分段联邦学习，不同于传统联邦学习模型中基于单个全局模型的协作学习，它保留了多个全局模型，允许每一段参与者单独进行协作学习，并动态地重新安排参与者的分段。此外，这些多个全局模型彼此交互以更新参数，从而适应于各种参与者的局域网。

2025-03-09 23:30:38 109 1

原创【论文笔记】VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

最近，CLIP 等大型视觉语言模型在零样本异常分割 (ZSAS) 任务中展现出巨大潜力，利用统一模型直接检测任何未见过的产品上的异常，并精心设计文本提示。然而，现有方法通常假设要检查的产品类别已知，因此设置特定于产品的文本提示，这在数据隐私场景中难以实现。此外，即使是同一种产品，由于具体组件和生产过程的差异，也会表现出显著差异，这对文本提示的设计提出了重大挑战。为此，我们基于 CLIP 提出了一个用于 ZSAS 任务的视觉上下文提示模型 (VCP-CLIP)。

2025-03-04 21:21:10 848 1

原创【论文笔记】ClipSAM: CLIP and SAM collaboration for zero-shot anomaly segmentation

摘要近年来，CLIP 和 SAM 等基础模型在零样本异常分割 (ZSAS) 任务中展现出良好的性能。然而，无论是基于 CLIP 还是基于 SAM 的 ZSAS 方法，仍然存在不可忽视的关键缺陷：1) CLIP 主要关注不同输入之间的全局特征对齐，导致对局部异常部分的分割精度不高；2) SAM 倾向于在没有适当提示约束的情况下生成大量冗余掩码，导致复杂的后期处理需求。在这项工作中，我们创新性地提出了一种名为 ClipSAM 的 CLIP 和 SAM 协作框架，用于 ZSAS。

2025-02-26 15:24:05 1117 1

原创【论文笔记】Dynamic MDETR: A dynamic multimodal transformer decoder for visual grounding

多模态变压器在为视觉定位对齐图像和文本方面展现出高容量与灵活性。然而，现有仅含编码器的定位框架（如 TransVG）因二次时间复杂度的自注意力操作而计算繁重。为解决此问题，我们提出一种新的多模态变压器架构 —— 动态多模态检测变压器（Dynamic MDETR），将整个定位过程解耦为编码和解码阶段。关键在于图像存在高空间冗余。因此，我们利用此稀疏先验设计新的动态多模态变压器解码器以加速视觉定位。具体而言，动态解码器由二维自适应采样模块和文本引导解码模块构成。

2025-02-26 15:01:04 1037 1

原创 XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation

吴思雨，女，西安工程大学电子信息学院，2023级研究生，张宏伟人工智能课题组研究方向：电子邮件：2879944563@qq.com原文链接：https://arxiv.org/abs/2412.01762代码链接：https://github.com/lxa9867/ImageFolder自回归（AR）图像生成近年来取得了显著进展，并展示了颇具前景的性能表现。目前先进的图像生成范式通常需要一个预训练的图像编码器（tokenizer），将图像编码为更紧凑的潜在空间，在此空间中使用自回归生成器（例如视觉Tr

2025-02-25 21:21:12 826

原创论文笔记《A residual convolutional neural network based approach for real-time path planning》

(1) 环境信息•全局环境信息：表示一个场景的整体环境信息，包括障碍区和无障碍区。•局部环境信息：指无人机传感器在有限范围内检测到的环境信息，包括当前检测到的障碍物区域和无障碍区域。(2) 静态实时路径规划•静态路径规划：在给定全局环境信息的情况下进行的路径规划任务。•实时路径规划：指不断更新周围环境信息的路径规划任务。(3) 状态与行为•无人机状态(UAV State)：表示无人机的状态特征，涉及其所在位置、所在位置周围的局部环境信息以及目标位置。•。

2025-02-24 08:35:05 975 1

原创 Few Shot Part Segmentation Reveals Compositional Logic for Industrial Anomaly Detection

本文提出的基于部件分割的异常检测方法由语义部件分割和基于部件分割的异常检测两部分组成。对于部件分割，我们设计了一个基于视觉和位置特征来区分多个部件的模型。视觉特征提取器和像素分类器通过少数标记图像和大量未标记图像共享的逻辑约束进行联合优化。对于部分分割的AD，利用应用于正态样本的分割模型构建三个不同的记忆库（图2）。特别是(1)类直方图记忆库Mhist，它记录了每个组件的数量和排列，以评估图像中不同组件的相对丰度。

2025-02-10 22:59:01 853

原创 Maneuvering target tracking of UAV based on MN-DDPG and transfer learning

笔记作者：王晓睿，男，西安工程大学电子信息学院，2024级研究生，张宏伟人工智能课题组研究方向：智能视觉检测与工业自动化技术电子邮件：3234002295@qq.com原文链接: https://www.sciencedirect.com/science/article/pii/S2214914720304815?via%3Dihub#sec4本研究致力于解决无人机（UAV）在动态不确定环境中进行机动目标跟踪的问题，提出了一种基于混合噪声的深度确定性策略梯度（MN-DDPG）算法，并结合迁移学习优化其

2025-01-25 00:58:08 967

空空如也

空空如也