繁华落尽，寻一世真情-优快云博客

原创 AI Studio vLoong能源AI挑战赛——异常检测赛A榜第三名方案

异常检测赛

2022-10-20 01:06:29 2958 5

原创 python之matplotlib绘制函数z=x^2+y^2三维图

绘制三维图入门：Z=X^2 + Y^2步骤：1.先绘制出三维坐标2.定义函数表达式3.绘制三维图像from matplotlib import pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D #此模块并非不没有作用，如果缺少了会引起三维坐标的创建报出异常： ValueError: Unknown projection '3d...

2019-10-01 18:26:14 36023 5

原创【半双工语音系统】半双工语音语音助手智能体应用代码

本文介绍了一个基于Android的半双工语音助手系统，支持本地语音识别、合成和与DeepSeek AI的智能对话。系统采用交替录音/播放机制，避免回声问题，实现一问一答式交互。核心功能包括本地ASR/TTS、智能对话和唤醒词检测，使用Kotlin开发，集成Sherpa-Onnx引擎。文章详细说明了系统架构、技术实现、配置方法和常见问题解决方案，并提供了性能优化建议和扩展开发指导。该项目开源，适用于需要轻量级语音交互的场景。

2025-12-21 18:54:08 994

原创【多模态大模型部署】【提示词反推】采样Flask框架部署Qwen/Qwen2-VL-2B-Instruct，并采用OpenAI形式调用生成图片描述，可用于图片理解等解决方案

反推提示词，并生成图片。实际图和生成图片。

2025-09-20 10:32:09 296

原创 2025年百度商业AI技术创新大赛赛道二：视频广告生成推理性能优化-初赛第五名，复赛第九名方案分享

摘要：本文介绍了参加百度AI Studio视频生成推理优化竞赛的历程。比赛聚焦于提升大模型在广告视频生成中的推理效率，要求在保证质量的同时加速生成速度。作者从基线31.295分提升至79.251分，采用了自定义注意力机制（提升10分）和teacache技术（提升20分）等优化方案，最终获得初赛第五、复赛第九的成绩。这些技术创新有效提升了视频生成性能，满足了广告行业对实时生成的需求。

2025-09-04 23:43:57 277

原创我衰了，账号居然因为安全被封了

2025-08-28 19:16:48 144

原创【万能token理论】和deepseek脑洞大开对话

多模态学习中的Token表示与计算复杂度在多模态学习中，一个token通常不代表完整模态信息，而是模态数据的基本离散单元（如文本单词、图像块或音频片段）。Transformer的计算复杂度（O(n²d)）随token数量线性增长而平方级增加，成为多模态任务的主要瓶颈。挑战与替代方案：单Token多模态表示：理论上可行，但面临信息容量有限、歧义性高和学习难度大的问题，目前尚无成功案例。更优方案：包括模态Token压缩、稀疏注意力、早期跨模态融合和混合专家系统（MoE），以降低计算负担。未来展望：虽

2025-07-09 23:13:07 751

原创 deepseek API 接入本地知识库，假设本地有1000个word文档

本方案实现了从文档处理到智能问答的完整链路，处理1000个文档的初始化时间约30-60分钟（取决于硬件配置），后续查询响应时间在1-3秒之间。可根据需要调整分块大小（chunk_size）和检索数量（top_k）以平衡精度与速度。

2025-05-19 08:28:28 394

原创我的创作纪念日，有幸再次遇见你

代码会老去，博客会泛黄，但技术人追求极致的心永远鲜活。愿我们都能在二进制海洋中，找到属于自己的那个非零解。⏳ 凌晨 2 点的 IDEA 界面，常常左边是生产环境日志，右边是 Markdown 编辑器。✅ 从开始懵懂的我，到现在可以在领域内独树一帜，游走与比赛的场见，行走在技术前沿。✅ 最珍贵的，是收到那位通过博客转行成功的读者私信：「您是我代码世界的引路人」欢迎在评论区留下你的创作故事，让时间的年轮记住我们此刻的温度 ❤️。位同路人的关注，每一份「已三连」都是夜灯下的温暖。

2025-04-26 15:29:52 308

原创【记录自己第一个github 100星项目】采用flask框架构建一个前端页面，进行OpenManus的调用，对OpenManus生成的文件进行预览。

OpenManus-WebUI

2025-03-29 21:55:06 491

原创【解决torch.nn.attention找不到问题】ModuleNotFoundError: No module named ‘torch.nn.attention‘

【解决torch.nn.attention找不到问题】ModuleNotFoundError: No module named 'torch.nn.attention'

2025-03-24 23:43:56 1279

原创【Flask公网部署】采用Nginx+gunicorn解决Flask框架静态资源无法加载的问题

Flask解决动态资源无法加载的问题

2025-03-23 09:53:05 1002

原创 ModuleNotFoundError: No module named ‘pdfminer.pdfexceptions‘

pip install pdfminer.six==20240706

2025-03-22 18:26:44 283

原创【日志队列】log日志实时写入队列，流式输出

有一个这样的任务：在网页上流式输出执行一个函数在终端产生的日志，但是目前只有终端日志，可以通过自定义 loguru 的 Sink 将日志消息定向到线程安全的队列中，主线程从队列中实时获取日志。

2025-03-14 23:32:55 571

原创【1分钟学会万相文生视频】windows环境4080显卡部署Wan2.1-T2V-1.3B，亲手实操

windows环境4080显卡部署Wan2.1-T2V-1.3B，一手实测

2025-02-26 23:41:15 1196

原创 deepseek回答：如何训练视频生成的扩散模型，模型结构已知，vae编码器和文本编码器不需要训练，如何只训扩散模型，提供示例代码，需要完整

【代码】deepseek回答：如何训练视频生成的扩散模型，模型结构已知，vae编码器和文本编码器不需要训练，如何只训扩散模型，提供示例代码，需要完整。

2025-02-26 09:15:54 250

原创 deepseek回答transformer模型结构的改进点

未来Transformer的改进可能集中在。

2025-02-25 09:03:26 962

原创【深度学习可视化工具——wandb】注册、运行示例、导入已训练完的wandb文件进行可视化

wandb 是一款用于记录机器学习训练数据的工具，通过跟踪可视化从数据集处理到训练输出模型整个流程的各个方面，来帮助用户更快速的优化输出模型。

2025-02-23 15:47:49 2751

原创【Qwen2.5-VL-3B-Instruct微调，单卡A800-PCIE-80GB复现VLM-R1】VLM-R1:DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破

Qwen2.5-VL-3B-Instruct微调

2025-02-22 10:40:41 2189 9

原创【flask框架学习】解决Flask框架浏览器默认会记录最后一次请求，即2次发送POST请求问题

当程序报No module named 'triton.ops’时候，可以换版本安装。

2025-02-18 23:54:22 1283

原创【零基础入门网站开发】deepseek零基础开发登录注册系统

【代码】【零基础入门网站开发】deepseek零基础开发登录注册系统。

2025-02-15 23:12:37 1071

原创【零基础入门网站开发】零基础用deepseek开发翻译助手网站

【代码】【零基础入门网站开发】零基础用deepseek开发翻译助手网站。

2025-02-13 22:45:43 352

原创【AudioClassificationModelZoo-Pytorch】基于Pytorch的声音事件检测分类系统

测试采用流式测试的方式，即每次送入模型2秒的音频数据，将音频数据转为[1,1,64,100]维度的张量数据，然后送入到模型中进行推理，每次都很得到推理的结构，可以根据阈值来判断该事件是否发生。生成数据集的list,label_list.txt,train_list.txt,test_list.txt。生成的列表是长这样的，前面是音频的路径，后面是该音频对应的标签，从0开始，路径和标签之间用。即可生成数据列表，里面提供了生成多种数据集列表方式，具体看代码。

2025-02-03 20:01:31 1467 2

原创大语言模型预训练、微调、RLHF

CLUENER2020数据集在。

2025-01-12 17:49:21 601

原创【轻量级推荐算法框架】‌ReChorus‌ 是一个高效、可扩展的轻量级推荐算法框架

通过分离模型间共同的实验设定和不同的模型设计，使得各个模型能够在一个公平的benchmark上进行对比‌。：ReChorus框架目前实现了13个不同的推荐算法，涵盖推荐领域的经典模型以及基于深度学习的方法。通过三个核心模块（Reader、Runner、Model）将不同模型共通的数据读取、训练测评等部分整合在一起，提高了模型的训练和测试效率‌。ReChorus实现了多种不同类型的推荐算法，包括常规推荐、序列推荐、引入知识图谱的推荐和引入时间动态性的推荐等，同时提供统一的预处理范式‌。

2025-01-12 09:55:19 762

原创【声音场景分类--论文阅读】

Wavegram是我们提出的一个功能这类似于log-mel频谱图，但使用神经网络。波形图具有时间轴和频率轴。然后，波形图可以代替log-mel光谱图作为输入特征，形成我们的WavegramCNN系统。使用一系列因子di除以总因子d进行抽取=Qdi例如，5秒的信号下采样序列的持续时间等于[4,4,4,4]，执行256倍的缩减。这个残差块根据[31]进行修改，由深度卷积和大核操作组成f（x）是跨通道操作的核大小等于1的卷积。在此阶段，主要重点是建立一个神经网络具有较大的感受野，同时保持较低的复杂性。

2025-01-11 17:14:17 781 1

原创【语音事件检测--论文翻译】Towards duration robust weakly supervised sound event detection 面向持续时间鲁棒弱监督声音事件检测

此外，性能良好的分段级定位模型以粗略的尺度输出预测（例如1秒），阻碍了它们在包含以下内容的数据集上的部署短事件（<1秒）。我们提出的模型，我们进一步称之为CDur（CRNN持续时间，见表I），由五层CNN组成随后是门控循环单元（GRU）。声音事件检测（SED）是标记的任务音频事件的缺失或存在及其对应给定音频片段内的间隔。虽然SED可以使用监督机器学习，其中训练数据被完全标记通过访问每个事件的时间戳和持续时间，我们的工作侧重于弱监督声音事件检测（WSSED），其中关于事件持续时间的先验知识是不可用的。

2025-01-11 16:43:59 606

原创第五届全国人工智能大赛 AI+图像编码参赛经验：MLIC图像压缩源码复现

mlicpp.py中添加LatentResidualPrediction函数act(),act(),act(),return xmlicpp.py中修改LatentResidualPrediction实例synthesis.py中修改SynthesisTransform函数return x修改完这些文件后，就可以加载第二部分的红框模型进行测试，但是Lambda 0.0018~0.0483解码出来的码率都超过了平台提交的限制，因此还未提交成功。Lambda越小编译出来的码率文件最小。

2025-01-09 23:01:45 601

原创【视频质量评估-论文翻译】《Exploring VideoQuality Assessment on User GeneratedContentsfromAestheticandTechnical》

熵模型，用于估计潜在特征在提高率失真性能方面起着至关重要的作用。潜在的特征包含通道、局部空间和全局空间相关性。然而，现有的全局上下文模块依赖于计算密集型的二次复杂度计算来捕获全局相关性。二次复杂性限制了高分辨率图像编码。此外，有效地单个熵模型捕获具有可接受甚至线性复杂性的局部、全局和通道上下文仍然挑战。为了解决这些局限性，我们提出线性复杂度多参考熵模型（MEM++）。MEM++有效捕捉潜在表征中固有的各种相关性。具体而言潜在表征首先被划分为多重表征片。当压缩特定切片时先前压缩的切片用作其通道上下文。

2024-12-22 12:46:42 997

原创【端到端图像压缩2024】《S2LIC: Learned Image Compression with the SwinV2 Block, Adaptive Channel-wise and 》

作者提出了一个自适应通道和全局注意力交互上下文（ACGC）熵该模型可以在层间和层内环境中有效地实现双特征聚合。具体来说，我们划分潜在表示然后在并行棋盘上下文中应用ACGC模型，以实现更快的解码速度和更高的率失真性能。我们在自适应全局切片间利用可变形注意力上下文，以基于实际的空间相关性和上下文动态地细化注意力权重。此外，在主转换结构中，我们引入了残差SwinV2 Transformer模型来捕获全局特征信息，并利用密集块网络作为特征增强模块，以改善图像的非线性表示转型结构。

2024-12-22 02:31:14 2116

原创【Yolov8足球追踪】YOLO格式足球检测数据集制作及目标追踪

使用制作好的数据集，可以跳过1~3步：https://blog.youkuaiyun.com/qq_41941900/article/details/142366183https://github.com/SoccerNet/sn-tracking代码下载：pip install SoccerNet2.提取sn-tracking数据集中只有足球的图片，生成YOLO格式的数据3.将提取的只含有足球的数据集划分训练集和测试集4.制作Yolov8的配置文件及训练配置yamlSNMOT.yamlyolov8

2024-12-18 23:13:11 841

原创【MM-Diffusion】【论文翻译】用于音频视频联合生成的多模态扩散模型

我们提出了第一个联合音频-视频生成框架，该框架同时带来了引人入胜的观看和收听体验，实现了高质量的逼真视频。为了生成联合音视频对，我们提出了一种新的多模态扩散模型（即MM扩散）两个耦合的去噪自编码器。与现有的单峰扩散模型相比，MM扩散由以下部分组成设计了一种用于联合去噪过程的顺序多模态U-Net。两个子网用于音频和视频学习从高斯噪声中逐渐生成对齐的音频-视频对。为了确保跨模态的语义一致性，我们提出了一种新的基于随机移位的注意力块桥接两个子网，实现高效的交叉模态对齐，从而增强彼此的音视频保真度。

2024-11-12 01:12:26 1475

翻译时间对齐轨迹--使用时间对齐音频同步生成视频

鉴于这些视频中声音和运动的突出，该数据集非常适合评估生成的音频和视频之间的时间对齐。鉴于这些视频中声音和运动的突出，该数据集非常适合评估生成的音频和视频之间的时间对齐。该轨道的核心目标是生成在时间和语义上与各自的音轨对齐的视频。它测量了从预训练的神经网络获得的高维特征空间中真实视频片段和生成视频片段的分布之间的距离。使用入门套件进行首次提交。该指标基于分别检测两种模态中的能量峰值（视频的光流和音频的起始）并测量它们的对齐。这项任务的重点是生成音频和视频元素在时间上完美同步的视频，推进多模态内容创作的前沿。

2024-11-10 22:11:22 125

翻译空间对齐赛道--使用空间对齐的立体声音频创建视频

目标：空间对齐轨迹的目标是开发一个生成模型，该模型可以使用5秒的视频和相关的立体声音频作为训练数据，创建空间对齐的视频和相应的立体声音频。在这个挑战中，我们专注于实现生成的视频和音频之间的空间对齐。对于这项任务，我们使用了一个名为SVGSA24的定制数据集，该数据集来自STARS23数据集，其中具有等矩形视图和Ambisonics音频的原始视频已转换为具有透视图和立体声音频的视频。无条件生成：该模型侧重于无条件生成任务，这意味着我们需要在没有任何特定条件或提示的情况下构建和训练生成音频和视频的模型。

2024-11-10 22:03:04 60

空空如也

如何根据烟囱图片上的烟雾，计算黑烟的格林曼黑度？求大佬解答