- 博客(95)
- 问答 (1)
- 收藏
- 关注

原创 python之matplotlib绘制函数z=x^2+y^2三维图
绘制三维图入门:Z=X^2 + Y^2步骤:1.先绘制出三维坐标2.定义函数表达式3.绘制三维图像from matplotlib import pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D #此模块并非不没有作用,如果缺少了会引起三维坐标的创建报出异常: ValueError: Unknown projection '3d...
2019-10-01 18:26:14
34936
5
原创 【记录自己第一个github 100星项目】采用flask框架构建一个前端页面,进行OpenManus的调用,对OpenManus生成的文件进行预览。
OpenManus-WebUI
2025-03-29 21:55:06
401
原创 【解决torch.nn.attention找不到问题】ModuleNotFoundError: No module named ‘torch.nn.attention‘
【解决torch.nn.attention找不到问题】ModuleNotFoundError: No module named 'torch.nn.attention'
2025-03-24 23:43:56
141
原创 ModuleNotFoundError: No module named ‘pdfminer.pdfexceptions‘
pip install pdfminer.six==20240706
2025-03-22 18:26:44
121
原创 【日志队列】log日志实时写入队列,流式输出
有一个这样的任务:在网页上流式输出执行一个函数在终端产生的日志,但是目前只有终端日志,可以通过 自定义 loguru 的 Sink 将日志消息定向到线程安全的队列中,主线程从队列中实时获取日志。
2025-03-14 23:32:55
328
原创 【1分钟学会万相文生视频】windows环境4080显卡部署Wan2.1-T2V-1.3B,亲手实操
windows环境4080显卡部署Wan2.1-T2V-1.3B,一手实测
2025-02-26 23:41:15
735
原创 【深度学习可视化工具——wandb】注册、运行示例、导入已训练完的wandb文件进行可视化
wandb 是一款用于记录机器学习训练数据的工具,通过跟踪可视化从数据集处理到训练输出模型整个流程的各个方面,来帮助用户更快速的优化输出模型。
2025-02-23 15:47:49
498
原创 【Qwen2.5-VL-3B-Instruct微调,单卡A800-PCIE-80GB复现VLM-R1】VLM-R1:DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破
Qwen2.5-VL-3B-Instruct微调
2025-02-22 10:40:41
850
7
原创 【flask框架学习】解决Flask框架浏览器默认会记录最后一次请求,即2次发送POST请求问题
当程序报No module named 'triton.ops’时候,可以换版本安装。
2025-02-18 23:54:22
1006
原创 【AudioClassificationModelZoo-Pytorch】基于Pytorch的声音事件检测分类系统
测试采用流式测试的方式,即每次送入模型2秒的音频数据,将音频数据转为[1,1,64,100]维度的张量数据,然后送入到模型中进行推理,每次都很得到推理的结构,可以根据阈值来判断该事件是否发生。生成数据集的list,label_list.txt,train_list.txt,test_list.txt。生成的列表是长这样的,前面是音频的路径,后面是该音频对应的标签,从0开始,路径和标签之间用。即可生成数据列表,里面提供了生成多种数据集列表方式,具体看代码。
2025-02-03 20:01:31
1187
2
原创 【轻量级推荐算法框架】ReChorus 是一个高效、可扩展的轻量级推荐算法框架
通过分离模型间共同的实验设定和不同的模型设计,使得各个模型能够在一个公平的benchmark上进行对比。:ReChorus框架目前实现了13个不同的推荐算法,涵盖推荐领域的经典模型以及基于深度学习的方法。通过三个核心模块(Reader、Runner、Model)将不同模型共通的数据读取、训练测评等部分整合在一起,提高了模型的训练和测试效率。ReChorus实现了多种不同类型的推荐算法,包括常规推荐、序列推荐、引入知识图谱的推荐和引入时间动态性的推荐等,同时提供统一的预处理范式。
2025-01-12 09:55:19
543
原创 【声音场景分类--论文阅读】
Wavegram是我们提出的一个功能这类似于log-mel频谱图,但使用神经网络。波形图具有时间轴和频率轴。然后,波形图可以代替log-mel光谱图作为输入特征,形成我们的WavegramCNN系统。使用一系列因子di除以总因子d进行抽取=Qdi例如,5秒的信号下采样序列的持续时间等于[4,4,4,4],执行256倍的缩减。这个残差块根据[31]进行修改,由深度卷积和大核操作组成f(x)是跨通道操作的核大小等于1的卷积。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。
2025-01-11 17:14:17
585
1
原创 【语音事件检测--论文翻译】Towards duration robust weakly supervised sound event detection 面向持续时间鲁棒弱监督声音事件检测
此外,性能良好的分段级定位模型以粗略的尺度输出预测(例如1秒),阻碍了它们在包含以下内容的数据集上的部署短事件(<1秒)。我们提出的模型,我们进一步称之为CDur(CRNN持续时间,见表I),由五层CNN组成随后是门控循环单元(GRU)。声音事件检测(SED)是标记的任务音频事件的缺失或存在及其对应给定音频片段内的间隔。虽然SED可以使用监督机器学习,其中训练数据被完全标记通过访问每个事件的时间戳和持续时间,我们的工作侧重于弱监督声音事件检测(WSSED),其中关于事件持续时间的先验知识是不可用的。
2025-01-11 16:43:59
413
原创 【视频质量评估-论文翻译】《Exploring VideoQuality Assessment on User GeneratedContentsfromAestheticandTechnical》
熵模型,用于估计潜在特征在提高率失真性能方面起着至关重要的作用。潜在的特征包含通道、局部空间和全局空间相关性。然而,现有的全局上下文模块依赖于计算密集型的二次复杂度计算来捕获全局相关性。二次复杂性限制了高分辨率图像编码。此外,有效地单个熵模型捕获具有可接受甚至线性复杂性的局部、全局和通道上下文仍然挑战。为了解决这些局限性,我们提出线性复杂度多参考熵模型(MEM++)。MEM++有效捕捉潜在表征中固有的各种相关性。具体而言潜在表征首先被划分为多重表征片。当压缩特定切片时先前压缩的切片用作其通道上下文。
2024-12-22 12:46:42
731
原创 【端到端图像压缩2024】《S2LIC: Learned Image Compression with the SwinV2 Block, Adaptive Channel-wise and 》
作者提出了一个自适应通道和全局注意力交互上下文(ACGC)熵该模型可以在层间和层内环境中有效地实现双特征聚合。具体来说,我们划分潜在表示然后在并行棋盘上下文中应用ACGC模型,以实现更快的解码速度和更高的率失真性能。我们在自适应全局切片间利用可变形注意力上下文,以基于实际的空间相关性和上下文动态地细化注意力权重。此外,在主转换结构中,我们引入了残差SwinV2 Transformer模型来捕获全局特征信息,并利用密集块网络作为特征增强模块,以改善图像的非线性表示转型结构。
2024-12-22 02:31:14
1069
原创 【Yolov8足球追踪】YOLO格式足球检测数据集制作及目标追踪
使用制作好的数据集,可以跳过1~3步:https://blog.youkuaiyun.com/qq_41941900/article/details/142366183https://github.com/SoccerNet/sn-tracking代码下载:pip install SoccerNet2.提取sn-tracking数据集中只有足球的图片,生成YOLO格式的数据3.将提取的只含有足球的数据集划分训练集和测试集4.制作Yolov8的配置文件及训练配置yamlSNMOT.yamlyolov8
2024-12-18 23:13:11
540
原创 【MM-Diffusion】【论文翻译】用于音频视频联合生成的多模态扩散模型
我们提出了第一个联合音频-视频生成框架,该框架同时带来了引人入胜的观看和收听体验,实现了高质量的逼真视频。为了生成联合音视频对,我们提出了一种新的多模态扩散模型(即MM扩散)两个耦合的去噪自编码器。与现有的单峰扩散模型相比,MM扩散由以下部分组成设计了一种用于联合去噪过程的顺序多模态U-Net。两个子网用于音频和视频学习从高斯噪声中逐渐生成对齐的音频-视频对。为了确保跨模态的语义一致性,我们提出了一种新的基于随机移位的注意力块桥接两个子网,实现高效的交叉模态对齐,从而增强彼此的音视频保真度。
2024-11-12 01:12:26
1048
原创 2023IKCEST第五届“一带一路”国际大数据竞赛--社交网络中多模态虚假 媒体内容核查top11
随着新媒体时代信息媒介的多元化发展,各种内容大量活跃在媒体内中,与此同时各类虚假信息也充斥着社交媒体,影响着公众的判断和决策。如何在大量的文本、图像等多模态信息中,通过大数据与人工智能技术,纠正和消除虚假错误信息,对于网络舆情及社会治理有着重大意义。社交网络中多模态虚假媒体内容核查。
2024-10-27 19:15:23
491
原创 零基础入门天池镜像提交--windows场景VirtualBox虚拟机安装linux系统并ssh远程登录,直至镜像的制作及提交
VirtualBox安装linux虚拟机,使用MobaXterm进行ssh登陆linux,镜像的制作、push、提交
2024-08-31 01:59:57
982
原创 Python代码实用小片段:按频率取字典中的key值,使用装饰器统计函数的调用次数
比如:需要将旧xml中的一行值替换成新的xml中的一行值。就像项目在不断更新,xml中新的一列值必定有新增的,新的需要又要要旧序列的值。因此可以利用变量的映射,将新旧序列的值映射到每个变量中,并用字典新旧保存变量的长度和值,就可以利用sum更新位置,从而替换新序列的值。3.合理的运用sum可以替换旧xml值到新xml。
2024-07-27 19:27:44
217
原创 第九届信也科技杯全球AI算法大赛——语音深度鉴伪识别参赛A榜 0.968961分
简单的说一下本次比赛方案的想法,首先明确是语音深度鉴伪识别任务,于是发动互联网的强大的搜索功能,尽可能多的搜索到更多的语音深度鉴伪识别算法。也相应的搜索对应的数据集,在看到此帖子[深度伪造音频普遍检测的Codecfake数据集和对策],同时在github上找到相应的。通过将网络结构修改成ResNet等实验,提出Codecfake_ResNet模型,让语音鉴别模型的分类指标达到0.968961。遗憾没有进复赛,也遗憾不知道复赛对应的成绩。A榜的前三十名晋级,个个都是99分的大佬,
2024-06-19 22:41:18
908
8
原创 【imagenet数据集下载】OpenxLab 数据集下载
最近在找Imagenet-1K的数据集,但是好多帖子上都说要到官网或网盘下载,但是下载慢,于是在OpenxLab中找到了Imagenet-1K数据集,只需要登陆就可以下载。分卷解压参考:https://blog.youkuaiyun.com/aree/article/details/50946137。下载完成后会有ImageNet-1K.tar.gz.0000和ImageNet-1K.tar.gz.0001,
2024-06-14 20:25:34
1059
1
原创 ChatGLM2-6B微调记录No module named ‘transformers_modules.THUDM/chatglm-6b’
1.
2024-06-12 01:29:31
354
原创 【转发】深度学习环境配置——conda虚拟环境安装CUDA和CUDNN
深度学习环境配置——conda虚拟环境安装CUDA和CUDNNhttps://blog.youkuaiyun.com/tyyhmtyyhm/article/details/136863438收藏篇,如有侵权,请联系删除
2024-06-08 09:19:41
548
原创 RT-DETR训练的BUG记录:AttributeError: ‘RTDETRDecoder‘ object has no attribute ‘stride‘
使用推理代码可以规避这个错误。3.断点训练失效,可以通过临时修改ultralytics\engine\trainer.py中start_epoch改成继续训练的epoch,然后在ultralytics\cfg_3.断点训练有时不生效,可以修改ultralytics\engine\trainer.py中start_epoch改成继续训练的epoch,然后在ultralytics\cfg__.py文件中修改args.save_dir = "runs/detect/train16"即可。
2024-05-19 22:07:14
1616
2
原创 NameError: name ‘draw_LAF_matches‘ is not defined
!pip install kornia0.6.4!pip install kornia_moons0.1.9
2024-05-16 23:52:20
483
原创 【mamba模型零基础采用NCNN框架部署APK】Android使用AAssetManager读取asset目录下的txt文件,将文件中的数据转为数组
【代码】【mamba模型零基础采用NCNN框架部署APK】Android使用AAssetManager读取asset目录下的txt文件,将文件中的数据转为数组。
2024-03-17 16:38:31
132
原创 【mamba模型零基础采用NCNN框架部署APK】构建apk遇到的问题libncnn.a(mat.cpp.o) is incompatible with armelf_linux_eabi
没有系统的学过android的开发,记录一下构建apk遇到的问题。首先是可以通过android studio将app安装到手机上,但是打包apk有遇到1个问题。应该是手机的系统架构和android studio生成apk的架构不一样,而android studio是生成全架构的,因此可能需要制定生成特征的架构。最终经过发现在build.gradle.kts中指定构建apk的架构就可以了。由于网上没找到答案,通过分析。
2024-03-16 22:44:22
261
空空如也
如何根据烟囱图片上的烟雾,计算黑烟的格林曼黑度?求大佬解答
2021-03-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人