- 博客(117)
- 收藏
- 关注

原创 vscode常用快捷键
vscode常用快捷键1.主命令框2.代码编辑器2.1 代码格式相关2.2 光标相关2.3 重构代码3.显示相关4.修改默认快捷键vscode里的快捷键太多了,让人眼花缭乱,可我们只要记住常用的几个就能很好地提升开发效率,因此进行归纳总结,加粗为对提高效率帮助比较大的快捷键。1.主命令框F1 或 Ctrl+Shift+P(俗称万能键) :打开命令面板。在打开的输入框内,可以输入任何命令Ctrl+P:按一下 Backspace 会进入到 Ctrl+P 转到模式在 Ctrl+P 下输入 >
2021-11-28 01:35:50
4681
1
原创 【TTS】TTS常用的声码器介绍
在语音合成(TTS)系统中,声码器(Vocoder)是将声学特征(如梅尔谱图)转换为高质量波形音频的核心组件。如需具体模型代码或数据集,可参考微软亚洲研究院的。
2025-02-25 17:59:11
1021
原创 【踩坑】Nltk报错TypeError: unsupported operand type(s) for +: ‘ZipFilePathPointer‘ and ‘str‘
这里的其中一个目录下,记住要把zip文件解压缩,下面是递归解压缩的python代码供参考。但大概率拒绝连接,这时候就得去访问nltk_data的github。用git clone或者其他手段下载下来,打开里面的package。把package里的对应文件(如果保守点所有文件也行),放在。提示会让我们下载某些包,但很可能提示下载失败。
2025-01-28 17:24:52
564
1
原创 【大数据/踩坑/Linux】启动HDFS报错localhost: Permission denied (publickey,password).
hdfs启动权限问题报错,给出几种可能解决办法
2024-12-26 17:42:05
738
1
原创 【Linux/踩坑】Linux中启动eclipse或HDFS因JAVA_HOME设置报错
Linux中启动eclipse或HDFS因JAVA_HOME设置报错解决方案
2024-12-26 17:29:47
300
原创 【踩坑】pip离线+在线在虚拟环境中安装指定版本cudnn攻略
清华源官方帮助文档标题的离线的意思是先下载whl文件再安装到虚拟环境,在线的意思是直接在当前虚拟环境下使用
2024-12-18 21:28:37
609
原创 【Paper Note】跨音频-视觉匹配识别的3D CNN
讨论了跨音频-视觉匹配识别(AVR),即在音频被干扰或者在多说话者场景中用于说话者验证的视觉识别方法。文章的核心是提出一种耦合的3D卷积神经网络(3D CNN)架构,用于将音频和视觉两种模态映射到一个表示空间中,以评估音频-视觉流之间的对应关系,并使用学习到的多模态特征,找到不同模态时间信息之间的相关性。数据准备:数据集:使用Lip Reading in the Wild (LRW) 和 West Virginia University Audio-Visual Dataset (AVD) 数据集。
2024-11-13 17:15:16
1060
原创 【Paper Note】伪造片段及方法分割Spoof Diarization: “What Spoofed When” in Partially Spoofed Audio
任务目标的差异Spoof检测:目标是判断整个音频信号是否包含伪造片段,关注的是一个二元问题(是或否)。Spoof定位:目标是在音频中定位出伪造和真实的区域,但通常不区分伪造片段的具体伪造方法。:不仅要定位伪造区域,还要根据不同的伪造方法对这些区域进行聚类,提供更详细的伪造信息。开放集挑战Spoof检测和定位:可能不需要处理训练数据中未见过的伪造方法。:需要能够处理训练时未见过的伪造方法,即“开放集”挑战,这要求系统能够识别和聚类未知的伪造技术。处理伪造片段的粒度。
2024-11-01 18:23:28
992
原创 【Paper Note】利用Boundary-aware Attention边界感知注意力机制增强部分伪造音频定位
部分伪造音频定位的任务旨在准确确定帧级别的音频真实性。尽管一些工作取得了令人鼓舞的成果,但在单个模型中利用有界信息仍然是一个未经探索的研究课题。在这项工作中,我们提出了一种称为边界感知注意力机制Boundary-aware Attention Mechanism的新方法。“边界”(Boundary)指的是在音频信号中,真实语音和合成语音(或伪造语音)相接合的地方。这些边界区域通常包含混合了真实和伪造音频的帧,对于检测和定位伪造音频来说,识别这些边界位置是非常重要的。
2024-10-31 16:42:02
1430
原创 视频扩散模型介绍 Video Diffusion Models Introduction
扩散过程和去噪过程去噪器,预测出来噪声然后与原始图片相减,得到干净的图片当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”跳步DDIM和DDPM作对比:
2024-03-05 15:21:03
2879
2
原创 CV及LLM常见名词解释
看论文的时候,有些术语虽然常见但是却让人很难理解具体含义,如noise等,这里是一些常见术语的解释,同时也给出了这些术语所在的上下文及模型。
2024-02-28 17:05:24
877
原创 【Go】Goland项目配置运行教程
注意,本项目描述的是git clone下来的Golang项目配置运行教程,并不是从头创建一个Golang项目并运行作者是在win11系统上使用goland进行的实践,其他操作系统和比编辑器请谨慎参考。
2023-08-21 18:11:02
7372
原创 【Paper】复现VideoMAE
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training论文复现注意事项
2023-06-27 02:46:25
1906
4
原创 【踩坑】复现End-to-End Referring Video Object Segmentation with Multimodal Transformers
论文复现过程的一些踩坑
2023-06-22 03:59:36
543
原创 【踩坑】Windows11安装WSL2,然后装miniconda
能够看到出现了很多处理器的信息,最末尾有个 Hyper-V 要求,如果四个全为 “是”,则表示支持 Hyper-V 功能。参考教程https://zhuanlan.zhihu.com/p/475462241。在Win11搜索框,PowerShell 输入 systeminfo 命令。桌面新建一个记事本文件,将它的后缀改成cmd或bat,复制下面的代码。是由Win11控制面板可能没有HyperV选项引起。然后,右键选择:以管理员身份运行。代码执行结束后,重启电脑就可以了。
2023-06-21 03:38:37
1359
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人