- 博客(10)
- 收藏
- 关注
原创 开源符号音乐生成(Symbolic Music Generation)模型调研
MusicTransformer对于语言的理解最好,但是是针对于钢琴旋律生成。MuseCoco和MuseGAN相似,都能基于文字生成多轨乐谱。MusicVAE主要特点是能够对旋律进行变奏,为两个旋律生成桥段。
2024-12-05 21:34:40
1235
3
原创 RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘ 报错解决
题主经过大量摸索,最终发现调整transformers包版本即可,题主4.37.2==>4.41.0后再运行就跑通了,如果不行可以从下面的版本多试几个(最好从前往后试)。
2024-10-27 15:35:52
775
原创 论文精选——《A survey on Image Data Augmentation for Deep Learning》
这篇论文总结了现有数据增强的方法(include geometric transformations, color space augmentations, kernel filters,mixing images, random erasing, feature space augmentation, adversarial training,generative adversarial networks, neural style transfer, and meta-learning),光明的发展前景
2024-10-23 01:46:29
1109
原创 远程连接linux服务器、配置环境并训练模型
远程连接主机需要:1.ip、端口号2.用户名、密码打开xshell点击左上角create a new session按钮在connection栏下输入连接名称(在xshell里用户自定义的名称)、ip、port(图来自点击用户身份验证输入用户名、密码点击确定成功创建。
2024-10-17 17:50:28
274
原创 一文搞懂模型环境配置(pytorch、windows)
很多小白开始跑深度学习的时候都会有一个疑问:我从github上clone的项目怎么跑不了?本文讲述的就是如何进行相应项目的环境配置(pytorch)
2024-09-26 21:09:05
823
1
转载 双耳线索和线索交换——音频演示
本页有一些小动画,用于说明定位声源方向的两个主要双耳线索:双耳时间差( Interaural Time Differences, ITDs)和双耳声级差(Interaural Level Differences, ILDs)。
2024-06-27 18:28:49
168
原创 Ambisonics声音格式总结
Ambisonics 是一种捕捉和重现三维声场的音频技术,由英国工程师和学者 Michael Gerzon(1945-1996)发明。随着计算机技术和音频处理能力的提高,特别是在21世纪,Ambisonics重新受到关注,尤其是在虚拟现实(VR)和增强现实(AR)领域。
2024-06-26 13:10:13
1433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人