- 博客(25)
- 收藏
- 关注
原创 LayerNorm原理及源码解读
LayerNorm(Layer Normalization, 层归一化)是一种在深度神经网络中常用的技术,用于稳定训练过程。它是由Jimmy Ba和Geoffrey Hinton在2016年提出的,旨在解决深度网络训练中的和问题,以及使得网络能够更有效地学习更高阶的特征。
2025-10-07 09:54:13
312
原创 Qwen-Audio:一种新的大规模音频-语言模型
现有的多任务语言模型主要关注特定类型的音频(如人类语音)或特定任务(如语音识别和字幕生成),限制了模型的通用性和交互能力。于是提出了一个新颖的音频-语言模型,该模型拥有通用音频理解模型的能力,结构图如下。从上图可以看出Qwen-Audio结合了一个音频编码器和一个基于Qwen-7B的大型语言模型。Qwen-Audio在超过30个任务和多种音频类型上进行预训练,包括人类语音、自然声音、音乐和歌曲,以促进通用音频理解能力,从论文(参考文献-1)及官方Demo体验来看效果还是非常不错的。
2025-10-07 08:44:11
1312
原创 Whisper推理源码解读
Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。多语言支持:Whisper被设计为一个多语言模型,能够理解和转录多种语言的语音,包括但不限于英语、中文、阿拉伯语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和土耳其语等。鲁棒性:Whisper在处理各种噪声环境下的语音信号方面表现出鲁棒性,这意味着即使在背景噪音较大的情况下,它也能够准确识别和转录语音。
2025-10-06 20:48:06
1148
原创 LTU-AS:一种具备音频感知、识别、理解的大模型架构
人类生活在一个多样化的音频信号环境中,包括语音和各种非语音声音。人可以准确辨识、解释和整合这些语音和非语音音频元素,以及深刻理解它们之间的关系。无所不能的人工智能也应该具备这样的能力!于是论文提出了一种新的模型结构LTU-AS,下图展示了LTU-AS效果,我们看一下第一个示例:感知到了人声和篮球弹跳的声音,同时基于识别出的说话内容,推测出这个说话人正在指导别人打篮球教练。可以看出这个模型同时具备了音频感知、理解能力、识别能力。
2025-10-04 16:59:24
1208
原创 LTU:一种能听、能想、能理解的大模型架构
一种模型优化技术:这篇论文的核心贡献在于提出了一个新的多模态大型语言模型LTU,它不仅能够处理音频分类和描述任务,还能够理解和回答开放性问题,是音频模型领域一个创新的尝试。
2025-10-04 16:46:46
916
原创 数据重排——Rearrange
这种重排操作在深度学习中很有用,特别是在涉及对输入数据进行维度变换或特征映射时,例如在卷积神经网络的不同层之间传递数据,或者在实现如 Transformer 模型中的自注意力机制时调整数据的形状。数据重排(rearrange)通常用于深度学习框架中调整多维数据的维度顺序。示例:Rearrange('b c (h p1) (w p2) -> b (c p1 p2) h w', p1=2, p2=2)这意味着原始的通道数据被扩展或重复以填充新的通道维度。表示原始的高度和宽度被重复或扩展了。
2024-04-30 21:44:44
1198
原创 Whisper-AT:一个统一语音识别和音频标签的模型
一种语音大模型优化技术:在Whisper基础上添加轻量级的音频标签模型,在额外增加计算成本小于1%的情况下,同时输出识别结果和音频标签
2024-03-21 14:42:57
1991
原创 ⎣工具⎤Git:只需要掌握以下命令
作为一名程序员,git是日常开发必不可少的工具,git命令比较复杂,但是只需要掌握以下几个命令(推/拉/添加tag/子模块),就能满足大部分需求。
2024-03-20 09:01:58
265
原创 CoT-Decoding
大模型推理,prompt会在很大程度上影响结果准确性,因此很多公司专门设置"prompt工程师"这个职位,显然就像先前NLU写规则一样,获取适合任务的prompt也渐渐成为一个非常耗费人力的方向,那么是否可以在保证精度的情况下,跳过编写prompt这个流程?从实现方案及效果来看,该技术方案离“不需要任何显式的CoT prompting”还有一定距离。计算量增加:从Figure-3可以看出,通常topk越大效果越好,但与之相应的是计算量也会增加。
2024-03-09 18:35:34
1188
1
原创 Claude3——给奥特曼一点点压力!
微信公众号|人工智能技术派作 者|hwsClaude系列模型是由美国创业公司Anthropic基于transformer架构研发,该公司是一群在2021年OpenAI离职员工(包括前首席科学家Ilya Sutskever和Dario Amodei)创建的。Anthropic先前已发布Claude1和Claude2,效果相当不错模,紧追OpenAI。过去短短半年,Claude3效果已优于GPT-4,从跟随者变为引领者。下面将简要介绍一下本次发布的Claude3特点。
2024-03-09 18:29:13
1168
转载 ssl 编程(收藏)
服务端:#include #include #include #include #include #include #include #include #include #include #include #include #define MAXBUF 1024/***********************************利用 OpenSSL 库进行基于 IP层的 SSL 加密通讯的方法
2018-01-19 10:51:38
572
原创 c++ code: 最长回文串
给出一个包含大小写字母的字符串。求出由这些字母构成的最长的回文串的长度是多少。数据是大小写敏感的,也就是说,"Aa" 并不会被认为是一个回文串。 注意事项假设字符串的长度不会超过 1010。您在真实的面试中是否遇到过这个题? Yes样例给出 s = "abccccdd" 返回 7一种可以构建出来的最长回文串方案是 "dccaccd"。class Solution {public: /** * @p
2017-07-01 20:43:19
796
原创 python实操(5):python数据类型及常用操作,数字、字符串、元组、列表、字典、集合
python数据类型及常用操作,数字、字符串、元组、列表、字典、集合
2017-04-04 13:24:08
928
原创 python(实操4):录音文件的读取、写入、绘制波形、录音、播放等
Python 进行录音文件的读取、写入、播放、绘制波形,以及录音等功能
2017-04-03 21:16:08
10731
3
原创 python实操(1):搜索指定目录(文件)下包含指定字符串的文件,及行号
#!/usr/bin/python# _*_ coding: UTF-8 _*_# Filename : findString.py#author by :morespeech#python2.7import osimport reclass cFindString:####public functions def __init__(self, filepattern , txt
2017-03-27 18:20:50
2702
原创 Python使用:(一)起步学习
国庆节开始决定学习python的使用,经过3天的熟悉,加上本身有一定编程基础,可以上手编程了。现在分享一下,在初始接触Python阶段相关的几个经验:(1)一个好的IDE,pycharm这个工具用起来还是比较爽的,界面比较清晰,有点用VS编写c/c++的感觉;进一步使用后,计划写一篇使用心得。(2)ipython的使用ipython还是比较强大的,可以到http://archive
2016-10-07 14:03:33
920
转载 一个Perl 用户的Python 之旅_看啦这篇文章决定花精力转python
原文出处 http://blog.youkuaiyun.com/ispeller目录(?)[+]作为万年Perl 党表示最近开始学Python 了,下面会记录一下学习中Python 和Perl 的对比,如果你也是一个Perl 用户,看过了也会对Python 有一个大致的印象吧。事实上,写着写着我发现如果你是一名Python 用户,看完后也会对Perl 有一个
2016-10-04 12:08:29
2384
原创 统计C/C++有效代码量
一直想分享点方法,却又不知从何入手;正好老大让统计工程有效代码行数,就分享一下相关的经验。前后总共尝试了3种方案(1)VS2010直接统计(2)sourceinsight 总计(3)自己写个脚本,中秋节熬了一个通宵用perl写了一个脚本,当然主要是perl本身用的也不是很好,带有尝试性的写写,所以可能还有一些问题,但好在此次统计中感觉结果还是很靠谱的,所以本着学习的态度暂且拿出来分享,
2016-09-17 11:29:35
2776
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅