人工智能技术派-优快云博客

原创 LayerNorm原理及源码解读

LayerNorm（Layer Normalization，层归一化）是一种在深度神经网络中常用的技术，用于稳定训练过程。它是由Jimmy Ba和Geoffrey Hinton在2016年提出的，旨在解决深度网络训练中的和问题，以及使得网络能够更有效地学习更高阶的特征。

2025-10-07 09:54:13 312

现有的多任务语言模型主要关注特定类型的音频（如人类语音）或特定任务（如语音识别和字幕生成），限制了模型的通用性和交互能力。于是提出了一个新颖的音频-语言模型，该模型拥有通用音频理解模型的能力，结构图如下。从上图可以看出Qwen-Audio结合了一个音频编码器和一个基于Qwen-7B的大型语言模型。Qwen-Audio在超过30个任务和多种音频类型上进行预训练，包括人类语音、自然声音、音乐和歌曲，以促进通用音频理解能力，从论文(参考文献-1)及官方Demo体验来看效果还是非常不错的。

2025-10-07 08:44:11 1312

原创 Whisper推理源码解读

Whisper是一个由OpenAI开发的自动语音识别（ASR）系统，在多语言环境和嘈杂背景下的语音识别任务中表现出色。多语言支持：Whisper被设计为一个多语言模型，能够理解和转录多种语言的语音，包括但不限于英语、中文、阿拉伯语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和土耳其语等。鲁棒性：Whisper在处理各种噪声环境下的语音信号方面表现出鲁棒性，这意味着即使在背景噪音较大的情况下，它也能够准确识别和转录语音。

2025-10-06 20:48:06 1148

原创 LTU-AS：一种具备音频感知、识别、理解的大模型架构

人类生活在一个多样化的音频信号环境中，包括语音和各种非语音声音。人可以准确辨识、解释和整合这些语音和非语音音频元素，以及深刻理解它们之间的关系。无所不能的人工智能也应该具备这样的能力！于是论文提出了一种新的模型结构LTU-AS，下图展示了LTU-AS效果，我们看一下第一个示例：感知到了人声和篮球弹跳的声音，同时基于识别出的说话内容，推测出这个说话人正在指导别人打篮球教练。可以看出这个模型同时具备了音频感知、理解能力、识别能力。

2025-10-04 16:59:24 1208

原创 LTU：一种能听、能想、能理解的大模型架构

一种模型优化技术：这篇论文的核心贡献在于提出了一个新的多模态大型语言模型LTU，它不仅能够处理音频分类和描述任务，还能够理解和回答开放性问题，是音频模型领域一个创新的尝试。

2025-10-04 16:46:46 916

原创数据重排——Rearrange

这种重排操作在深度学习中很有用，特别是在涉及对输入数据进行维度变换或特征映射时，例如在卷积神经网络的不同层之间传递数据，或者在实现如 Transformer 模型中的自注意力机制时调整数据的形状。数据重排（rearrange）通常用于深度学习框架中调整多维数据的维度顺序。示例：Rearrange('b c (h p1) (w p2) -> b (c p1 p2) h w', p1=2, p2=2)这意味着原始的通道数据被扩展或重复以填充新的通道维度。表示原始的高度和宽度被重复或扩展了。

2024-04-30 21:44:44 1198

原创 Whisper-AT:一个统一语音识别和音频标签的模型

一种语音大模型优化技术：在Whisper基础上添加轻量级的音频标签模型，在额外增加计算成本小于1%的情况下，同时输出识别结果和音频标签

2024-03-21 14:42:57 1991

原创代码覆盖率：基于gcov + lcov生成覆盖率报表

C/C++代码覆盖率统计

2024-03-20 12:40:25 742

原创 ⎣工具⎤Git：只需要掌握以下命令

作为一名程序员，git是日常开发必不可少的工具，git命令比较复杂，但是只需要掌握以下几个命令(推/拉/添加tag/子模块)，就能满足大部分需求。

2024-03-20 09:01:58 265

原创 TinyStories如何四两拨千斤？

一种模型优化技术：论文以用小模型生成英语故事为切入点，探讨大模型在垂直领域落地的一种可行方案

2024-03-19 22:36:58 1263

原创手撕GPT-Neo源码

将于2024/03/24日发布。

2024-03-19 22:22:55 300

原创 CoT-Decoding

大模型推理，prompt会在很大程度上影响结果准确性，因此很多公司专门设置"prompt工程师"这个职位，显然就像先前NLU写规则一样，获取适合任务的prompt也渐渐成为一个非常耗费人力的方向，那么是否可以在保证精度的情况下，跳过编写prompt这个流程？从实现方案及效果来看，该技术方案离“不需要任何显式的CoT prompting”还有一定距离。计算量增加：从Figure-3可以看出，通常topk越大效果越好，但与之相应的是计算量也会增加。

2024-03-09 18:35:34 1188 1

原创 Claude3——给奥特曼一点点压力！

微信公众号|人工智能技术派作者|hwsClaude系列模型是由美国创业公司Anthropic基于transformer架构研发，该公司是一群在2021年OpenAI离职员工(包括前首席科学家Ilya Sutskever和Dario Amodei)创建的。Anthropic先前已发布Claude1和Claude2，效果相当不错模，紧追OpenAI。过去短短半年，Claude3效果已优于GPT-4，从跟随者变为引领者。下面将简要介绍一下本次发布的Claude3特点。

2024-03-09 18:29:13 1168

转载 ssl 编程（收藏）

服务端：#include #include #include #include #include #include #include #include #include #include #include #include #define MAXBUF 1024/***********************************利用 OpenSSL 库进行基于 IP层的 SSL 加密通讯的方法

2018-01-19 10:51:38 572

原创 c++ code: 最长回文串

给出一个包含大小写字母的字符串。求出由这些字母构成的最长的回文串的长度是多少。数据是大小写敏感的，也就是说，"Aa" 并不会被认为是一个回文串。注意事项假设字符串的长度不会超过 1010。您在真实的面试中是否遇到过这个题？ Yes样例给出 s = "abccccdd" 返回 7一种可以构建出来的最长回文串方案是 "dccaccd"。class Solution {public: /** * @p

2017-07-01 20:43:19 796

原创 python实操（5）：python数据类型及常用操作，数字、字符串、元组、列表、字典、集合

python数据类型及常用操作，数字、字符串、元组、列表、字典、集合

2017-04-04 13:24:08 928

原创 python(实操4)：录音文件的读取、写入、绘制波形、录音、播放等

Python 进行录音文件的读取、写入、播放、绘制波形，以及录音等功能

2017-04-03 21:16:08 10731 3

原创 Python实操（3）：python编程规范

python编程规范

2017-04-02 09:52:33 7835

原创 ffmpeg 常用命令备份

ffmpeg 常用命令

2017-03-29 17:42:31 768

原创 python实操（2）：windows进程监控

python 实现windows下进程监控

2017-03-28 17:40:50 2595

原创 python实操（1）：搜索指定目录（文件）下包含指定字符串的文件，及行号

#!/usr/bin/python# _*_ coding: UTF-8 _*_# Filename : findString.py#author by :morespeech#python2.7import osimport reclass cFindString:####public functions def __init__(self, filepattern , txt

2017-03-27 18:20:50 2702

转载常用软件安装方法

OFFICE 2010 安装无法继续缺少组件 MSXML 6.10.1129.0Ultraedit64安装

2017-02-18 21:50:04 650

原创 Python使用：（一）起步学习

国庆节开始决定学习python的使用，经过3天的熟悉，加上本身有一定编程基础，可以上手编程了。现在分享一下，在初始接触Python阶段相关的几个经验：（1）一个好的IDE，pycharm这个工具用起来还是比较爽的，界面比较清晰，有点用VS编写c/c++的感觉；进一步使用后，计划写一篇使用心得。（2）ipython的使用ipython还是比较强大的，可以到http://archive

2016-10-07 14:03:33 920

转载一个Perl 用户的Python 之旅_看啦这篇文章决定花精力转python

原文出处 http://blog.youkuaiyun.com/ispeller目录(?)[+]作为万年Perl 党表示最近开始学Python 了，下面会记录一下学习中Python 和Perl 的对比，如果你也是一个Perl 用户，看过了也会对Python 有一个大致的印象吧。事实上，写着写着我发现如果你是一名Python 用户，看完后也会对Perl 有一个

2016-10-04 12:08:29 2384

原创统计C/C++有效代码量

一直想分享点方法，却又不知从何入手；正好老大让统计工程有效代码行数，就分享一下相关的经验。前后总共尝试了3种方案（1）VS2010直接统计（2）sourceinsight 总计（3）自己写个脚本，中秋节熬了一个通宵用perl写了一个脚本，当然主要是perl本身用的也不是很好，带有尝试性的写写，所以可能还有一些问题，但好在此次统计中感觉结果还是很靠谱的，所以本着学习的态度暂且拿出来分享，

2016-09-17 11:29:35 2776