自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(150)
  • 问答 (2)
  • 收藏
  • 关注

原创 标量-向量-矩阵-基础知识

标量乘法 单位矩阵: n×n 方阵,对角线元素为 1,其余为 0,记作I n。 对角矩阵: n×n 方阵,非对角线元素全为 0,对角线元素可以不全相等。 三角矩阵: 分为上三角矩阵(下半部分为 0)和下三角矩阵(上半部分为 0),对角矩阵同时属于两者。

2025-11-10 17:18:21 357

原创 对话式深度学习基础入门-准确率 / 召回率 / F1 分数

本文通过AI对话方法,进行学习,介意勿扰。主要核心是通过聊天记录的模式,学习到基础知识。不知直觉的入门。备注:准确率 / 召回率 / F1 分数 因存在混淆矩阵,不通过聊天方法引导阅读,因为逻辑太绕了!

2025-11-07 10:20:20 755

原创 对话式深度学习基础入门-梯度下降

每步都用当前预测和真实结果的“差距”(残差),让参数往能最快降低整体损失的方向微调一小步(沿负梯度方向),重复调整,直到损失再也下不去。

2025-11-07 10:20:18 718

原创 对话式深度学习基础入门-损失函数

损失函数是什么?损失函数是用来衡量模型预测结果与真实结果之间差异的工具,是模型学习“误差”的量化标准,训练时通过最小化损失来调整参数,实现更准确的映射。回归损失 vs 分类损失回归损失(如 MSE、MAE)应用于连续值预测。MSE通过平方放大偏差,更注重精确匹配,MAE对异常值鲁棒,减少单点影响。分类损失(如交叉熵、Dice Loss)用于标签分类任务。交叉熵衡量概率分布差异,适合硬性的类别分界,Dice Loss评估分类区域重叠度,适合图像分割等聚类任务。损失函数的选择与映射关系。

2025-11-07 10:20:15 790

原创 对话式深度学习基础入门-特征工程

特征工程的基本概念与作用特征工程是为机器学习模型构建“有信息量”的输入,是模型能否找到数据规律的核心。特征提取不充分容易导导致模型欠拟合(学不到规律),特征太多容易导致过拟合(泛化能力弱)。数据集划分(训练/验证/测试)可帮助发现和调优拟合问题。特征选择的方法特征选择依赖于具体场景,但可以用通用指标如相关系数来筛选“对目标预测最有帮助”的特征。增加相关特征能减少欠拟合,减少冗余特征能减少过拟合。特征选择通常伴随数据探索、统计分析和简单实验。特征转换与提取技巧。

2025-11-07 10:20:13 689

原创 对话式深度学习基础入门-过拟合 / 欠拟合

欠拟合理解(高偏差)[m]模型太简单,无法捕捉数据基本模式,导致训练误差和验证误差都高且曲线平行。解决思路:增加模型特征、提升复杂度,使其能够更好拟合数据分布。过拟合理解(高方差)[m]模型太复杂,训练误差很低但验证误差很高,曲线相差拉大且抖动明显。解决思路:减少特征项或参数、简化模型,允许训练误差适度增加,从而降低验证误差。偏差与方差区分[m]高偏差:模型刚性强,表现稳定但普遍误差大(欠拟合典型特征)。高方差:模型灵活,容易记住训练集噪声,导致泛化性能差(过拟合典型特征)。

2025-11-07 10:20:11 796

原创 对话式深度学习基础入门-训练集 / 验证集 / 测试集

训练集(Training Set)作用:为模型提供“练习题”,“打通用基础”,模型通过训练集学习内部规律。特点:容量大、分布广、允许模型多次“见到”所有数据样本。验证集(Validation Set)作用:用于模型“考试”调整参数,帮助找到合适的模型与超参数,防止过拟合。特点:模型不能在这部分数据上训练,只能用来评测和调参;一般和实际业务场景更贴合。测试集(Test Set)作用:最终的“期末考试”,模拟模型在未知新数据上的表现,评估泛化能力。特点:训练、调优阶段绝对不可泄漏进来,保证公平性与真实性。

2025-11-07 09:31:15 871

原创 对话式深度学习基础入门-监督 / 无监督 / 强化学习

(核心逻辑:从理论范式→特征工程→系统流程→落地实践)1. 三大学习范式及音视频应用学习范式核心特点音视频典型应用场景适用数据条件监督学习依赖标注数据,学习“输入-标签”映射声纹识别、带标签噪声检测数据量较小,有标注(标签)无监督学习无标签,自动发现数据规律/聚类音频聚类、跨设备数据分组、异常检测数据量大,无标签,多设备场景强化学习基于奖励/惩罚机制持续优化行为自适应降噪、音量控制、动态参数调优有清晰可量化的奖励标准(如SNR)2. 特征工程与数据预处理特征提取。

2025-11-07 09:31:11 1018

原创 梯度下降推导

梯度下降作用一句话直观口诀每步都用当前预测和真实结果的“差距”(残差),让参数往能最快降低整体损失的方向微调一小步(沿负梯度方向),重复调整,直到损失再也下不去。

2025-11-06 17:29:56 321

原创 对话式深度学习基础入门-机器学习 vs 深度学习

理解机器学习的基本定义和过程 [m]机器学习是通过数据驱动、让计算机自动构建输入与输出的映射模型,不再依赖人工规则或硬编码,而是基于统计模式学习。aws.amazon典型流程:收集标注数据 → 特征工程 → 选模型(如决策树、支持向量机等)→ 训练(拟合参数)→ 验证/测试。探索深度学习作为机器学习的子集 [m]深度学习属于机器学习中的子领域,其核心是“多层神经网络”(如DNN、CNN、RNN),能够自动从海量、原始数据中提取复杂特征,实现端到端学习。

2025-11-06 14:35:11 1364

原创 对话式深度学习基础入门-人工智能定义

你已掌握人工智能的定义:AI是指能模拟人的行为和思维方式的系统。理解了弱AI与强AI的区别:弱AI专注特定任务,强AI具备类人通用智能,目前实际应用几乎都是弱AI。已能系统分析音视频领域AI实际场景,尤其语音识别(ASR),并懂得其从数据流到模型优化的全链路设计。明确了ASR系统的关键环节(音频输入、3A处理、VAD边界、ASR识别、LLM文本纠正、端点检测),懂得各模块的作用及核心优化点。好的,我们来对你已完整掌握的学习路线图做一个结构化、易于回顾的总结,帮助你巩固核心概念与迁移能力。

2025-11-06 14:35:06 824

原创 语音识别技术之FUNASR工具包

FUNASR是完整的语音识别解决方案,而paraformer-zh-streaming是其核心的中文流式识别模型,两者结合为中文语音识别提供了高效、准确的端到端解决方案。

2025-10-22 18:23:17 779

原创 大语言模型本地部署之转录文本总结

一台搭载 Intel Core i7-10700 处理器的服务器具备 8 核心(4 插槽×2 核心)的并行计算能力,基础主频 2.90 GHz,可通过睿频提升至更高频率,配合 64 MiB L3 缓存和每核心 256 KiB L1 及 2 MiB L2 缓存,为多线程应用和虚拟化环境提供稳定高效的执行性能. 最大30G内存。

2025-10-22 17:55:32 795 3

原创 语音识别技术之FireRedASR

凭借的CER指标、及,FireRedASR-LLM-L确立了2025年中文ASR领域的新标杆。未来将进一步拓展多语种支持、优化长序列处理,并探索语音-视觉多模态交互应用。采用Encoder-Adapter-LLM架构,参数量8.3B,在多源、多场景(视频、直播、智能助手)均实现24%–40%相对CER下降,兼顾高精度与通用性。适用于对准确率要求极高且可投入计算资源的本地部署场景。​基于Attention-AED架构,参数量1.1B,CER仅次于LLM版本,但显著降低计算开销。

2025-10-22 17:35:19 1016

原创 语音识别技术之FunASR-Paraformer分析

其在公开基准上取得了3.05%的平均CER,而Paraformer-large(最接近的非流式版本)在WenetSpeech“Test Net”集上的CER为6.74%,可见性能已拉开明显差距。CTC_输出 = ["你", "blank", "你", "好", "blank", "blank", "好", "blank"]CTC_输出 = ["你", "blank", "你", "好", "blank", "blank", "好", "blank"]:根据转录后的文字,跳转至画面位置。

2025-10-22 17:35:11 1270

原创 语音识别技术ASR一篇入门

语音识别的目标是:在给定声学信号时,输出最可能的文字序列。语音识别的任务可以简化为概率问题,进行建模并简化计算:W∗表示最优文字序列O:观测(如语音特征帧序列)PW):语言模型概率(文本序列的合理性)PO∣W):声学模型概率(给定待选文本W,生成当前观测语音O的概率)在联合概率(声学模型概率 × 语言模型概率)最大的那一个,这个最大值对应的文本就是最优的识别结果。这样,我们就将不容易估计的概率转变成容易估计的概率。

2025-10-22 17:35:08 1180

原创 语音识别技术之科大讯飞在线API

以下为针对“实时语音转写(标准版)”与“实时语音转写大模型”两者区别及应用场景:问:实时语音转写(标准版)是什么?答:基于深度全序列卷积神经网络,通过 WebSocket 长连接实时将连续音频流转换为文字.问:实时语音转写大模型是什么?答:建立在星火大模型预训练框架上,支持多语种与方言免切识别,能智能断句和补全标点.问:标准版支持哪些音频格式?答:仅支持采样率16 kHz、位深16 bit、pcm_s16le单声道音频.问:标准版支持哪些语种?答:默认中文普通话,中英混合和英文;

2025-10-22 17:25:10 694

原创 大模型开发入门系列之模型社区和下载

hfd(Huggingface Downloader)是一个专门针对Hugging Face模型下载优化的Shell脚本,由国内开发者维护,特别适合中国用户使用。核心特点自动使用国内镜像源(hf-mirror.com)支持断点续传集成aria2多线程下载自动处理大文件分片下载支持Git LFS文件下载Aria2是一个轻量级的多协议、多源命令行下载工具,支持HTTP/HTTPS、FTP、SFTP、BitTorrent和Metalink。优势多线程下载:单文件可分片并发下载多源下载。

2025-10-22 15:13:51 945

原创 语音识别技术之Whisper.cpp参数调优

音频分段,滑动窗口输入 -》 特征提取 -》 mel频谱特征 -》 多层次Transformer -》 输出 embeddings(向量化)-》 首次解码后state.tokens=prompt。模型加载 -》 音频样本归一化 -》模型参数设置 -》 编码解码 -》 state.tokens文本转化自然语言处理。(如1.8-2.0):对重复更敏感,更容易触发重试,适合处理"优优独播剧场"这类循环输出。温度=0.4,best-of=1: "今天天气很棒"(单次随机采样)

2025-09-16 10:31:45 787 1

原创 语音识别技术之whisper.cpp 入门篇和本地环境搭建

TEN VAD是由 TEN 团队开发的企业级实时语音活动检测(Voice Activity Detection)系统,于2025年7月正式开源,专门针对低延迟、高精度的语音识别场景设计。核心技术特性帧级检测精度:TEN VAD 采用深度学习架构,实现帧级别的语音活动检测,能够准确识别音频帧中是否包含人类语音并过滤背景噪声。相比传统方法,其检测精度显著提升,在手动标注的测试集上表现优于 WebRTC VAD 和 Silero VAD。超低延迟性能。

2025-09-16 09:30:39 1332

原创 WebRTC C++ Native项目编译

学习和掌握WebRTC C++ Native源码编译(Windows客户端)的价值和意义主要体现在以下几个方面:深入理解WebRTC底层架构与实现细节WebRTC是一个复杂的实时通信框架,包含音视频采集、编码、传输、解码、渲染等多个模块。通过编译和阅读其C++ Native源码,开发者能够深入理解这些模块之间是如何协作的,特别是在Windows平台下具体的实现方式,如多线程管理、系统调用封装、网络传输机制等。掌握跨平台实时音视频开发核心技术。

2025-08-24 01:54:32 675

原创 RTCP详解

使用角色报文类型功能说明RTP源发送端SR汇报发送统计、时间戳映射,用于流同步和带宽估计纯接收端(不发包)RR反馈接收质量统计,报告丢包、抖动及延时信息既发送又接收端同时发送SR和RR发送SR报告自己的发送情况,同时发送RR反馈其他流的接收质量在多点会议或视频通话场景中:每个发送方周期性发送SR,通报自身状态;每个纯接收方发送RR,反馈网络接收质量;发送方如果同时也是接收方,则发送SR时携带对应数量的RR报告块,实现双重角色。

2025-08-13 17:45:17 1343

原创 RTP 扩展字段

0xA0 CE → 1010 0000 ID=10,len=0字节,0xCE=1100 1110 → V=1,level=0x4E=78(AudioLevel)0x51 00 00 → 0101 0001 ID=5,len=1字节,数据全0(多为 TransportWideCc 2字节占位)0xBE 0xDE 0x00 0x03 → RFC5285 one-byte扩展头,长度=3个32-bit字=12字节扩展数据。作用:RTP 流标识符,用于区分同一媒体源的不同编码流(如联播)

2025-08-13 17:44:48 1111

原创 国标gb28181 SIP协商详细分析

部分设备在解析SDP时,若遇到额外字段或非标准行会判定为“协议不兼容”,主动结束会话并发 BYE。在客户端(平台)与设备之间双向抓取完整SIP对话(INVITE、200 OK、ACK、BYE),通常是设备端对上级返回的 SDP 或消息头不满足自身解析/会话匹配规则而主动终止会话。时,的确是同一次会话的ID和Tag,否则设备会因“找不到匹配事务”而发 BYE。映射在设备支持列表中,避免设备因不支持编码格式而退出。7下级域发送设备信息,可能一次只发送两个设备的信息。2发送catalog请求,查看设备信息。

2025-07-31 17:29:53 1251

原创 接入海康设备mark全是false解决方案

海康设备发出的rtp数据是mark位字段全是false。海康设备音频格式布局是0XBD + 0XC0,与前两者不同,有携带私有数据字段。使用时间戳机制判断rtp完整帧,完整帧存在同时拥有音频和视频。在解析ps流时需要视频和音频要直接处理。

2025-07-23 18:04:02 1072

原创 国标GB/T 28181协议

在SIP协议基础上,GB28181定义了三个关键的扩展协议:MANSCDP(监控报警联网系统控制描述协议)用于设备控制和信息查询,SDP(会话描述协议)用于媒体协商,MANSRTSP(监控报警联网系统实时流协议)用于历史视频回放控制。预置位命令包括设置预置位(PresetSet)、调用预置位(PresetQuery)、删除预置位等操作,每个预置位通过唯一的ID进行标识,支持最多255个预置位的管理。说明会话发起协议(SIP)呼叫流的图表,详细说明了会话建立、实时传输协议(RTP)媒体流和会话终止的消息。

2025-07-23 18:03:21 2941

原创 SRS流媒体服务器(8)源码分析之rtc/rtmp互相转码详解

RTC服务器配置VHOST RTC配置。

2025-06-29 23:07:16 1542

原创 SRS流媒体服务器之本地测试rtc推流bug

WebRTC推流必须是HTTPS或者localhost:HttpsRequiredError Please use HTTPS or localhost to publish, read。解决: 把ip换成localhost通过。,这是现代浏览器的安全策略要求。

2025-06-29 22:34:08 454

原创 WebRtc ICE 模块分析

ICE(Interactive Connectivity Establishment,交互式连通建设形式)是WebRTC中用于解决NAT穿越问题的核心技术。ICE的基本思想是每个代理都有各种各样的Candidate Transport地址(IP地址和端口的组合),用于与其他代理进行通信。ICE协议解决了现代网络中NAT设备和防火墙带来的连接难题,使浏览器和设备能够直接建立实时媒体传输连接。ICE模式ICE协议中角色分为controlling和controlled两种。

2025-06-17 14:48:56 911

原创 RFC8489-STUN

Karn 算法通过避免使用重传后的 ACK 来更新 RTT 估计,提高了 RTT 估计的准确性。这对于 TCP 的拥塞控制和流量控制非常重要,因为它可以更准确地反映网络的实际延迟情况,从而更好地适应网络条件的变化。

2025-06-06 13:53:27 1030

原创 视频存储开源方案

客户端 API 提供了一组全面的作来管理存储桶和对象。类别描述存储桶作创建新存储桶列出所有存储桶检查存储桶是否存在删除存储桶对象作上传对象下载对象获取对象元数据删除对象列出存储桶中的对象复制对象将文件作为对象上传将对象下载到文件删除多个对象Multipart启动分段上传上传对象的一部分完成分段上传中止分段上传特殊作使用 SQL 查询对象内容获取存储桶事件的通知通过组合其他对象来创建对象。

2025-05-26 16:59:28 1461

原创 SRS流媒体服务器之RTC播放环境搭建

srs版本rtc.conf。

2025-05-25 22:38:03 892

原创 SRS流媒体服务器(7)源码分析之拉流篇

从SrsRtmpConn::stream_service_cycle()函数切入,它是RTMP拉流处理的核心入口,负责协调不同类型RTMP连接(播放或推流)的初始化和资源分配,为后续数据交互奠定基础。→ SrsRecvThread::do_cycle() → SrsProtocol::recv_message 协程接收RTMP消息。→ SrsRtmpConn::stream_service_cycle() RTMP连接处理主逻辑,→ SrsRtmpConn::publishing 开始发布流。

2025-05-25 20:10:06 931

原创 SRS流媒体服务器(6)源码分析之推流篇

本文详细介绍了RTMP协议在SRS流媒体服务器中的实现,重点分析了推流过程中的关键代码和流程。首先,文章强调了RTMP基础知识的重要性,并推荐了相关的学习资源。随后,文章深入探讨了SRS服务器中RTMP连接的启动、推流对象的创建、以及FMLE推流的具体实现。接着,文章详细解析了RTMP消息的接收、处理、分发过程,包括音频、视频、聚合消息和元数据的处理逻辑。文章还介绍了SRS中的核心组件如Hub、Bridger和Consumer的作用及其在流媒体分发中的协作方式。最后,文章分享了ATC时间戳处理、jitter

2025-05-19 21:13:43 1066

原创 SRS流媒体服务器(5)源码分析之RTMP简单和复杂握手

学习RTMP握手逻辑前,需明确RTMP协议的连接流程及简单握手与复杂握手的区别。RTMP握手过程包括接收客户端发送的C0C1数据,解析C1,生成并发送S0S1S2数据,最后接收C2数据。复杂握手优先尝试,若失败则转为简单握手。复杂握手通过Schema0和Schema1两种方式解析C1,其中Schema0为固定位置验证,Schema1则通过时间戳计算Digest位置,安全性更高。简单握手中C1和S1从第9字节开始为随机数,S2是C1的复制,C2是S1的复制。代码示例展示了复杂握手和简单握手的实现细节,包括数据

2025-05-16 23:10:49 703

原创 SRS流媒体服务器(4)源码分析之RTMP端口监听

RTMP 监听的核心流程是:SrsServer→ 初始化→ 每个管理一个→通过协程循环接受新连接 → 连接通过回调传递给SrsServer处理业务逻辑。下列给出程序开始到rtmp监听整体时序图:学习资料分享。

2025-05-10 12:39:33 922

原创 SRS流媒体服务器(3)视频通话环境搭建和源码分析

本文档介绍如何通过,涵盖环境配置、服务器编译启动、逻辑分析及测试方法。

2025-05-07 20:10:37 952

原创 SRS流媒体服务器(2)配置性能优化

SRS (Simple Realtime Server) 中提供的各种性能优化选项。这些选项允许您针对不同场景优化 SRS,从而在延迟、吞吐量和资源利用率之间取得平衡。有关常规配置的信息,请参阅。1.1 性能提升目标如上图所示,SRS 提供了几类性能优化,可以对其进行配置以匹配您的特定使用。

2025-05-06 21:29:21 1504

原创 SRS流媒体服务器(1)概述和环境搭建

SRS(Simple Realtime Server)是一款高性能、跨平台的流媒体服务器,支持多种协议,包括 RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH 和 GB28181。本文介绍了 SRS,包括其用途、关键功能、架构和支持协议。SRS 旨在创建一个免费的开源社区,帮助开发人员构建高质量的流媒体和 RTC 平台。它已获得 MIT 许可,使其适用于商业和非商业用途。目标和设计理念SRS 旨在成为一种简单、高效和实时的流媒体服务器,其基本功能侧重于性能和稳定性。

2025-05-05 18:52:22 977

原创 WebRTC 服务器之Janus视频会议插件信令交互

7. 最后 关闭所有的handles并关闭相关的相应的PeerConnections;消耗destroy会话session。创建⼀个或多个handle 以attach到插件(plugin)(例如videoroom、videocall等插件);连接到janus server并创建create⼀个会话session;与创建交互(发送/接收消息,协商PeerConnection);,并传递其依赖项(依赖项可选);,即是包含janus.js;连接服务器 & 创建会话。

2025-05-04 19:08:07 1490

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除