Crazy learner-优快云博客

原创在嵌入式 Linux 上使用 `tinyplay` 播放音频的完整指南

在嵌入式 Linux 设备上，使用。

2025-03-28 12:18:30 1016

原创深入理解 `gedit` 和 `bashrc` —— Linux 中不可忽视的两大命令

gedit和bashrc都是 Linux 系统中非常重要的工具。gedit是一个功能强大的文本编辑器，适用于编程、文件编辑等各种场景；而bashrc则是配置终端环境的核心文件，它使得用户能够根据自己的需求定制终端行为。通过熟练掌握这两个工具，你可以大大提高 Linux 系统的使用效率，创造一个更符合你工作习惯的环境。

2025-03-28 12:17:58 593

原创如何在 Windows 和 Linux 下查看 MD5——原理、作用及完整性验证指南

MD5（Message-Digest Algorithm 5）是一种常见的哈希算法。它能将任意长度的输入（如文本、文件、图片、音频、视频等）映射（或转换）成一段固定长度的 128 位二进制数据，并通常以 32 位的十六进制字符串显示。例如，一段简短的文本。核心用途：校验文件完整性，防止误传和篡改。适用场景：普通软件发布下载、系统镜像校验、大文件传输后的完整性验证、快速比对文件差异等。操作简便：Windows 用户可使用certutil -hashfile <文件名> MD5。

2025-03-04 08:13:52 1177

原创 Valgrind 检测内存泄漏 ----记录

一定要一步一步dubug，定位malloc开辟的内存，查找全局看看有没有free。

2025-03-01 21:38:39 119

原创 GitLab 密钥详解：如何安全地使用 SSH 密钥进行身份验证

SSH 密钥是一种通过加密算法生成的密钥对，用于在客户端和服务器之间建立安全连接。在 GitLab 中，SSH 密钥用于验证用户身份，以确保只有授权的用户能够进行推送、拉取代码等操作。与传统的用户名和密码方式相比，使用 SSH 密钥更为安全，因为密码可能会被泄露，而密钥对的安全性则依赖于私钥的保密性。私钥永远不应泄露，只有公钥需要上传到 GitLab。通过在 GitLab 中使用 SSH 密钥进行身份验证，你可以大大提升操作的安全性和便捷性。

2025-03-01 21:37:38 1062

原创 #深入了解DNS3和VCTK语音数据集

DNS3（Deep Noise Suppression 3）是一个专门为语音降噪任务设计的数据集，它是DNS（Deep Noise Suppression）项目的第三版本。DNS3数据集的目标是为深度学习模型提供一个广泛的训练平台，帮助模型更好地处理各种环境噪声并提升语音的清晰度。该数据集包含了成千上万的语音样本，并且在多种噪声环境下进行了模拟。交通噪声：例如城市交通中的车流声、地铁声音等。机械噪声：如空调、电风扇等设备的运转声。自然噪声：如风声、鸟鸣等环境噪声。人声噪声。

2025-03-01 21:36:38 666

原创深度学习模型可视化：通俗易懂的全面解读

模型可视化是指通过图形化展示深度学习模型的计算图，帮助我们理解每一层的作用和数据如何在不同层之间流动。在神经网络中，计算图（Computation Graph）是网络层与层之间通过张量（Tensors）连接的图形，节点代表计算操作，边代表数据流动。模型的各个层和节点每一层的输入输出张量在计算图中的流动方式深度学习模型的可视化不仅帮助我们理解每个操作的含义，还能帮助我们优化和调试模型。通过对张量、常见节点操作（如GatherTransposePowAdd和Mix。

2025-02-26 17:19:15 1068

原创深度学习框架在移动端和嵌入式设备上的应用：TensorFlow Lite、PyTorch Mobile与OpenVINO详细对比

TensorFlow Lite（TFLite）是谷歌推出的TensorFlow框架的轻量化版本，专门设计用于移动端和嵌入式设备。其核心目标是通过模型量化、优化计算图等技术，大幅减少模型的计算资源消耗和内存占用，使其可以在低功耗的设备上高效运行。TensorFlow Lite支持Android和iOS平台，且支持多种硬件加速技术，如GPU、DSP和TPU。PyTorch Mobile是Facebook（现Meta）推出的PyTorch框架的移动版本，它专门针对移动端设备的推理需求进行了优化。

2025-02-25 08:03:24 926

原创 NNOM框架：轻量级神经网络推理的理想选择

NNOM是一个针对嵌入式设备和低资源平台设计的深度学习推理框架。它的目标是为硬件资源有限的设备提供高效、快速的神经网络推理能力，同时保持较小的模型体积和低功耗的特性。NNOM框架的设计具有很高的灵活性和可定制性，支持多种硬件平台，广泛应用于各种嵌入式应用场景。NNOM是一个非常适合嵌入式设备和资源受限平台的深度学习推理框架。它的轻量级、高效的推理性能使其在物联网设备、智能硬件、无人机等应用中有着广泛的前景。

2025-02-21 16:07:21 547

原创深入了解常见MCU架构：ARM、AVR与其他嵌入式系统

微控制器单元（

2025-02-14 16:34:56 926

原创使用 Git LFS 管理大文件基本简介

Git Large File Storage（Git LFS）是 Git 的一个扩展，用于解决 Git 在处理大文件时的局限性。Git 是一个分布式版本控制工具，擅长管理代码和小型文本文件，但对于像图像、视频、数据集等大文件的处理，它表现不佳。Git LFS 通过将大文件存储在 Git 外部的专用服务器上，同时将其引用信息保存在 Git 仓库中，帮助开发者高效地管理和版本化大文件。Git LFS 是解决 Git 在处理大文件时的局限性的有效工具。

2025-01-23 10:41:47 1025

原创深入解析 TensorFlow 1.15 “Cannot convert a symbolic Tensor to a numpy array” 错误

通过以上方法，可以有效解决 TensorFlow 1.15 中 “Cannot convert a symbolic Tensor to a numpy array” 错误。建议优先检查输入形状和初始状态是否正确，并根据实际情况调整 TensorFlow 和 NumPy 版本。如果可能，升级到 TensorFlow 2.x 是更优的选择。它不仅支持动态图操作，还具有更强的兼容性和更简单的 API。

2025-01-13 08:02:53 876

原创从语音识别到语音合成：一步步构建智能语音交互系统

综上所述，语音识别、自然语言处理和语音合成构成了一个完整的智能语音交互系统。语音识别（ASR）：将语音转化为文本。大模型处理：理解文本内容、识别用户意图，并生成合适的响应。语音合成（TTS）：将文本转化为自然的语音，并反馈给用户。这一流程的每一步都依赖于先进的深度学习技术，使得语音交互系统能够实现高准确度、高自然度的语音识别和语音合成。随着技术的不断发展，未来的语音交互将更加流畅和智能，带来更加自然和高效的人机互动体验。

2025-01-13 08:02:14 1621

原创理解音频效果处理中的滤波器：通俗易懂的讲解与实用例子

音频滤波器是音频处理中不可或缺的工具，它们通过调整频率范围来影响声音的质感。通过对不同滤波器参数的巧妙设置，你可以塑造各种风格和效果，帮助你的音乐作品更具表现力。在实际应用中，合理地结合各种滤波器，并根据不同的需求进行调整，是音乐制作的艺术之一。

2025-01-03 08:07:31 1361

原创在 Ubuntu 上安装和使用 `opus-tools` 的详细教程

Opus 支持不同的比特率，范围从 6 kbps 到 510 kbps，通常会在 64 kbps 到 128 kbps 之间选择。Opus 支持变比特率（VBR），这意味着编码器会根据音频的复杂度动态调整比特率，以优化文件大小和音质。是一个用于解码 Opus 格式音频文件的工具，它将 Opus 文件转换为 WAV 格式或其他常见格式。通过这些工具，你可以处理 Opus 格式的音频文件，适用于各种音频转换和压缩任务。也为你提供了丰富的选项，帮助你在不同场景下使用 Opus 编码。你还可以指定音频的声道数。

2024-12-31 16:40:52 1096

原创共鸣度与 Q 值：数字滤波器中的关键概念

在电子学和信号处理中，Q 值（Quality Factor）是衡量一个系统的“尖锐度”或“选择性”的一个指标。简单来说，Q 值反映了滤波器在其特定频率（如截止频率）附近的响应特性。Q 值定义为中心频率与带宽的比值。中心频率是滤波器或系统的峰值频率，而带宽则是信号幅度下降到最大值的一半所对应的频带宽度。高 Q 值表示滤波器的带宽非常窄，响应更尖锐，通常用于需要非常精确频率选择的场合。低 Q 值则表示滤波器的带宽较宽，响应较为平滑。共鸣度。

2024-12-31 08:07:07 1014

原创 C 和 C++ 动态库的跨语言调用原理

C 封装为动态库：我们将一个简单的 C 函数封装成动态库（如.so或.dll），然后通过extern "C"在 C++ 中调用。C++ 封装为动态库：我们将一个简单的 C++ 类和函数封装成动态库，并提供 C 风格的接口供 C 语言调用。跨语言调用：通过extern "C"关键字，C++ 可以调用 C 函数，C 也可以通过 C 风格接口调用 C++ 函数。动态库使得跨语言调用更加灵活和高效。

2024-12-22 21:09:26 831

原创使用 Valgrind 检测 C 程序中的内存问题 -基础教程

Valgrind 是一个用于动态分析程序的工具，广泛用于检查内存使用情况、检测内存泄漏、越界访问等问题。它支持多种编程语言，包括 C、C++、Fortran 等。Valgrind 的核心功能是通过模拟程序的执行过程来检查内存错误，尤其是在程序运行时动态分配和释放内存的行为。它非常适合用来分析 C 语言中常见的内存问题。Valgrind 是一个非常强大的内存检查工具，可以帮助我们发现和修复 C 程序中的内存问题。

2024-12-16 19:13:57 1130

原创深入解析MCRA：音频处理中的最小成本递归算法

MCRA（Minimum Cost Recursive Algorithm）即最小成本递归算法，是一种基于递归的优化算法，最早应用于语音信号的噪声抑制。其主要思想是通过递归的方式不断估计信号中的噪声，并通过最小化“成本函数”来优化噪声的抑制效果。MCRA算法通常以频谱为单位，对音频信号进行处理，旨在使信号的噪声成分最小化，从而提升语音的清晰度和质量。

2024-12-10 08:02:52 570

原创详细解析RNNoise：基于深度学习的语音噪声抑制技术

RNNoise（Recurrent Neural Network for Noise Suppression）是一种基于递归神经网络（RNN）和深度学习技术的语音噪声抑制算法。其主要目标是通过学习语音信号中的噪声特征，基于输入的噪声信号来生成干净的语音信号。与传统的基于谱减法（Spectral Subtraction）或维纳滤波（Wiener Filter）等方法的噪声抑制技术不同，RNNoise不依赖于手工特征，而是通过训练神经网络来自动提取和去除噪声。

2024-12-10 08:00:42 2268 5

原创记录遇到的报错及解决方法

首先，在window10，vs2017环境下，配置onnxruntime及fftw3环境，遇到以下错误。在ubuntu环境中，配置环境，成功运行。怀疑onnxruntime与vs2017兼容性有问题。原因为，没有配置onnxruntime环境变量，把动态库复制到项目的debug文件夹下即可。环境问题解决后，项目不会遇到上面的崩溃，但有以下错误。

2024-11-30 14:27:33 235

原创 vscode的c_cpp_properties.json、launch.json、settings.json、tasks.json基本讲解

这些配置文件为 VSCode 提供了强大的灵活性，能够帮助你更好地管理 C/C++ 项目的编译、调试、编辑和构建任务。了解这些文件的作用和配置方法，可以大大提高开发效率。具体来说：c_cpp_properties.json 让你配置编译器和 IntelliSense 环境；launch.json 让你设置调试配置；settings.json 让你调整编辑器行为；tasks.json 让你自动化构建和任务执行。

2024-11-29 08:21:13 2563

原创 LFO（低频振荡器）详解

LFO（低频振荡器）顾名思义，是一种工作在低频范围的振荡器。通常，它的工作频率低于 20 Hz，这个范围是人耳无法听到的（20 Hz 以下的频率属于次声波）。LFO 输出的是周期性的波形，但它不直接用于产生音高（如音符），而是用来调制其他信号的属性（如音量、滤波器的频率、音调等）。LFO 的工作方式类似于常见的高频振荡器，但它通常用于产生变化和运动感，而不是持续的音高。例如，你可以用 LFO 来对声音的某个参数进行缓慢的周期性变化，使得声音产生“波动”或“颤动”的效果。

2024-11-26 18:45:58 728

原创在 Ubuntu 中用 VSCode 配置项目，多个源文件

您的项目包含多个 .c 文件，但当前任务配置只编译了 ${file}（当前打开的文件）。这导致链接阶段无法找到其他源文件的符号。从错误提示来看，您使用的代码依赖于 WebRTC 的某些功能，但没有正确链接相关库（如数学库 -lm）。如果一切正确，undefined reference 错误将消失，项目会成功生成。如果未来需要链接其他外部库，也可以添加类似 -lwebrtc 的参数。在 tasks.json 中调用这些工具，可以进一步简化构建管理。在 args 中，列出了所有依赖的 .c 文件。

2024-11-25 08:16:33 289

原创深入理解寄存器：从概念到实际应用

寄存器是一种极小的存储单元，通常位于处理器、控制器或硬件模块内部。它用于存储硬件设备的状态信息、控制命令或处理器需要快速访问的临时数据。寄存器的特点：高速性：寄存器直接与处理器相连，访问速度极快，通常比内存快一个数量级。有限性：寄存器的数量和大小有限，常见的寄存器大小为 8 位、16 位、32 位或 64 位。用途广泛：用于控制设备（控制寄存器）、存储状态（状态寄存器）或传输数据（数据寄存器）。寄存器是硬件控制和嵌入式开发的核心组件。它们通过简单的位操作实现对复杂硬件功能的精确控制。

2024-11-19 18:33:52 1601

原创详细解析 devmem 命令：在 Linux 系统中直接访问内存的利器

devmem 是一个用于直接访问物理内存的命令行工具。它允许用户通过物理内存地址来读取或写入数据。这个命令特别适合嵌入式开发和硬件调试，尤其是在没有操作系统支持的情况下，直接与硬件交互时。

2024-11-18 18:47:07 2627

原创在 Ubuntu 中用 VSCode 配置 C 语言项目的编译与调试（详解教程）

通过以上配置，VSCode 已经成为一个强大的 C 语言开发环境。无论是编译还是调试，都可以在一个统一的界面中完成。以下是完整的操作流程回顾：在 VSCode 中配置 tasks.json，自动编译 C 代码。在 VSCode 中配置 launch.json，设置调试器。使用 Ctrl+Shift+B 进行编译，按 F5 进入调试模式。利用断点和调试器功能，快速定位和解决代码中的问题。

2024-11-18 18:05:31 2074

原创详细讲解 C 语言中的 #ifndef 和 #endif 语法

ifndef 和 #endif 是 C 语言中的条件编译指令，主要用于防止头文件的重复包含，以及在编译时根据不同条件选择性地包含代码。它们是编写高效、可维护 C 代码的基础工具之一，特别是在多文件、大型项目中尤为重要。通过合理使用这些指令，我们可以避免编译冲突、提高编译效率，并能在不同的环境下灵活控制代码的执行。

2024-11-15 08:01:48 4066

原创深度解析 Linux 系统下的 top 命令

top 是 Linux 系统中非常强大且灵活的监控工具，适合用来查看系统状态、调试性能问题、检查进程的资源消耗等。通过各种选项和交互式操作，top 可以根据需求进行高度定制，帮助管理员更好地管理和监控系统资源。希望本文能够帮助你更深入地理解并有效地使用 top 命令。

2024-11-14 08:16:56 1334

原创混响（Reverb）：原理、应用与发展趋势的深度解析

混响作为音频处理中的重要元素，广泛应用于音乐制作、语音处理、游戏音效、电影音效等领域。随着技术的不断发展，混响模拟和消除技术也在不断进步，尤其是在人工智能和深度学习的支持下，混响的处理变得更加精确和高效。未来，混响将不仅仅是音效设计的工具，更将成为沉浸式体验和语音识别等领域中的重要支撑技术。

2024-11-08 08:15:32 1941

原创 DDSP（Differentiable Digital Signal Processing）技术：原理、应用与发展趋势

DDSP（Differentiable Digital Signal Processing）技术通过结合深度学习与传统数字信号处理方法，开创了音频生成和处理的新纪元。它不仅能够自动化音频处理任务，还能在音乐生成、语音合成、音频修复等多个领域展现出巨大的潜力。尽管存在训练数据需求大和模型复杂度高等挑战，但随着技术的不断发展，DDSP无疑将在未来的音频处理领域产生更加深远的影响。

2024-11-08 08:13:50 1305

原创语音识别中的RPM技术：原理、应用与发展趋势

RPM（递归相位模型）作为一种创新的语音信号处理方法，具有重要的理论价值和应用潜力。通过精确建模音频信号的相位信息，RPM能够在语音识别、语音合成、音频压缩等多个领域发挥重要作用。尽管面临计算复杂度和数据需求等挑战，但随着技术的不断发展，RPM将在未来的语音与音频处理领域展现出更加广阔的应用前景。

2024-11-06 19:49:58 1097

原创 MVDR：最小方差无失真响应技术解析

MVDR（Minimum Variance Distortionless Response，最小方差无失真响应）是一种用于信号处理中的自适应滤波技术，广泛应用于阵列信号处理、语音增强、噪声抑制和方向性麦克风等领域。MVDR的核心目标是在不失真目标信号的情况下，最小化噪声或干扰的方差。简单来说，MVDR算法力图在保持目标信号质量不变的前提下，最小化背景噪声或干扰的影响。MVDR算法在声音定位、回声消除、波束形成、语音增强等应用中发挥着至关重要的作用，特别是在多通道音频信号处理系统中。

2024-11-06 19:49:11 1703 1

原创 FXLMS：一种高效的自适应滤波技术及其应用

FXLMS（Filtered-X Least Mean Square，滤波型最小均方误差）是一种自适应滤波算法，是最小均方误差（LMS）算法的扩展和改进版本。它被广泛应用于噪声控制、回声消除、信号增强等领域，尤其是在处理非平稳噪声和复杂环境下的自适应系统中表现出色。FXLMS算法最早是在自适应滤波理论的基础上发展起来的，它的主要优势在于能够处理信号中的干扰，特别是当这些干扰信号是通过某种物理或数学模型得到滤波的情况下。

2024-11-05 18:42:34 1961

原创 Spleeter：音频分离的革命性工具

Spleeter 是一个由 Deezer 开发的开源音频源分离工具。它基于深度学习技术，尤其是卷积神经网络（CNN），能够自动将一段音频中的不同音轨分离开来，通常用于从混合音频中提取出人声、伴奏或其他音频成分。Spleeter 可以将音频分离为多个源，如“人声”和“伴奏”，“人声”和“鼓”，或更多音频通道，适用于音乐制作、音频编辑、卡拉OK等多种应用。在音乐和音频处理中，源分离技术可以帮助我们从一段音频中提取出独立的声音元素。比如，在歌曲中分离出人声与伴奏，或者分离出吉他、鼓和其他乐器。

2024-11-05 18:32:10 1881 1

原创 C 语言编程中的常见错误及解决方案

C 语言中的错误排查通常需要细心和耐心。通过理解常见问题的原因以及如何解决它们，开发者可以提高编程效率，减少调试时间。希望本文提供的解决方案能够帮助你更好地处理 C 语言中的编译和链接错误，让你的项目顺利进行。

2024-11-04 14:39:20 611 2

原创 MFCC特征与Fbank特征在语音识别中的应用

MFCC和Fbank特征各有优缺点，选择合适的特征对于提升语音识别系统的性能至关重要。MFCC在传统方法中应用广泛，而Fbank特征在现代深度学习中逐渐成为主流。根据实际应用场景的不同，可以选择适合的特征提取方法，结合其他技术，达到更好的识别效果。

2024-11-04 08:23:24 1376

原创深入解析语音识别中的关键技术：GMM、HMM、DNN和语言模型

GMM通过建模语音特征的分布进行声学建模，HMM用于捕捉语音中的时间序列模式，DNN则进一步提升了声学建模的准确性，LM在最终输出上提供了语义合理性。这样，在语音识别的解码阶段，ASR系统可以利用语言模型的信息对识别结果进行调整，提高语音识别的整体准确性。DNN负责将每帧语音特征（如MFCC）映射到HMM的状态概率分布，HMM再基于这些概率计算出最佳的状态路径，从而得出识别结果。语音识别：HMM被广泛用于建模语音单元（如音素）的时间序列特性，将不同音素的模型连接起来就可以识别完整的词汇或句子。

2024-11-04 08:17:43 887

原创深度解析：卡尔曼滤波与LMS滤波

卡尔曼滤波和LMS滤波是信号处理领域中两种重要的自适应滤波算法。卡尔曼滤波在动态系统中提供了最优状态估计，而LMS滤波在简单、实时的自适应场景中表现优异。随着自动驾驶、智能语音、物联网等领域的快速发展，这两种滤波器将在更复杂和多样化的场景中发挥更大的作用。未来的研究和应用将更关注提高滤波精度、增强鲁棒性和降低计算复杂度，使卡尔曼滤波和LMS滤波在更多场景中大放异彩。

2024-10-30 18:22:13 1375

原创深度讲解LMS和RLS算法在音频信号处理中的应用

LMS和RLS算法各有特点：LMS适用于计算资源有限且对速度要求较高的场景，而RLS适用于需要高精度的复杂场景。

2024-10-29 10:01:23 1201

基于C语言实现的跨平台日志

空空如也