
AI-LM
文章平均质量分 78
关于AI大模型相关文章。
XiaoJ1234567
更多分享:https://flowus.cn/xiaoj_share/share/2763da97-9b40-4939-8451-17c16cd80276?code=VK2AMB
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sherpa-ncnn:音频处理跟不上采集速度 -- 语音转文本大模型
具体是,调用sherpa-ncnn-alsa_Test时,音频是实时采集的,在采集到音频后会对音频数据进行额外处理。音频处理速度跟不上音频采集速度时。在音频额外处理期间,停止音频识别采集,在运行结束时恢复音频识别采集。在其他API处理这个句子时,语音还在实时采集,这是就会导致处理速度跟不上音频采集速度。在音频额外处理期间,停止音频识别采集,在运行结束时恢复音频识别采集,以避免数据溢出。这个错误表明音频处理速度跟不上音频采集速度,导致缓冲区溢出。类中,添加暂停和恢复音频采集的功能,即。原创 2025-05-19 21:30:47 · 396 阅读 · 0 评论 -
CLIP:论文阅读 -- 视觉模型
CLIP(Contrastive Language–Image Pre-training)是一种创新的计算机视觉模型,旨在解决传统目标检测模型依赖固定分类体系和大量标注数据的局限性。该模型通过在4亿对互联网收集的图文数据上进行预训练,采用“预测图文匹配”的简单任务,成功从零开始学习到强大的图像表征能力。突破固定分类限制:利用自然语言作为通用接口,既能引用已学视觉概念,也可描述新类别,实现零样本迁移(zero-shot transfer),无需针对特定任务微调跨任务泛化性能。原创 2025-05-19 21:21:30 · 1891 阅读 · 0 评论 -
sherpa:介绍
sherpa是项目的部署框架。sherpa支持在各种平台上部署与语音相关的预训练模型,并提供多种语言绑定。目前,sherpa拥有以下子项目:项目安装难度困难容易神经网络库PyTorchncnnCPU支持arm32arm64arm32arm64**RISC-V**GPU支持是(使用CUDA支持 NVIDIA GPU)是是(使用Vulkan支持 ARM GPU)操作系统支持macOSmacOS,iOSAndroidmacOS,iOSAndroid是否支持 batch_size > 1。原创 2025-05-08 20:14:43 · 476 阅读 · 0 评论 -
sherpa-ncnn:Linux_x86交叉编译Linux_aarch64上的sherpa-ncnn -- 语音转文本大模型
本文介绍,在 Ubuntu x86 计算机上通过交叉编译为嵌入式 Linux(aarch64, 64 位)构建 sherpa-ncnn。将文件夹里面的.bin,.param,.txt文件拷贝到开发板上去。如果直接在arm板上构建 sherpa-ncnn,请参考。sherpa-ncnn-alsa:用于通过读取带有。声明:资源可能存在第三方来源,若有侵权请联系删除!sherpa-ncnn:用于解码单个wav文件;开发板上使用alsa架构从MIC说话测试。第一步:安装交叉编译的工具链。第二步:设置环境变量。原创 2025-05-05 08:31:30 · 926 阅读 · 0 评论 -
sherpa-ncnn:Linux_x86交叉编译Linux_arm32上的sherpa-ncnn -- 语音转文本大模型
本文介绍,在 Ubuntu x86 计算机上通过交叉编译为嵌入式 Linux(arm,32 位)构建 sherpa-ncnn。将文件夹里面的.bin,.param,.txt文件拷贝到开发板上去。如果直接在arm板上构建 sherpa-ncnn,请参考。sherpa-ncnn-alsa:用于通过读取带有。声明:资源可能存在第三方来源,若有侵权请联系删除!sherpa-ncnn:用于解码单个wav文件;了解有关生成的二进制文件的用法。第一步:安装交叉编译的工具链。第二步:设置环境变量。单个语音文件解码测试。原创 2025-05-05 08:26:39 · 429 阅读 · 0 评论 -
sherpa-ncnn:Linux(x86/ARM32/ARM64)构建sherpa-ncnn --语音转文本大模型
sherpa-ncnn-alsa:用于通过读取带有。声明:资源可能存在第三方来源,若有侵权请联系删除!sherpa-ncnn:用于解码单个wav文件;开发板上使用alsa架构从MIC说话测试。了解有关生成的二进制文件的用法。的麦克风进行实时语音识别;单个语音文件解码测试。原创 2025-04-25 08:43:58 · 412 阅读 · 0 评论 -
sherpa-ncnn:构建Android APK -- 语音转文本大模型
(1)github访问失败问题:修改为镜像(kkgithub.com)(1)安装你的Android Studio,请参阅。(1)安装你的Android NDK,请参阅:。声明:资源可能存在第三方来源,若有侵权请联系删除!下载预训练模型模型并将其放入。了解所有可用的预训练模型。原创 2025-04-25 08:39:56 · 1010 阅读 · 0 评论 -
LLM 推理优化
由于块不需要在内存中是连续的,因此我们可以像在操作系统的虚拟内存中一样以更灵活的方式管理键和值:可以将块视为页面,将 token 视为字节,将序列视为进程。量化除了降低模型需要的显存外,最直接的收益就是降低了带宽使用率,所以从理论上来说,量化后的模型性能应该是成比例提升的,这个提升不仅体现在吞吐量上,也会体现在 Latency 上。从而在保证延迟的情况下,提高吞吐量。1.量化感知训练(QAT):在训练(一般是 sft 中)过程中,通过量化感知训练,让模型适应低精度的计算,从而保护模型的效果不受量化影响。原创 2025-03-12 21:22:29 · 771 阅读 · 0 评论 -
InternVL:论文阅读 -- 多模态大模型(视觉语言模型)
InternVL:论文阅读 -- 多模态大模型(视觉语言模型)原创 2025-03-12 21:00:29 · 2066 阅读 · 0 评论 -
Token:SentencePiece论文阅读--大模型中主流的分词算法
Token:SentencePiece论文阅读--大模型中主流的分词算法原创 2025-03-08 15:27:37 · 932 阅读 · 0 评论 -
Token:BPE基础概念--大模型中主流的分词算法
Token:BPE基础概念--大模型中主流的分词算法原创 2025-03-08 15:18:44 · 349 阅读 · 0 评论 -
WhisperKit: Android 端测试 Whisper -- Android手机(Qualcomm GPU)部署音频大模型
Android手机(QualcommGPU)部署音频大模型原创 2024-12-22 17:20:51 · 1256 阅读 · 0 评论 -
whisper.cpp: Android端测试 -- Android端手机部署音频大模型
注意,main示例仅使用16位WAV运行,因此请确保音频是此格式文件,如不是请转换格式。以下是经实验验证可行的环境参考,也可尝试其他版本。声明:资源可能存在第三方来源,若有侵权请联系删除!(2)硬件设备:Android手机。(3)软件环境:如下表所示。原创 2024-12-21 21:05:23 · 1249 阅读 · 0 评论 -
whisper.cpp: PC端测试 -- 电脑端部署音频大模型
注意,main示例仅使用16位WAV运行,因此请确保音频是此格式文件,如不是请转换格式。以下是经实验验证可行的环境参考,也可尝试其他版本。声明:资源可能存在第三方来源,若有侵权请联系删除!说明:要进行快速演示,只需运行。(2)软件环境:如下表所示。原创 2024-12-21 20:59:44 · 778 阅读 · 0 评论 -
llama.cpp:Android端测试 MobileVLM -- Android端手机部署图生文大模型
以下是经实验验证可行的环境参考,也可尝试其他版本。声明:资源可能存在第三方来源,若有侵权请联系删除!下载一张图片image.jpg到./img目录。(2)硬件设备:Android手机。(3)软件环境:如下表所示。原创 2024-12-20 20:42:07 · 1632 阅读 · 0 评论 -
llama.cpp:PC端测试 MobileVLM -- 电脑端部署图生文大模型
以下是经实验验证可行的环境参考,也可尝试其他版本。将你想推理的image.jpg放到./img目录。声明:资源可能存在第三方来源,若有侵权请联系删除!(2)软件环境:如下表所示。原创 2024-12-20 20:30:45 · 885 阅读 · 0 评论