
深度学习系列
文章平均质量分 72
深度学习系列
IE06
运筹+大数据+深度学习+机器学习+图像
展开
-
深度学习系列80:Pike-RAG解析
github地址在https://github.com/microsoft/PIKE-RAG。原创 2025-03-10 08:37:52 · 984 阅读 · 5 评论 -
深度学习系列79:Text2sql调研
star数14.1k。使用pip安装pandasai_local和pandasai。原创 2025-03-07 16:11:36 · 418 阅读 · 0 评论 -
深度学习系列78:使用langchain的api进行RAG
")k: int。原创 2025-03-07 16:10:32 · 996 阅读 · 0 评论 -
深度学习系列77:tts技术原理
tts为text-to-speech,asr为Automatic Speech Recognition,即speech-to-text。原创 2024-09-02 16:48:01 · 1856 阅读 · 0 评论 -
深度学习系列76:流式tts的一个简单实现
使用queue,producer不断向queue中添加audio,然后consumer不断从queue中消费audio。下面的样例使用melo来生成语音,需要先下载melo.tts。原创 2025-01-23 15:18:41 · 461 阅读 · 0 评论 -
深度学习系列75:sql大模型工具vanna
vanna是一个可以将自然语言转为sql的工具。执行下面的代码运行图形界面。原创 2025-01-21 09:48:57 · 535 阅读 · 0 评论 -
深度学习系列74:语音中的mel谱
一个人说一句话,其 waveform 可以很不一样,但是 spectrogram 基本上会相似,甚至有人可以通过 spectrogram 来判断说话的内容。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。DFT(Discrete Fourier Transform)是将连续音频信号转换为离散频域表示的一项重要操作。DFT是一种数学变换,用于将时域信号(如音频波形)转换为频域表示。原创 2024-09-02 16:26:39 · 1616 阅读 · 0 评论 -
深度学习系列73:使用rapidStructure进行版面分析
项目地址https://github.com/RapidAI/RapidStructure?原创 2024-08-28 18:26:42 · 665 阅读 · 0 评论 -
深度学习系列72:torch-tensorrt入门
坑非常多,清华源阿里源都不行。原创 2024-08-27 09:13:26 · 516 阅读 · 0 评论 -
深度学习系列71:表格检测和识别
原图为:https://www.95598.cn/omg-static/99107281818076039603801539578309.jpg。原创 2024-08-26 11:51:09 · 1124 阅读 · 0 评论 -
深度学习系列70:模型部署torchserve
ts文件夹下,从launcher.py进入,执行jar文件。入口为model_server.py的start()函数。原创 2024-07-25 16:37:54 · 642 阅读 · 0 评论 -
深度学习系列69:模型部署的基础知识
为了让模型最终能够部署到某一环境上,开发者们可以使用任意一种深度学习框架来定义网络结构,并通过训练确定网络中的参数。之后,模型的结构和参数会被转换成一种只描述网络结构的中间表示,一些针对网络结构的优化会在中间表示上进行。最后,用面向硬件的高性能编程框架(如 CUDA,OpenCL)编写,能高效执行深度学习网络中算子的推理引擎会把中间表示转换成特定的文件格式,并在对应硬件平台上高效运行模型。return out。原创 2024-07-25 12:46:18 · 1341 阅读 · 0 评论 -
深度学习系列68:声音克隆项目OpenVoice和FishSpeech
OpenVoice 是 myshell ai 开源的一款基于人工智能技术的语音克隆工具。其核心功能是通过提供发言者的短音频片段(参考语音),实现声音的高效克隆。这意味着您可以使用OpenVoice来克隆任何人的声音,而且不限于特定语言。无论您是想要模仿某位名人的声音,还是需要在不同语言之间进行语音转换,OpenVoice都能够满足您的需求。OpenVoice还可以实现音色克隆和控制。原创 2024-05-14 10:27:13 · 1370 阅读 · 0 评论 -
深度学习系列67:制作聊天机器人
tresponse = requests . post ( url , headers = headers , json = data , verify = False )if response . status _ code ==200:return response . json ()[" choices “][0][” message “][’ content ‘]else :return “我没有听清”async def read ( text ):tts = edge _ tts .原创 2024-04-24 16:58:43 · 1193 阅读 · 1 评论 -
深度学习系列66:试穿模型IDM-VTON上手
官网为:https://idm-vton.github.io/原创 2024-04-27 17:02:01 · 1746 阅读 · 0 评论 -
深度学习系列65:数字人openHeygen详解
从inference.py函数进入,主要流程包括:1) 使用cv2获取视频中所有帧的列表,如下:2)定义Croper。核心代码为69行:full_frames_RGB, crop, quad = croper.crop(full_frames_RGB)。其中crop是头肩位置,quad是人脸位置,得到的新的full_frames_RGB为人脸区域的截图。5)进行图像增强,使用的是GPEN-BFR-512模型,图片变高清了:6)接下来加载wav语音文件,并拆成块7)进行lipSync,如下图。原创 2024-04-21 20:46:54 · 828 阅读 · 0 评论 -
深度学习系列64:数字人wav2lip详解
总体步骤差不多,但是相比于openHeygen要简化很多第一步,加载视频/图片和音频/tts。同样是用melspectrogram将wav文件拆分成mel_chunks。第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。原创 2024-04-23 13:32:01 · 3789 阅读 · 0 评论 -
深度学习系列63:常用的中文tts(更新中)
使用sherpa的参考代码如下,模型下载地址见https://hf-mirror.com/csukuangfj/vits-zh-aishell3。原创 2024-03-22 09:56:35 · 1505 阅读 · 0 评论 -
深度学习系列62:Agent入门
agent的核心是其代理协同工作的能力。每个代理都有其特定的能力和角色,你需要定义代理之间的互动行为,即当一个代理从另一个代理收到消息时该如何回复。agent目前大多使用openai标准接口调用LLM服务,说明如下。标准接口示例如下,其中role包括:system(设定了 AI 的行为和角色,和背景),user(我们输入的问题或请求),assistant(自动生成)原创 2024-03-13 11:02:46 · 1239 阅读 · 0 评论 -
深度学习系列61:在CPU上运行大模型
git地址为:https://github.com/ggerganov/whisper.cpp。原创 2024-03-04 10:55:55 · 2735 阅读 · 0 评论 -
深度学习系列60: 大模型文本理解和生成概述
包含理解和分类两大类问题,对应的就是BERT和GPT两大类模型;而交叉领域则对应T5。原创 2024-02-22 00:13:52 · 1658 阅读 · 0 评论 -
深度学习系列59:文字识别ocr
使用google加的tesseract,效果不错。首先安装tesseract,在mac直接brew install即可。原创 2024-02-21 20:23:40 · 870 阅读 · 0 评论 -
深度学习系列58:大模型训练和压缩
把梯度放在cpu上保存和计算。原创 2024-02-18 08:19:49 · 307 阅读 · 0 评论 -
深度学习系列57: 清华大模型MiniCPM上手
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。原创 2024-02-04 16:38:26 · 1197 阅读 · 0 评论 -
深度学习系列56:使用whisper进行asr
这应该是最快的使用方式了。安装,接着安装ffmpeg,随后就可以使用了。原创 2024-02-04 11:02:26 · 3216 阅读 · 2 评论 -
深度学习系列55:深度学习加速技术概述
总体有两个方向:模型优化 / 框架优化。原创 2024-02-04 09:19:59 · 740 阅读 · 0 评论 -
深度学习系列54:LABEL-STUDIO进行半自动化目标检测标注
打开浏览器访问 http://localhost:8080/ ,建立一个新项目。此时不要着急save,需要先点击后面的Labeling Setup连接第一步的目标检测服务。看到如下 Connected 就说明后端推理服务添加成功。在mmdetection文件夹中,执行。另开一个terminal,执行。原创 2023-11-20 09:39:36 · 946 阅读 · 0 评论 -
深度学习系列53:大模型微调概述
固定大部分参数,仅训练少量的参数来驱动大模型。下图是delta-tuning和fine-tuning的区别。左边的fine-tuning中,每个任务都全量微调,得到一个新的模型,如果有100个任务,那么最终会给出100个数十G的大模型;但是在delta-tuning中,PLM参数大部分是固定的,每个任务只需要训练和记录有修改部分的参数(delta-object)即可。delta-tuning分为以下三大类:增加额外参数(A)、选取一部分参数更新(S)、引入重参数化(R)。原创 2024-02-17 18:32:17 · 1545 阅读 · 0 评论 -
深度学习系列52:多目标跟踪
1)FP:False Positive,即真实情况中没有,但跟踪算法误检出有目标存在。2)FN:False Negative,即真实情况中有,但跟踪算法漏检了。3)IDS:ID Switch,目标ID切换的次数。4)MOTA: Multiple Object Tracking Accuracy,多目标跟踪准确度。5)IDF1: ID F1得分,正确身份标签赋予的检测框与平均ground truth和计算的检测数量的比值。6)MT:Mostly Tracked,大多数目标被跟踪的轨迹数量。原创 2023-10-24 14:23:58 · 438 阅读 · 1 评论 -
深度学习系列51:hugging face加速库optimum
Optimum是huggingface transformers库的一个扩展包,用来提升模型在指定硬件上的训练和推理性能。Optimum支持多种硬件,不同硬件下的安卓方式如下:如果是国内安装的话,记得加上-i https://pypi.tuna.tsinghua.edu.cn/simple。hugging face目前是被墙的状态,在使用示例代码时,需要将模型离线下载下来使用。原创 2023-10-13 14:31:59 · 1387 阅读 · 1 评论 -
深度学习系列50:苹果m1芯片加速pytorch
Apple的Metal Performance Shaders(MPS)作为PyTorch的后端来加速GPU训练。MPS后端扩展了PyTorch框架,提供了在Mac上设置和运行操作的脚本和功能。MPS通过针对每个Metal GPU系列的独特特性进行微调的内核来优化计算性能。新设备将机器学习计算图和原语映射到MPS提供的MPS Graph框架和优化内核上。使用m1 pro 16-core gpu进行测试。...原创 2022-08-24 18:56:17 · 3833 阅读 · 2 评论 -
深度学习系列48:超分模型Real-ESRGAN
首先训练数据使用了2个first-order:最后一步加入了振铃和过冲现象:将CNN用到超分领域的第一篇文章:论文中卷积核和通道数的实验设置为:SRGAN将GAN引入超分领域,用于解决如下问题:1)高频细节(high-frequency details) 的丢失,整体图像过于平滑/模糊;2)与人的视觉感知不一致,超分图像的精确性与人的期望不匹配(人可能更关注前景,而对背景清晰度要求不高)。提出如下改进:模型结构如下,Generator网络是SRResNet,论文使用了16个residual原创 2022-06-23 00:22:48 · 6566 阅读 · 1 评论 -
深度学习系列47:styleGAN总结
gan的一个问题是很难生成大尺寸的图片,直到2018年,NVIDIA首次用ProGAN解决了这一挑战。它首先用极低分辨率的图像(如4×4)训练生成器和鉴别器,然后每次增加一个更高分辨率的层。最初的输入向量shape为[512,4,4],最后输出为[3,1024,1024],一共是18层:18 = 1(初始进入的conv层)+8 * 2(每一个块包含的两个卷积层,将vector从[4,4]变到[1024,1024])+1(to_rgb层,将通道变成3)styleGAN是proGAN的升级版:1)使用8原创 2022-06-22 17:09:14 · 4097 阅读 · 0 评论 -
深度学习系列46:人脸图像超分GFP-GAN
GFP-GAN由腾讯ARC实验室出品,测试下来效果很不错。模型用于从低质量的人脸中恢复出高质量人脸。这些质量较低的肖像图可能由各种原因导致退化,如低分辨率,噪音,模糊或是被压缩。主流的图像修复技术还是对抗生成网络GAN,但如何用好GAN是个学问。本模型使用了生成性面部先验模型(Generative Facial Prior, GFP),通过空间特征变换层被纳入到面部恢复过程中,这使得该方法能够实现真实性和保真度的良好平衡。目前有3个pretrain模型,默认使用v1.3:模型总图如下:去退化模原创 2022-06-22 19:50:33 · 5784 阅读 · 2 评论 -
深度学习系列45:图像恢复综述
从本期开始,会探索图像恢复领域的论文和代码。本次先阅读一下综述。传统方法一个很大的假设是我们相信我们可以在缺失区域之外找到相似的patch,但是如果缺失区域之外没有任何类似的patch,就没有办法正确修复图像了。2016年出现的基准的GAN算法,生成器为一个U型网络,判别器为多层卷积网络。损失包括像素级别的重建损失(L2)和鉴别器产出的对抗损失。2016年升级版的context encode,其生成器包含两部分,增加了生成纹理的卷积网络:上面的U型网络用于生成内容,损失函数包括L2损失和对抗损失。原创 2022-06-23 14:53:28 · 9846 阅读 · 1 评论 -
深度学习系列44. Siren和Deep-Daze模型
Siren就是用sin函数代替原先的激活函数(例如ReLU)首先定义一个sineLayer层,输出为sin(ω0f(x))sin(\omega_0f(x))sin(ω0f(x)),其中f(x)为全连接层。原创 2022-06-15 14:32:43 · 1366 阅读 · 0 评论 -
深度学习系列43:引入注意力的SAGAN/BigGAN和big_sleep
sa_gan是Self-Attention Generative Adversarial Networks的缩写。动机:一般的dc_gan(deep convolution)模型擅长处理含有大量纹理的类型,比如天空、风景等,但在结构上的表现比较差,比如不能正确生成人脸、四肢等。其原因是卷积核不足以覆盖较大的区域。因此,我们加入attention机制。下图中的fgh类似注意力机制中的kqvconvolution feature maps的尺寸为[C, W, H]f/g后的尺寸为[C/8, WH], h原创 2022-06-14 17:08:30 · 1568 阅读 · 0 评论 -
深度学习系列42:多模态ruDalle生成模型
俄国实现的DALLE-E模型,ru是russia的简写,要使用俄文输入文本,不过用起来确实是最方便的Dalle开源代码。安装:目前已经可用的有4个:ruDALL-E Malevich XL和Malevich_v2 XL:中型的图片模型ruDALLE Surrealist XL:超现实主义图片模型ruDALL-E Emojich XL:生成emoji图片模型ruDALL-E Kandinsky XXL:大型的图片模型。如果用cpu的话,fp16=False当然还有一种方式,就是调用翻译:pip原创 2022-06-13 20:18:28 · 779 阅读 · 0 评论 -
深度学习系列41:多模态Dalle-min生成图像
参考https://huggingface.co/flax-community/dalle-mini,可以用这个版本进行探索和学习。dalle模型包括:首先要训练VAGAN模型。开源的模型对于人脸重构效果不佳,期待有人做优化训练;此外还需要一个预训练好的BART模型。训练模型包括如下几个部分:1)将图片用VQGAN的编码器转为图像token2)将文字用BART的编码器转为文字token3)两者拼接后用BART的解码器转为图像toke4)与第一步的图像token计算交叉熵,进行优化使用训练好的BA原创 2022-06-13 19:21:36 · 3369 阅读 · 4 评论 -
深度学习系列40:cogview生成模型
开源地址见:https://github.com/THUDM/CogViewdemo地址:https://agc.platform.baai.ac.cn/CogView/index.html特点:基于中文效果展示如下。在生成人像时,四肢细节有时会有些问题。在gpu机器上拉取镜像:在pretrained/vqvae目录下,下载图像tokenizer:vqvae_hard_biggerset_011.pt:在pretrained/cogview/下,从https://resource.wudaoai原创 2022-06-13 15:42:12 · 2351 阅读 · 6 评论