vandh
20年以上金融、互联务、物联网经验,历任CTO、技术总监、项目经理、架构师等职。具有丰富的技术战略指导、团队管理、项目管理、架构搭建等经验。精通物联网、大数据、区块链、数字孪生、人工智能等领域类应用与开发;精通java、python、go、c等开发语言;精通mysql、Oracle、Taos、Redis、MongoDB等数据库;精通微服务架构;精通业务需求分析与设计、数据建模;精通K8s、docker、DevOps等智能运维;精通单片机、各种传感器开发;精通机器人slam、mpc、wbc相关理论与应用;接受一对一技术咨询服务。
展开
-
大模型之群魔乱舞
DeepSeek 可以自己本地搭建,不过对GPU要求较高,本地CPU版本或显存8GB以下者只能搭建1.5B、7B、8B,更何况本身就是一个阉割的蒸馏版,对于更完善的14B、32B、70B、670B只能望卡兴叹了。这三个模型的能力都很强,插件效果(代码解释、注释、修复、优化、上下文问答)都表现更好了,大家可以自己比较。DeepSeek-R1-Distill-14B|32B:CPU:12核(14B)至16核(32B),内存:32GB(14B)至64GB(32B),16GB显存(如RTX 4090)原创 2025-02-21 16:01:54 · 71 阅读 · 0 评论 -
deepseek在地理信息与智慧农业中的应用设计
DeepSeek生成一系列的标注任务,定义标注规则,拉取要标注的图像,通过DynamicMask引擎实现零样本标注,输出标注框和对应的类别标签,最终用于模型训练样本。DS会会生成一系列的任务,去数据层拉取对应的各期哨兵卫星数据,调用对应的领域小模型生成矢量结果,读取大数据平台行政区划信息,最后导出excel统计文件并展示结果;DeepSeek生成一系列的监测任务,拉取三调耕地、承包地矢量图斑,调用领域小模型检测建筑物位目标,进行位置比对,标记违建建筑。同上,平台自动生成2025年油菜分布的矢量图,并展示。原创 2025-02-21 11:01:05 · 95 阅读 · 0 评论 -
如何将10m分辨率卫星影像超分成2m
其原理就是选择高分辨率和低分辨率的卫星影像数据,例如使用高分1号(2米分辨率)和Sentinel-2(10米分辨率)的影像,在数据预处理时通过线性回归模型调整低分辨率影像的光谱特性,使其与高分辨率影像的光谱响应一致。4、在Qgis中,导出该底图,选择save as...:弹出框中选择前面保存的矢量文件作为导出范围,指定分辨率为0.5m,取消选择create vrt,保存的文件名为要为字母。我因为在海外服务器,所以这里选择的Google影像,效果是一样的。原创 2025-02-21 10:52:08 · 45 阅读 · 0 评论 -
二四、3d人脸构建
http://www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/Code/3DDFA.zip 可能失效。#安装指南: https://blog.youkuaiyun.com/qq_30011277/article/details/102701109。4、安装opencv https://github.com/anhttran/3dmm_cnn?# caffe帮助:http://caffe.berkeleyvision.org/install_yum.html。原创 2024-07-10 17:57:02 · 220 阅读 · 0 评论 -
二二、本地大模型集成语音识别模块
接上节,搭建好本地大模型后,只支持文字问答,所以需要对语音输入进行增强。原创 2024-07-08 11:52:58 · 314 阅读 · 0 评论 -
二一、搭建自已的语言大模型
因为安装了其它的conda环境,而USER_SITE与USER_BASE都是共享的,环境被污染了,所以启用用户独立的站点文件目录。2) 添加154行 "chatglm3-6b": "THUDM/chatglm3-6b"# 安装指定版本的pytorch,与conda下安装的2.1.1的高版本没有冲突。也可以使用13B,看自已服务器的gpu配置来,13B要求gpu显存12G以上。1) 第21行修改chatglm2-6b --> chatglm3-13b。按照下列方式初始化自己的知识库和简单的复制配置文件。原创 2024-07-08 11:42:24 · 247 阅读 · 1 评论 -
二十、农作物病虫害识别模型
可以从https://www.kaggle.com/datasets中下载,Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。15 Classes,19189 Train images,1450 Test images,历时15轮,训练时间3个小时左右;# NVida RTX3060 6GB专用内存,batch_size=72内存溢出。# 测试代码,是否支持GPU,如果有GPU,自动会使用GPU优先训练,不用改代码。原创 2023-08-30 19:41:54 · 881 阅读 · 0 评论 -
十八、深度学习模型30年演化史
深度学习模型层出不穷,如果不理清其源头和出处,则会陷入杂乱的地步。网上各种介绍文章都是抄来抄去,越看越无头绪。我花了几天时间,把常见的几十种模型按其前后发展脉络,历史渊源分类整理了一遍,对于深度学习来说,掌握这些模型的出处和特户口卡,之所以出现的原因,是至关重要的。原创 2023-08-23 19:03:47 · 1201 阅读 · 0 评论 -
十七、地物识别
描述了使用2D卷积神经网络图像识别的全过程。下载和安装标注工具,对图像进行标注,生成标注后的图像。然后对数据进行增强,划分训练集和测试集。最后通过神经网络建立分类模型,对现有图片进行分类应用。原创 2023-08-16 14:42:27 · 418 阅读 · 0 评论 -
十六、遥感影像识别
对于高光谱ENVI格式,其原始数据文件(.img)中的数据可以看作是一个三维数组,其中第一维表示波段数,第二维表示图像的行数,第三维表示图像的列数。ENVI格式的原始数据文件可以存储多维数据,包括三维数组、二维数组、一维数组甚至标量等。由于像素太多,这里只取了前30个波段的数据,PCA降维到了5通道,只训练了10轮,否则内存将超过100G,代码和模型训练详下述。外部数据源:如果存在与高光谱影像相关的外部数据源,例如地理信息系统(GIS)数据、遥感图像或其他现有的数据集,可以从这些外部数据源中提取标签信息。原创 2023-08-11 19:06:59 · 662 阅读 · 0 评论 -
十五、遥感影像的获取与简单操作
无人机采集的高光谱的原始数据、加工过程中的数据和最后的成果数据可以是以下不同格式的: 原始数据:通常以常见的图像格式如JPEG、PNG或TIFF进行存储。每个图像文件代表一个特定波长的光谱数据。 成果数据:可以是数值数据表格的形式如CSV、Excel,或以栅格数据如GeoTIFF、ENVI等,或矢量形式如Shapefile、GeoJSON等。原创 2023-08-10 09:48:07 · 935 阅读 · 0 评论 -
十四、深度学习之卷积+池化+全连接各层
卷积是一种重要的信号处理方法,广泛应用于图像处理、语音识别、自然语言处理等领域。其作用主要有特征提取、降维、去噪、图像增强。其意义主要有模拟生物视觉、提升算法性能和数据压缩。 眼睛看图片大致有以下两个过程:瞳孔放大,盯着某一处细节如嘴巴看;瞳孔缩小,模糊的看一张图片的大致轮廓。那么神经网络是否可以模拟这种瞳孔放大、缩小的方式呢?卷积核的设计,人们通过调整卷积核的大小,来达到瞳孔张开、缩小的目的。并且大量的实验和论文表明,卷积这一针对图像局部性识别的算法,可以非常有效的模拟人眼识别物体的过程。原创 2023-08-09 13:38:17 · 688 阅读 · 0 评论 -
十三、高光谱图像基础
该图像原本也有 224 个波段,同样的,我们一般使用的也是剔除了第 108-112,154-167,和第 224 个不能被水反射的波段后剩下的 204 个波段的图像。该数据集包含两幅用于变化检测的高光谱影像,分别于2013年的5月3号和12月31号采集自中国江苏省的某河流地区,所用传感器为Earth Observing-1 (EO-1) Hyperion,其光谱范围为0.4-2.5 μm,光谱分辨率为10 nm,空间分辨率为30 m,共有242个光谱波段。高光谱成像技术的原理基于物体的光谱吸收和反射特性。原创 2023-08-08 09:33:04 · 1439 阅读 · 0 评论 -
十二、web增强现实
生成图片对应的Image Descriptors,AR.js官方提供了web工具,可以将图片转换成Image Descriptors,AR.js其实是根据生成的Image Descriptors做图片识别和跟踪定位的。Image Tracking顾名思义,就是基于一张图片去展示AR内容,其实原理和基于Marker Tracking类似,都是根据图片的特性点识别图片并跟踪。推荐使用300dpi及以上的图片,72dpi的图片勉强可以,但是AR展示设备必须靠的很近,而且必须保持静止。如果有端口冲突,杀掉。原创 2023-07-13 19:46:49 · 2518 阅读 · 0 评论 -
十一、增强现实
那都是n年前的老版本了,新版本完全没有这个问题,我就是纠结这个问题,搭建若干环境,又是vmware虚拟机,又是msys2,又是anaconda,又是找机器,折腾了几天,结果通通不是。以一张实际卡片为锚点,通过笔记本的摄像头,在显示器上将一个计算机内的3d物体显示在卡片上,类似于电影上看到的那种全息投影技术;如果你是想在windows环境下开发linux运行程序,那么CygWin/gcc是你的不二之选。而如果你想开发的是windows运行程序,并且追求速度,那么二者相比而言,MinGW是更好的选择。原创 2023-07-13 10:26:44 · 2799 阅读 · 0 评论 -
十、训练自己的TTS模型
解决错误无数多个,修改多个脚本,苦熬几昼夜,终于杀青,功成垂败。特比注意,训练样本少于500条语句,效果灰常差,可以直接放弃。原创 2023-06-28 20:34:45 · 1979 阅读 · 0 评论 -
九、文字到语音模型库之PaddleSpeech
前述SunoAI之Bark,听起来总有点老外说中文的味道,很不地道纯正。下面玩一玩百度飞桨--PaddleSpeech,这是一个简单易用的all-in-one 的语音工具箱,支持语音识别,语音合成,声纹识别,声音分类,语音翻译,标点恢复,语音唤醒等多个方向的开发工作。原创 2023-06-28 20:22:40 · 673 阅读 · 0 评论 -
八、让照片说话之SadTalk
西安交通大学开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。原创 2023-06-25 21:58:14 · 4103 阅读 · 0 评论 -
七、搭建自己的人脸识别系统
人脸识别系统,采用MTCNN算法进行人脸检测,FaceNet进行特征提取,SVM进行分类识别。该系统能够检测和识别实时视频流或静止图像中的人脸,并且可以定制以使用不同的数据集或分类器,该算法在 LFW 数据集上的准确率为 99.63%。可用于监控系统、生物识别护照、生物识别门锁系统。原创 2023-06-21 12:12:17 · 6335 阅读 · 0 评论 -
六、使用深度学习构建人脸识别模型
本章介绍机器学习中人脸识别的历史以及从零开始如何构建一个人脸识别模型,含所有训练数据,源代码,不强制要求GPU。使用 docker 来管理库依赖项,提供与平台无关的一致环境。使用 Dlib 进行预处理,使用 Tensorflow + Scikit-learn 训练能够根据图像预测身份的分类器。原创 2023-06-20 09:19:10 · 1006 阅读 · 0 评论 -
五、训练自己的语音
还是使用Bark模型,制作自己的语音格式npz文件,上传后指定该语音播放即可。提供的数据为.npz 格式,这是 Python 中用于存储数组和数据的文件格式。数据包含三个数组:semantic_prompt、coarse_prompt 和 fine_prompt。原创 2023-06-08 08:13:32 · 1199 阅读 · 0 评论 -
四、文字到语音模型库之Bark
多语言支持与自动识别:Bark 支持 13 种语言(英语、德语、西班牙语、法语、印地语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、土耳其语和简体中文),并且可以根据输入文本自动确定使用哪种语言。可以生成各种背景噪音和简单的声效,如风声、雨声、鸟叫等,增加音频的真实感和氛围感。随着人工智能技术的发展,文本到音频(Text-to-Audio,简称 TTA)转换已经成为一个热门的研究领域,旨在通过深度学习模型将任意文本转换为逼真的音频,包括语音、音乐、声效等。高雅不是装出来的,孙子才是装出来的。原创 2023-06-07 11:11:43 · 1319 阅读 · 0 评论 -
三、让照片说话
如何用一张照片做出连贯视频?研究人员认为,这需要时序生成对抗网络(Temporal GAN)来帮忙。这是一个端对端的语音驱动的面部动画合成模型,通过静止图像和一个语音生成人脸视频。模型由时间生成器和3个鉴别器构成,这个生成器由内容编码器(Content Encoder),一个鉴别编码器(Identity Encoder)、一个帧解码器(Frame Decoder)和声音解码器(Noise Generator)组成,不同模块组合成一个可嵌入模块,通过解码网络转换成帧。原创 2023-06-05 18:40:48 · 1002 阅读 · 0 评论 -
一、人像分割
开源PP-HumanSegl模型,提供了三个高质量的人像分割模型:有应用于服务端GPU部署的PP-HumanSegl模型,有适用于移动端的轻量PP-HumanSeg模型,还有能够在浏览器部署的超轻量模型PP-HumanSegs模型。# portrait_heng.jpg和portrait_shu.jpg分别是手机摄像头在横屏和竖屏下,拍摄的肖像测试图片。其中qw1.jpg,zf_1.jpg等均为自己上传的图片,qw_1.jpg,qw_zf_1.jpg为处理后的图片。# 横向视频去背景,加指定背景,原创 2023-06-01 10:08:28 · 466 阅读 · 0 评论