自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(260)
  • 收藏
  • 关注

原创 Langchain 中多模态提示词输入

多模态模型越来越成熟,这个带水印的图片最终的解析效果非常好,本文使用的模型是 Gemini 2.0,可以根据自己的情况选用其他模型。

2025-01-22 20:13:52 139

原创 jenkins docker 遇到 /var/run/docker.sock: permission denied 解决方案

使用 Jenkins Docker 会碰到 /var/run/docker.sock:/var/run/docker.sock: permission denied 这个错误,最暴力的解决方式就是放大限 777。比较优雅的解决方式是将 jenkins 加到 docker 组中。那个 gid 一定要保持和主机一样,否则更改无效,默认就是 999,通过。进行 gid 的确认。

2025-01-15 08:28:00 616

原创 vue 中的 v-model

/script><template>父组件中调用时,需要制定变量名v-model 核心就是监听和通知,本文使用了官网的例子进行了简单的介绍,更多高级用法可以到官网进行学习。

2025-01-13 08:07:17 530

原创 Vue Router 快速入门

Vue 路由是管理单页面路由的组件,只要使用了 Router,整个应用的路由和渲染就由 Router 接管了,正确的渲染组件必须使用 RouterView。本文只是介绍了Router 中的几个重点的概念,如需使用更复杂的功能,可以参考 Vue Router 官网,或者使用豆包、DeepSeek 等模型进行编写。

2025-01-06 21:23:30 371

原创 Vue3 中的插槽

Vue 中插槽使用很普遍,在各类组件库中都很常见。

2025-01-03 16:12:13 436

原创 vue2 升级为 vite 打包

用 Vite 5.0,jsx 插件只支持到 Vite 5.0Webpack 语法要移除其他遇到问题,让豆包把代码修改为 Vite 方式即可。

2024-12-24 20:19:05 628

原创 Vue 中实现节点对齐

由于现在都是使用现成的组件库,大多复杂的组件直接使用组件库即可,有的时候可能会遇到一些复杂的效果,元素之间的对齐关系相对复杂,使用 dom-align 库可以轻松的实现组件对齐。dom-align 中两个关键的参数是 source 和 target , source 会根据相对于 target 的位置修改并移动。

2024-12-18 21:22:09 417

原创 Ubuntu 安装 Samba Server

在 Mac 上如何能够与Ubuntu 服务器共享文件夹,需要在 Ubuntu 上安装 Samba 文件服务器。

2024-12-13 20:42:39 429

原创 朴素贝叶斯算法

朴素贝叶斯假设特征是独立事件,降低了计算复杂度,可以应用与简单的分类场景。

2024-12-09 12:51:36 866

原创 Langchain 使用 Tool 和 Agent

LangChain Agent 使用方便,可以自动调用多个工具,配合 LangGraph 可以构建复杂业务应用。代码位置。

2024-12-02 20:36:04 168

原创 条件随机场 CRF

CRF 这种随机概率算法,从一种序列推算另一组序列,虽然现在大语言模型可以更好的解决 NER 问题,无需大量训练,对硬件资源有限的项目来讲 CRF 也可以采用。

2024-11-30 14:50:11 963

原创 Langchain 实现 RAG

本文介绍了使用 LangChain 开发 RAG 的简单流程,只是简单了使用文本和内存向量数据库,后续会陆续介绍如何解析 Word、PDF,使用其他向量数据库,例如 PGVector、Redis 等。

2024-11-29 21:13:19 376

原创 隐马尔可夫模型 HMM

HMM 是一个时间序列算法,由状态转换为观察序列,HMM常用于时间序列的场景,例如,图片生成的扩散模型。

2024-11-27 18:54:17 1154

原创 OuteTTS 模型

OuteTTS 中文效果不如 F5-TTS,英文效果还是不错的,读数字也不是很好,需要先转换一下,OuteTTS 最大长度 4096, 更长的文字需要自己进行切分。

2024-11-26 19:51:05 240

原创 SVD 奇异值分解

SVD 算法通过求解奇异值对矩阵进行分解,较大奇异值能表达更重要的信息。

2024-11-26 13:01:25 466

原创 使用 F5 TTS 文字转音频

F5 TTS 效果还不错,可以使用定制的人声,不需要进行训练,中文无法识别数字,可以先通过LLM 进行转换将数字转为中文。

2024-11-25 22:18:49 1194

原创 PCA 主成分分析算法

PCA 主成分分析,能对多维数据分析进行降维,从而可以将数据展示在二、三维坐标轴上。

2024-11-25 19:45:34 395

原创 聚类算法 -- K 均值

K 均值算法很好理解,通过算法找到最优中心点,从而将样本进行分类。

2024-11-24 21:05:45 907

原创 XGBOOST、LightGBM、CATBoost

本文介绍了三种 GBDT 的优化算法,可以根据实际情况进行选择。

2024-11-20 22:04:04 754

原创 GBDT 算法

GBDT 通过组合决策树,从而达到最小化损失函数的目的。

2024-11-18 20:32:54 389

原创 机器学习 AdaBoost 算法

AdaBoost 分类器是一种多个弱分类器的组合,AdaBoost、SVM、逻辑回归各自适应不同的场景,下表列出了各个模型不同的特性,可以根据自己的业务场景进行选择。标准AdaBoost逻辑回归支持向量机 (SVM)噪声敏感性高(容易对噪声过拟合)低中等(软间隔有所帮助)非线性能力使用决策树效果好差(线性)非常好(使用非线性核)计算成本中等到高低使用非线性核时高可解释性低高中等(线性 SVM)离群值敏感性高中等低(使用软间隔)

2024-11-16 16:57:06 583

原创 使用大语言模型创建 Graph 数据

本文介绍了如何使用大语言模型创建图数据,同样的方式也可以创建其他类型的数据源,只需要对提示词进行修改即可。

2024-11-15 23:07:32 562

原创 使用 LangGraph 创建工作流

本文讲解了 LangGraph 的主要功能,包括 节点、分支、状态等等,LangGraph 并不难理解,通过 LangGragh 可以灵活的将不同的任务进行整合已完成更复杂的任务。

2024-11-13 18:48:42 152

原创 使用 RunPod GPU

RunPod 可以支持大显存需求的模型,将 Runpod 镜像下载到本地先调试好,例如需要的类库等等,这样可以省时间,有很多平台的都 提供 GPU 租赁,原理都是相似的,就看哪家更便宜些,国内的算力平台更便宜,就是英伟达的卡不好租。

2024-11-12 11:13:48 916

原创 支持向量机 SVM

本文使用 SkLearn 实现不同类型 SVM 进行数据分类,除了 SVM,线性回归也可以进行分类,可以通过以下建议进行选择。比较标准逻辑回归 (LR)支持向量机 (SVM)数据的线性可分性适合线性可分数据适合线性和非线性数据可解释性高低(尤其是非线性核)计算复杂性低(速度快)高(使用RBF核时较慢)高维数据表现良好表现良好(尤其是文本数据)不平衡数据易于调整调整较复杂超参数调优少(只有正则化参数)多(如 ( C ) 和 ( gamma ))常见应用。

2024-11-10 15:14:44 577

原创 LangChain 快速入门

本文介绍端到端的 LangChain 使用,可以看到 LangChain 通过少量的代码即可快速的搭建一个 LLM 应用,从集成、发布到监控都提供对应的组件。后续文章中将陆续介绍 LangChain 开发 RAG、 Agent 等应用的方法。

2024-11-08 17:32:50 192

原创 SpeechT5 模型

SpeechT5 是一个比较强大的模型,可以文字转音频或者音频转文字,SpeechT5 目前只支持英文。

2024-11-06 20:07:49 420

原创 决策树算法

决策树根据交叉熵或者基尼指数对数据进行分类并最终生成决策树,可以应用一些相对确定的分类场景。

2024-11-05 17:46:16 245

原创 Diffusion Model

本文演示了 Diffusion Model UNet 实现,从输入到输出,噪音到最终图片。

2024-11-04 22:01:55 357

原创 K 临近算法

KNN 是不要进行训练的,通过临近算法进行分类,可以用于处理简单的分类场景。

2024-11-03 16:40:12 327

原创 KVM 使用主机 GPU

KVM 如何使用主机的 GPU,首先安装 KVM。

2024-11-02 22:15:48 361

原创 LDA 线性分类

线性判别分析是一种经典的线性分类方法,将高维空间投射到低维空间,如下图。LDA 的目标就是简单累内距离变小,把类间的距离变大,这样就可以把相似的数据聚集在一起。u1 和 u2 类间距离,S1、S2 为类内数据点之间的距离,目标是最大化上面公式。本文将使用 Sklearn 实现 LDA。

2024-11-02 18:16:21 224

原创 机器学习之逻辑回归

线性回归和逻辑回归是机器学习中两种回归算法,从字面上看会被搞混。线性回归输出为一个实数,均方差作为损失函数,逻辑回归是分类算法,输出为概率,交叉熵作为损失函数。

2024-10-28 19:54:33 452

原创 DuckDB 多数据源交互

有了 DuckDB 跨数据源的数据处理变得非常简单,更多的数据源连接方式可以参考官网。

2024-10-28 13:42:01 569

原创 机器学习之线性回归

线性回归是机器学习非常简单的模型,通过 Sklearn 可以方便的训练模型。

2024-10-27 21:29:41 444

原创 Aliyun PAI 上运行 Janus 模型

模型生成的图片效果不是很好,可能是参数较少的原因,如果要求不高还是可以使用的。

2024-10-24 19:13:44 346

原创 Pytorch 实现图片分类

使用交叉熵函数作为损失函数,交叉熵分为两种二分类交叉熵函数多分类交叉熵函数pytorch 搭建一个 CNN 模型比较简单,5 轮训练之后,效果就可以达到 60%,10 张图片中预测对了 6 张。

2024-10-22 23:23:54 1064

原创 Diffusion 模型中的 VAE

VAE 将图片降维,512 -> 64,原图和经过 VAE 的转换的图片视觉上没什么差距。

2024-10-20 20:21:22 434

原创 Clip 模型实现文搜图

图向量最好保存在向量数据库中,搜索时借助向量数据库的能力进行快速匹配查找。使用 LlamaIndex 或者 Langchain 进行集成,可以方便的集成多种向量数据库。

2024-10-18 20:17:32 588

原创 使用 surya-ocr 进行文字识别

surya-ocr 识别效果不错,比前两天看到的 GOT 的结果要好一些,效果可以媲美 PaddleOCR 了。

2024-10-15 23:49:48 871

这本书是一本关于神经网络(NN)设计的入门书籍,主要探讨深度学习和差分编程的基础知识

这本书是一本关于神经网络(NN)设计的入门书籍,主要探讨深度学习和差分编程的基础知识。书中将神经网络视为可微分模型,通过各种数学和编程方法探索这些模型的构建和优化。书籍涵盖了线性代数、梯度与雅可比矩阵、自动微分、卷积层、变换器模型、图神经网络、递归模型等多个主题。它适合有机器学习和线性代数基础的读者,主要关注理论和实际应用的平衡。

2024-11-04

synthetic-text-to-sql 数据集,从 Parquet 转为 jsonl 方便模型调优

synthetic_text_to_sql 数据转换,训练集 + 测试集,python 转换程序

2024-08-28

微软云上的机器学习算法选择

微软云上机器学习算法一张图,让你能快速合适的机器学习算法,有时传统的机器学习算法就能解决很多问题,未必需要深度学习。

2024-08-26

LLM 介绍、架构、训练、应用

1. Transformer 架构 2. 模型微调、训练方法 3. RAG、Agent LLM 落地应用

2024-08-25

LlamaIndex RAG 开发

LlamaIndex RAG 开发,模型接入,文档索引,可视化操作。

2024-08-22

Flux Modelscope 本地部署

1. Notebook 文件包括,安装ComfyUI、模型下载、ComfyUI 启动 2. ComfyUI 配置文件

2024-08-12

Databrick 数据工程时间指南,包括数据处理、数据质量、治理和安全都实践方式

1. 数据工程简介:解释了数据工程的定义和重要性,特别是在AI和生成式AI模型的背景下。它强调了良好的数据管道对于AI模型成功的关键作用。 2. Databricks数据智能平台:介绍了该平台的架构和组件,包括Delta Lake、Unity Catalog、DatabricksIQ等。平台旨在通过统一的数据湖架构为数据和治理提供开放的基础。 3. 数据工程的挑战:讨论了在AI时代数据工程面临的挑战,如实时数据处理、数据质量、数据治理和安全等问题。 4. 最佳实践和案例研究:提供了一些在实际应用中有效的数据工程设计模式和实践指南,并通过案例研究展示了这些方法的应用。 5. Databricks工作流和工具:详细介绍了如何使用Delta Live Tables、Databricks Workflows等工具来实现数据的实时处理和流处理,强调了通过AI赋能的数据智能平台如何提高数据工程师的工作效率。 6. 统一数据治理:通过Unity Catalog实现全公司的数据和AI资产的统一治理,确保数据的高质量、准确性和可靠性。

2024-08-12

Vue 接入 Monaco

Vue 接入 Monaco

2024-08-06

聚宽如何通过 QMT 实现自动交易

聚宽无法实现实现自动化,代码提供了一个解决方案如何通过 QMT 来实现交易,需要向券商申请 QMT。

2024-08-05

Apache 入门文档,Hudi PMC 详解 Hudi 从 0 到 1

Hudi 是数据湖,和 Iceberg、Delta 为三大数据湖解决方案,主要如下内容: 1. Hudi的存储格式和表结构。 2. 读操作流程和查询类型。 3. 写操作流程,包括UPSERT和INSERT等操作。 4. 写入索引的详细介绍及其类型。 5. 表服务的概念和具体实现,包括压缩、清理和索引。 6. 聚类技术和空间填充曲线的应用。 7. 同时运行写操作和表服务的并发控制机制。 8. 增量处理的实现,包括增量查询和变更数据捕获(CDC)。

2024-08-05

Milvus 向量数据库介绍

Milvus 向量数据库介绍

2024-07-14

LlamaIndex 创始人 Jerry Liu 介绍 RAG、Agent 痛点以及解决方法

LlamaIndex 创始人 Jerry Liu 介绍 RAG、Agent 痛点以及解决方法

2024-07-14

深度神经网络介绍 PDF 英文版

介绍深度学习的基本概念。包括以下基本内容 1. 监督学习 2. 浅层神经网络 3. 深层神经网络 4. 损失函数 5. 模型拟合 6. 性能评估 7. 正则化 8. 卷积网络 9. 残差网络 10. 变压器 11. 图神经网络 12. 无监督学习 13. 生成对抗网络 14. 正规化流 15. 变分自编码器 16. 扩散模型 17. 强化学习

2024-07-07

llama index 2024 AI 大会 ppt

来自 llama_index 创始人 jerryjliu 在 AI Engineer 的主题演讲,llamaIndex 为开发 AI Agent 提供了更多功能,多 Agent 交互等等。如果优化文档解析、文档索引等。

2024-07-03

phi3 微调的简单数据集,可以作为微调测试使用

phi3 微调的简单数据集,可以作为微调测试使用

2024-06-26

Flink 调优介绍,包括大状态、数据倾斜、反压等监控以及处理方式

Flink 调优介绍,包括大状态、数据倾斜、反压等监控以及处理方式

2024-06-25

Hudi TCP-DS 测试 SQL 脚本

TCP-DS是业界测试数据库、数据仓库的一个工具库,共计 24 张表,TCP-DS 会自动生成数据,同时生成 99 个查询语句,平时可以看到很多评测中的 SQL99 就是这个它了。原生支持 Oralce、SQLServer,其他数据存储需要针做适配,本资源中对 SQL 模板进行了修改,同时包含了一个生成 SQL 的脚本,将 99 个 SQL 拆成不同的文件。

2024-06-20

Nginx 容器配置文件,基于 Nginx 基础进项,安装 vim

Nginx 基础镜像,为了保持镜像最小,默认软件都没有进行安装,开发时,更新配置文件只能通过脚本进行,操作复杂。本镜像文件在 Nginx 基础镜像的基础上安装了 vim,也可以根据需求安装更多软件。

2024-06-18

快速搭建本地全文搜索,Movies 测试数据

快速搭建本地全文搜索,Movies 测试数据

2024-05-21

LlamaIndex 加 Ollama 实现 Agent

LlamaIndex 加 Ollama 实现 Agent

2024-04-23

pytorch transformer notebook 源代码

pytorch transformer notebook 源代码

2024-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除