- 博客(23)
- 收藏
- 关注
原创 02 入门——Chat models完整流程简单示例
Components目前有16个组件,如下图,具体见同时,还会演示如何将这些模块构成一个链。
2024-09-01 09:26:54
1212
原创 01 Langchain简介
本文翻译langchain0.2版本内容。LangChain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序,它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain是一个语言模型集成框架,其使用案例与语言模型的使用案例大致重叠,包括文档分析和摘要、聊天机器人和代码分析。简单来说,LangChain提供了灵活的抽象和AI优先的工具,可帮助开发人员将LLM应用程序从原型转化为生产环境。
2024-09-01 09:24:04
1219
原创 LoRA微调GLM-4、Qwen2
对于大模型微调,本质是追求通过对少量参数的高效修改,来最大化地影响模型的原始参数,以此达到针对特定下游任务的最佳适配。Lora(Low-Rank Adaptation)作为另一个当前流行且关键的方法论,提供了一种不同的途径来实现这一目标。Lora的核心思想和方法论其实具有广泛的通用性,它不仅适用于大语言模型的微调,比如大家熟知的文生图-Stable Diffusion,大量应用了Lora技术来生成特定风格的AI绘图。所以本文我们就来详细的剖析一下Lora的原理以及它是如何应用于大模型微调领域的。。
2024-07-22 21:19:45
1971
3
原创 开源大语言模型部署(GLM-4、Qwen2)
在本地运行大模型,需要先保证自己有足够的资源。大模型一般运行在GPU上,这里以GLM-4-9B和Qwen2-7B为例来说明其硬件要求情况。
2024-07-22 21:03:28
6527
原创 01-anaconda环境
Windows 用户如果无法直接创建名为 .condarc 的文件,可先执行 conda config --set show_channel_urls yes 生成该文件之后再修改。当利用activate pytorch 环境名 想要进入新的环境是时报错:CondaError: Run ‘conda init’ before ‘conda activate’,可通过如下方式解决。配置完成后,运行 conda clean -i 清除索引缓存,保证用的是镜像站提供的索引。
2024-07-22 20:56:30
882
原创 spark之action算子学习笔记(scala,pyspark双语言)
函数签名:def collect(): Array[T]功能说明:收集每个分区数据,以数组Array的形式封装后发给driver。设置driver内存:bin/spark-submit --driver-memory 10G(内存大小)注意:collect会把所有分区的数据全部拉取到driver端,如果数据量过大,可能内存溢出。图1 结果图2 结果。
2023-12-03 20:30:23
1152
2
原创 spark之transformation算子学习笔记(scala,pyspark双语言)
在排序之前,可以将数据通过f函数进行处理,之后按照f函数处理的结果进行排序,默认为正序排列。其中,键值对中的Key为第1个RDD中的元素,Value为第2个RDD中的元素。将两个RDD组合成Key/Value形式的RDD,这里要求两个RDD 的partition数量以及元素数量都相同,否则会抛出异常。rdd1.filter(func),利用func函数对rdd1里面的每个元素进行操作,保留为true的数据。rdd1.flatMap(func),利用func函数对rdd1里面的每个元素进行操作,并压平。
2023-12-02 21:33:15
996
原创 Transformer位置编码的理解
一、什么是位置编码 位置相当于坐标,是唯一的,能够定位一句话中字词的位置。Transformers模型使用位置编码(Positional encoding)来表征一个字词在序列中的位置。二、为什么需要位置编码 在任何人类语言中,字词的顺序都是非常重要的,如果调换顺序,语义可能发生很大的不同。比如以下两句话:张明欠了我300元我欠了张明300元这两句话的主体的位置发生了变化,代表的意思
2023-12-02 21:16:27
1096
原创 pyspark学习之——逻辑回归、模型选择与调参
记录pyspark的MLlib库学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,要么直接翻译过来,要么加上自己的理解。spark2.4.8官方文档如下:https://spark.apache.org/docs/2.4.8/ml-classification-regression.html#logistic-regression目录一、二分类 spark的逻辑回归即可以用.
2021-12-16 15:47:12
6407
原创 pyspark学习之——特征提取、转换与选择
记录pyspark的MLlib库学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,要么直接翻译过来,要么加上自己的理解。spark2.4.8官方文档如下: https://spark.apache.org/docs/2.4.8/ml-features.html目录一、特征提取1.1 TF-IDF1.1.1 TF1.1.2 IDF1.1.3 实例1.2 Word2Vec二、特征转换2.1 Tokenizer2.2 StopWor.
2021-12-14 17:06:44
2456
原创 逻辑回归公式推导
本文约定:(,,,,)表示行向量(;;;;)表示列向量。 建议观看该部分内容前先对线性回归有个大致了解,可参看线性回归公式推导一、逻辑回归简介1.1 逻辑回归基础 逻辑回归虽然叫“回归”,但它实际上是一种二分类算法。逻辑回归利用Logistic函数(或称为Sigmoid函数),函数形式为:h(z)=11+e−zh(z)=\frac{1}{1+e
2021-12-14 11:46:52
1491
原创 EM算法公式推导
目录一、EM算法由来二、EM步骤三、EM算法导出一、EM算法由来 在估计模型参数的时候,一般使用贝叶斯法或者极大似然估计。但是在含有隐变量的情况下,用上述方法来估计会比较困难。于是诞生了一种近似实现对观测数据的极大似然估计,也就是EM算法。下面首先介绍为什么有隐变量的情况下,用极大似让估计会变得困难。 假设YYY表示观测变量,ZZZ表示隐变量,(Y,Z)(Y,Z)(Y,Z)合在一起的数据称为完全数据
2021-12-13 09:58:29
1508
原创 pyspark学习之——流水线Pipeline
目录一、流水线Pipeline概念二、流水线工作流程2.1 训练过程2.2 测试过程三、Estimator, Transformer, Param实例四、Pipeline实例一、流水线Pipeline概念 spark的流水线受 scikit-learn项目的启发,是对流水线式工作的一种高度抽象,通常可以包含多个机器学习流程,如:源数据ETL、数据预处理工作、指标提取、模型训练、模型验证、预测新数据等多个步骤。包含以下几个步骤:  
2021-12-12 19:42:29
5105
原创 pyspark学习之——基本统计
记录pyspark学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,spark2.4.8官方文档如下: https://spark.apache.org/docs/2.4.8/ml-statistics.html目录基本统计1.相关性1.1 导包1.2 本地向量生成方法1.2.1 生成稠密向量1.2.2 生成稀疏向量1.3 生成实验用本地向量2 假设检验基本统计1.相关性 &nbs.
2021-12-12 16:22:43
1737
原创 云服务器大数据高可用集群搭建-----hadoop篇
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器【注意】主要记录自己在云端服务器搭建个人用hadoop集群过程新的改变我们对Markdo
2021-12-06 11:15:12
5103
5
原创 线性回归公式推导
【前言】很久没写个人学习笔记了,希望今天能以线性回归的推导作为一个开端,保持下去。一、数据形式线性回归作为最简单的机器学习算法之一,是后续众多复杂算法的基础,所以有必要从此处开始进行学习。在公式推导前,先给定相关的定义:假设*X*表示一个矩阵,其具体形式为:X = (...
2021-11-29 15:59:36
1266
原创 机器学习读书笔记——第一章 绪论(二)
一.假设空间设有三个数据集D={A,B,C,D}A=(色泽=青绿;根蒂=蜷缩;敲声=浊响;好瓜),B=(色泽=乌黑;根蒂=稍蜷;敲声=浊响;好瓜),C=(色泽=青绿;根蒂=硬挺;敲声=清脆;坏瓜), D=(色泽=浅白;根蒂=稍蜷;敲声=沉闷;坏瓜),        **所有属性可能的取值
2019-03-07 09:28:43
320
原创 机器学习读书笔记——第一章 绪论(一)
今天是第一次开始在csdn上面写博客,也是开始记录周志华《机器学习》、李航《统计学习方法》等书籍的读书笔记,让自己养成良好的读书习惯,通过写笔记进一步加深理解。 周志华《机器学习》中用西瓜的例子贯穿始终。判断西瓜是否是好瓜的依据:色泽,根蒂,敲声、文理、脐部、触感等。 &nbs...
2019-03-06 15:54:04
698
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人