- 博客(71)
- 收藏
- 关注
原创 继续开始更新AI学习笔记——RAG技术
蒸馏的意思是,原本使用大模型需要大量的资源以及相关数据,那使用一个小模型,不断调参,确保最后的输出结果与大模型相似,这样同样也压缩了数据空间。那如果统一使用一种精度,比如都使用浮点数16位,32比特的格式表示,那就统一数据表示形式,最后完成了数据空间的压缩。4,如何确保用户提出了有效问题,问题可能是无效,无价值的。6,检索获得有效文档,chunks,变成context。8,使用什么大模型,通用的,还是开源微调的。6,有效段落太多,是否排序,如何排序?1,数据的读取,格式以及读取的问题。
2024-10-31 23:29:38
336
原创 机械学习—零基础学习日志(Python做数据分析04)
列表的增添:append方法,insert方法,list.extend(list)所以,是把你需要的数值后一位插入位置(index),帮助你找出来。与元组对比,列表的长度可变、内容可以被修改。排序:sorted(list),list.sort()。删除:del方法,pop方法,remove方法。模块支持二分查找,和向已排序的列表插入值。,它会位于列表中已经存在的最后一个。可以找到插入值后仍保证排序的位置,的一个好方法是计算序列(唯一的)。
2024-09-11 23:30:00
718
原创 机械学习—零基础学习日志(概率论总笔记5)
如果P(X|Y)本身比较小,说明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比较多,统计结果可信度会高一些。要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。怎么避免“黑天鹅”?插值法的精髓在于,相信那些见到次数比较多的统计结果,如果遇到统计数量不足时,就设法找一个可靠的统计结果来近似。古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。
2024-09-07 23:57:50
871
原创 机械学习—零基础学习日志(概率论总笔记4)
拉普拉斯的古典概率论里,他对概率定义的方法是有漏洞的,发生了循环定义,在介绍随机事件A的概率时,用了等可能性的单位事件这样的说法。但是概率还没定义清楚,怎么能用等可能性的单位事件呢?后来学者提出建立在统计基础上的统计概率。比如,要确认一个骰子六点朝上的概率是否为1/6,就要进行大量独立的试验,看看最后六点朝上发生的次数和试验次数的比值是否等于1/6。如果这个随机事件真的存在一个确定的概率,随着试验次数的增加,六点朝上的比例会在一个特定的值上下浮动,并且趋近于某个极限值。
2024-09-03 23:36:37
965
原创 机械学习—零基础学习日志(概率论总笔记3)
注:一件事Y在条件X下发生的条件概率P(Y|X),等于条件X,和这件事Y一同发生的联合概率P(X,Y),除以条件X的概率P(X)。前提条件会影响后续的概率,在一个前提条件下,某个时间发生的概率,我理解,这叫,条件概率。(注:可以理解成X和Y一同发生的概率,就是X发生的概率,乘以在X条件下Y发生的概率。
2024-09-02 23:15:10
700
原创 机械学习—零基础学习日志(概率论总笔记2)
正负1倍的标准差,有68%的置信度。正负两倍的标准差,那么有大约95%的情况。假定事件A经过n次试验后发生了k次,把k的概率分布图画一下,就得到了一个中间鼓起,像倒扣的钟一样的对称图形。落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体。18世纪,数学家棣莫弗和拉普拉斯把这种中间大,两头小的分布称为正态分布。置信区间展现的是这个参数的真实值有一定。
2024-09-01 23:58:22
988
原创 机械学习—零基础学习日志(如何理解概率论4)
当已知一个概率,求解另外一个函数的概率。以下是离散型的概率计算方法。这里是连续型的,已知概念密度,计算对应的另外一个函数的概率。这里需要求解对应的原始函数。这里我们做一道练习题。
2024-08-21 23:55:39
507
原创 机械学习—零基础学习日志(如何理解概率论3)
一维随机变量分布,可以看到下图,X为不同情况的概率。而x如果是大于等于X,那么当x在40以内时,没有概率,为0。当x变大,在40-80之间,那么x大于X的概率为,0.7,所以随着x增大,概率会越来越高。同时概率是如下图所示,为离散型,间断性增加的。对于不同类型的,比如离散型,连续型。解析:然后再求导就可以。
2024-08-20 23:23:49
527
原创 机械学习—零基础学习日志(如何理解线性代数5)
把向量分解为如下形式。第一步分解为,特征向量的线性组合。第二步,根据特征值缩放每个向量,第三步,重新将特征向量组合起来。
2024-08-17 19:36:56
521
原创 机械学习—零基础学习日志(如何理解线性代数4)
这里使用面积有方向的特点,可以得到一个简洁表示式,具体方向为正为负,是可以看确定向量的所在边的另外一条边,要转过去,是顺时针还是逆时针。在计算过程中发现,如果是ad-bc形式,一定是OB是OA沿着逆时针旋转的。可以知道对应坐标,恰好是ad-bc的绝对值一半。第一个公式,面积在平行线内部平移时,面积不变,所以下面的公式成立。所以一个平行四边形的面积,在平面直角中就可以表示,ad-bc的绝对值。对应的,当一个面积缩放倍数,其实就是他的向量缩放一定倍数。在引言中,其实所写的式子就是行列式,可以按如下方式书写。
2024-08-16 23:40:03
455
原创 机械学习—零基础学习日志(如何理解线性代数3)
最早行列式,是莱布尼茨用于判断,一个方程有没有解。例如,三元一次方程,如果有解,对应行列式就有值,但是如果无解,那么对应的行列式结果则为零。
2024-08-15 22:57:52
1068
原创 机械学习—零基础学习日志(项目实践01)
格式:确定PPT模版,例如第一种PPT是需要一张图片,设置图片的透明度等等,其实就确定了第一张PPT的格式就行。datawhale,有比较多的项目分类,也有众多的学习者,大家在这里是可以找到不错的伙伴的。将用户输入的信息文本,转化为SQL语句,用户上传数据文件,在使用指令对数据进行操作。内容:使用大模型能力,输出大量文本信息,输出主主题,子标题,结合PPT格式输出。第一,裁剪文本,将一万字文本裁剪为更小的文本,进行信息总结,但是会丢失很多信息。直接产出一些具体的文本与信息,使用markdown的格式。
2024-08-12 23:59:32
463
原创 机械学习—零基础学习日志(python编程)
我的体感是,一个毫无基础的同学去学习Python,还是得找组织,另外,项目和代码一起学习,不要闭门造车,多和身边的人交流。
2024-08-07 23:44:02
1214
原创 机械学习—零基础学习日志(高数23——无穷小运算)
我在学习《机械学习》时,前辈说,把张宇老师的考研数学的内容过一遍,高等数学就已经满足基本需求了。又因为我觉得学习数学有趣,于是,开始了《高数学习之旅》。而且在第一部分学习完毕后,学习热情消退,再持续学习以考研为目的的数学,会较大损害我的积极性。于是,现在开始在原有基础上,再开始进行项目实操。但明显发现,考研的重心会在题目的讲解上,讲究做题技巧。我后续的学习方向是,阿里云的天池项目学习。考研方面的高数学习,转为对项目的实操。这段时间,把张宇老师讲解考研的第一部分基本全部学习完毕了。
2024-08-06 22:39:03
652
原创 机械学习—零基础学习日志(高数22——泰勒公式理解深化)
在泰勒的年代,如果想算出e的0.001次方,这是很难计算的。那为了能计算这样的数字,可以尝试逼近的思想。但是函数又不能所有地方都相等,那退而求其次,只要在一个极小的范围,可以持续逼近就可以了。这里可以看看具体如何逼近呢?
2024-08-05 23:35:30
949
原创 机械学习—零基础学习日志(高数21——泰勒展开)
求解自然对话e,证明e是如何从极限(1+1/x)x中得来的,需要了解泰勒展开式。现在终于学习到泰勒展开式。
2024-08-04 22:43:42
436
原创 机械学习—零基础学习日志(高数20——洛必达法则)
这里讲解一个历史,洛必达法则其实并不是洛必达想出来的,洛必达整理了第一本微积分的书籍,是真正的知识传播者。洛必达法则是洛必达从伯努利哪里买过来的,并结合了莱布尼兹的论文。这里进行强调,洛必达法则适用于0比0型,另外,分子分母导数必须存在,最后,结果存在或者为无穷大时,才能使用。
2024-08-03 23:47:22
529
原创 机械学习—零基础学习日志(高数18——无穷小与无穷大)
这里可以记住,无穷小有一个特殊,那就是零。零是最高阶的无穷小,且零是唯一一个常数无穷小。张宇老师还是使用了超实数概念来讲解无穷小。其实是利于理解的,但希望大家接触新概念过程不要太抗拒。数学概念理解,其实可以借用生活概念。张宇老师这里把1除以无穷小,理解成把1分为若干个无穷小。所以得到的就是无穷大。1除以超实数所以得到超实数的结果。
2024-08-01 22:52:50
760
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人