- 博客(8)
- 资源 (10)
- 收藏
- 关注
原创 学习笔记(五) 从简易Transformer原理到RAG(langchain)构建私有知识库的大模型应用
FNN前馈神经网络的固定输入节点数量是固定的,为了更适于翻译这种输入文本长度变化的序列转导任务,出现了RNN循环神经网络,如下图,可以模拟人类说话一个字一个字按时间顺序的过程。将所以事物都映射维向量存储到向量数据库,对每个‘字’,‘词’,‘图像’等非结构化的数据都定义了一个高维向量,这样就把语言文字转化为了可计算的数学量,与上篇讨论的用向量表示文章一样,语义相近的文本或单词对应的向量也相近。例如,这里的“水”不是和‘液体’,‘油’,‘喝的’ 等词义相近的名词,而是修饰课程怎么样的形容词。
2025-06-04 16:01:26
678
原创 学习笔记 <数学之美>的文本处理和pagerank到SVD(四)
我觉得杂志的影响因子算法可以考虑文章被引用的时间因素,即当风潮过去后事情区域客观而仍被引用的文章可能更有基础性贡献,时间越长反而会上扬或者沉默速率相对别的跟风文章变慢的,应该比大团队认为运作刷引用的价值更高。那么再查找相关的网页,最简单的想法是,包含这些词频率高的网页相关度越高,于是计算所有网页的这些词的词频TF, 但是有些词的信息量大,比如‘大模型’比‘应用’这个词重要,有些词比如‘的’这种词几乎没有语义,所以用TF·IDF计算每个网页的这三个词的TF-IDF的和,∑TF·IDF 作为相关性的排名。
2025-05-27 15:56:26
731
原创 统计学习笔记 <数学之美>贝叶斯网络内容校正(三)
他这个箭头指向的是原因。贝叶斯图可以看成是马尔科夫链推广到有向图的结果,一般都假定一阶,即与只于前一个结点(即父结)点有直接关系,一般表示都是父结点(xt)指向下一结点(xt+1),即指向的是导致的结果,或下一个状态。第二,图中表头按照红色修正的标记更好理解一点,家族病史和高血脂对应的是下面第一列的四个 “有,无”,并且圈中应为无。《数学之美》是一部非常不错的书,以连贯的思维勾勒出包括自然语言处理,一直到到第三版增加了比特币密码学合深度学习的原理,可以快速了解一些技术,至少对多年前的人们来说。
2025-03-30 23:41:57
269
原创 python类变量与实例变量 小记
可见,如果有xxx类变量的话,self.xxx变量 所指的是哪一个取决于__init__()函数中是否有self.xxx的声明,如果没有,则这个self.xxx就是类变量本身。
2024-09-22 20:50:56
292
原创 统计学习笔记 生物基因组学应用(二)
这篇文章给了一个实际的例子,用神经网络预测一段序列当中的motif, 分割成2000小段序列,每段50bp,实验已知每段是否包含motif 比如增强子,标记为0、1,分成训练集和预测集进行验证,最后解释,实际真实的序列是(CGACCGAACTCC。先对数据编码,一般对四种碱基编码为:A [1,0,0,0],T [0,0,1,0],C [0,1,0,0] ,G [0,0,0,1]#arrays[0], arrays[1], arrays[2]进行堆叠,所以结果与原始数组一样。
2024-06-08 22:43:56
766
原创 数据拟合平滑样条问题
R里面有平滑样条函数,一条命令就好了smooth.spline()比如我们做基因组测序数据时需要将dosage对GC进行校正,那么在R中做GC校正就相当简单:d <- read.table(flex, colClasses = c("numeric", rep("NULL",4), "numeric", "numeric"))#其中设定为numeric的三列为纯数字染色体号、覆盖...
2019-10-30 00:07:01
1732
原创 恢复正在运行的脚本到文件
当你的脚本已经提交后台运行, 而你却误删了该脚本,不要惊慌,只要他还在运行就能恢复出来。很简单首先ps aux|grep jiaoben.shbioinfo 1636 0.0 0.0 6380 692 pts/1 S+ 16:38 0:00 grep jiaoben.shbioinfo 80790 0.0 0.0 9236 1224 p
2013-06-25 16:46:55
760
原创 win7下安装linux双系统故障排除
原先是win7的系统,准备做成win7 linux双系统,于是随便在网上找了个教程开始安装http://www.linuxidc.com/Linux/2012-11/73500p2.htm下载easybcd2.2 ubuntu12.10 iso镜像文件。刻录了ubuntu(似乎无法从iso硬盘镜像安装)安装完ubuntu,安装过程没问题,重启准备看看双系统,重启之后发现引导界面变成了g
2013-05-16 21:21:52
1148
StartIsBackPlus_setup.exe
2019-10-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人