自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (10)
  • 收藏
  • 关注

原创 学习笔记(五) 从简易Transformer原理到RAG(langchain)构建私有知识库的大模型应用

FNN前馈神经网络的固定输入节点数量是固定的,为了更适于翻译这种输入文本长度变化的序列转导任务,出现了RNN循环神经网络,如下图,可以模拟人类说话一个字一个字按时间顺序的过程。将所以事物都映射维向量存储到向量数据库,对每个‘字’,‘词’,‘图像’等非结构化的数据都定义了一个高维向量,这样就把语言文字转化为了可计算的数学量,与上篇讨论的用向量表示文章一样,语义相近的文本或单词对应的向量也相近。例如,这里的“水”不是和‘液体’,‘油’,‘喝的’ 等词义相近的名词,而是修饰课程怎么样的形容词。

2025-06-04 16:01:26 678

原创 学习笔记 <数学之美>的文本处理和pagerank到SVD(四)

我觉得杂志的影响因子算法可以考虑文章被引用的时间因素,即当风潮过去后事情区域客观而仍被引用的文章可能更有基础性贡献,时间越长反而会上扬或者沉默速率相对别的跟风文章变慢的,应该比大团队认为运作刷引用的价值更高。那么再查找相关的网页,最简单的想法是,包含这些词频率高的网页相关度越高,于是计算所有网页的这些词的词频TF, 但是有些词的信息量大,比如‘大模型’比‘应用’这个词重要,有些词比如‘的’这种词几乎没有语义,所以用TF·IDF计算每个网页的这三个词的TF-IDF的和,∑TF·IDF 作为相关性的排名。

2025-05-27 15:56:26 731

原创 统计学习笔记 <数学之美>贝叶斯网络内容校正(三)

他这个箭头指向的是原因。贝叶斯图可以看成是马尔科夫链推广到有向图的结果,一般都假定一阶,即与只于前一个结点(即父结)点有直接关系,一般表示都是父结点(xt)指向下一结点(xt+1),即指向的是导致的结果,或下一个状态。第二,图中表头按照红色修正的标记更好理解一点,家族病史和高血脂对应的是下面第一列的四个 “有,无”,并且圈中应为无。《数学之美》是一部非常不错的书,以连贯的思维勾勒出包括自然语言处理,一直到到第三版增加了比特币密码学合深度学习的原理,可以快速了解一些技术,至少对多年前的人们来说。

2025-03-30 23:41:57 269

原创 python类变量与实例变量 小记

可见,如果有xxx类变量的话,self.xxx变量 所指的是哪一个取决于__init__()函数中是否有self.xxx的声明,如果没有,则这个self.xxx就是类变量本身。

2024-09-22 20:50:56 292

原创 统计学习笔记 生物基因组学应用(二)

这篇文章给了一个实际的例子,用神经网络预测一段序列当中的motif, 分割成2000小段序列,每段50bp,实验已知每段是否包含motif 比如增强子,标记为0、1,分成训练集和预测集进行验证,最后解释,实际真实的序列是(CGACCGAACTCC。先对数据编码,一般对四种碱基编码为:A [1,0,0,0],T [0,0,1,0],C [0,1,0,0] ,G [0,0,0,1]#arrays[0], arrays[1], arrays[2]进行堆叠,所以结果与原始数组一样。

2024-06-08 22:43:56 766

原创 数据拟合平滑样条问题

R里面有平滑样条函数,一条命令就好了smooth.spline()比如我们做基因组测序数据时需要将dosage对GC进行校正,那么在R中做GC校正就相当简单:d <- read.table(flex, colClasses = c("numeric", rep("NULL",4), "numeric", "numeric"))#其中设定为numeric的三列为纯数字染色体号、覆盖...

2019-10-30 00:07:01 1732

原创 恢复正在运行的脚本到文件

当你的脚本已经提交后台运行, 而你却误删了该脚本,不要惊慌,只要他还在运行就能恢复出来。很简单首先ps aux|grep jiaoben.shbioinfo   1636  0.0  0.0   6380   692 pts/1    S+   16:38   0:00 grep jiaoben.shbioinfo  80790  0.0  0.0   9236  1224 p

2013-06-25 16:46:55 760

原创 win7下安装linux双系统故障排除

原先是win7的系统,准备做成win7 linux双系统,于是随便在网上找了个教程开始安装http://www.linuxidc.com/Linux/2012-11/73500p2.htm下载easybcd2.2 ubuntu12.10 iso镜像文件。刻录了ubuntu(似乎无法从iso硬盘镜像安装)安装完ubuntu,安装过程没问题,重启准备看看双系统,重启之后发现引导界面变成了g

2013-05-16 21:21:52 1148

JNI-study(中文版)

这本书介绍JNI技术,该技术可以用Java调用C程序,

2011-08-19

tensor flow视频教程及练习题1

tensor flow 快速入门与实战 视频加练习题 源程序代码讲解及文档

2019-01-10

tensor flow视频教程及练习题3

tensor flow 入门教学视频及资料练习题 源代码,课件 VR

2019-01-10

StartIsBackPlus_setup.exe

碰上win10这种系统,就想把它恢复为xp这种经典,但是重装系统可能会带来很多麻烦,这里提供一种将开始菜单样式改为xp的软件,可以和win10很多好兼容

2019-10-30

tensor flow视频教程及练习题2

tensor flow 快速入门与实战 视频加练习题 源程序代码讲解及文档 卷积神经网络

2019-01-10

commandtemplate.html

下拉菜单选项联动弹出文本框,增加减少文本框,文本框嵌套等功能实现

2019-10-30

数据结构演示系统(C语言版)

该系统配套严蔚敏 清华大学出版社 数据结构(c语言版),将书中算法的C语言实现以直观的图像配合代码的执行演示出来。

2010-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除