- 博客(221)
- 资源 (20)
- 收藏
- 关注
原创 【论文阅读】TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences
本文提出了 TourSynbio-7B 这一专为蛋白质工程任务设计的多模态大模型,以及基于此的 TourSynbio-Agent 智能体框架,旨在填补蛋白质工程领域中深度学习模型与蛋白质序列理解之间的差距,提高蛋白质工程任务的效率和性能。研究背景蛋白质工程的重要性:蛋白质工程能够对蛋白质序列或结构进行修改和优化,以满足各种应用需求,是操纵生物系统的重要手段。深度学习在蛋白质工程中的应用现状。
2024-09-29 21:01:17
911
1
原创 【论文阅读】State-specific protein-ligand complex structure prediction with a multi-scale deep generative
State-specific protein–ligand complex structure prediction with a multiscale deep generative model” 提出了一种名为 NeuralPLexer 的计算方法,通过端到端的生成建模策略直接从蛋白质序列和配体分子图输入预测蛋白质 - 配体复合物结构及其构象变化。该方法结合了小分子信息和生物物理归纳偏差,在蛋白质 - 配体复合物结构预测。
2024-09-29 17:03:20
850
1
原创 【论文阅读】Simulating 500 million years of evolution with a language model
展示了语言模型在蛋白质设计和进化模拟方面的能力。通过对 ESM3 模型的研究,发现其能够生成与自然蛋白质差异较大且具有功能的新蛋白质,如新型绿色荧光蛋白(GFP),表明语言模型可以达到自然进化未探索的蛋白质设计空间,为蛋白质工程和进化研究提供了新的途径和见解。ESM3是多模态生成模型,对序列、结构和功能等多种模态进行推理,输入通过标记化处理,经过transformer和几何注意力等处理,输出可通过解码器转换为具体形式,如结构标记可解码为原子坐标。
2024-09-29 16:33:08
1500
1
原创 【论文阅读】ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling
这篇论文提出了一种名为ESM-AA(ESM All-Atom)的多尺度蛋白质语言模型,用于统一的分子建模。该模型通过在多尺度混合蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,实现了原子级和残基级的统一分子建模。
2024-09-27 10:00:38
1064
1
原创 【论文阅读】A method for multiple-sequence-alignment- free protein structure prediction using a protein la
抗体:在抗体的重链(VH)和轻链(VL)以及互补决定区(CDRs)的预测中,HelixFold-Single与AlphaFold2竞争,并在预测抗体的CDRH3时表现出优势。(1)同源序列数量的影响:尽管HelixFold-Single在具有大量同源序列的目标上表现优异,但在同源序列较少的情况下,其准确性仍然不理想。(3)单序列预测的局限性:尽管HelixFold-Single在大多数目标上表现良好,但在某些情况下,其准确性仍不如基于MSA的方法,特别是在同源序列非常少的蛋白质上。
2024-09-24 17:12:57
622
1
原创 【论文阅读】ProteinBERT: a universal deep-learning model of protein sequence and function
这篇论文提出了ProteinBERT,一种专为蛋白质序列设计的深度语言模型,能够在有限的标注数据下快速训练蛋白质预测器。通过自监督预训练和新的GO注释预测任务,ProteinBERT在多个蛋白质基准测试中表现出色,接近或超过了现有最先进的模型。其高效的架构和对不同序列长度的灵活性使其在蛋白质研究领域具有广泛的应用前景。
2024-08-26 20:07:33
1110
1
原创 【论文阅读】ZymCTRL: a conditional language model for the controllable generation of artificial enzymes
论文阅读:ZymCTRL: a conditional language model for the controllable generation of artificial enzymes。
2024-08-26 16:55:53
799
2
原创 【论文阅读】OntoProtein: Protein Pretraining With Gene Ontology Embedding
论文阅读:OntoProtein: Protein Pretraining With Gene Ontology Embedding。
2024-08-23 09:55:47
711
1
原创 【论文阅读】ColabFold: making protein folding accessible to all
论文阅读:ColabFold: making protein folding accessible to al (2022)
2024-08-22 13:52:32
848
1
原创 【论文阅读】ProtGPT2 is a deep unsupervised language model for protein design
蛋白质设计旨在构建针对特定目的定制的新型蛋白质,从而有可能解决许多环境和生物医学问题。基于 Transformer 的架构的最新进展使得能够实现具有类似人类能力的文本生成能力的语言模型。在此,受这一成功的启发,我们描述了 ProtGPT2,这是一种在蛋白质空间上训练的语言模型,它按照自然序列的原理生成从头蛋白质序列。生成的蛋白质显示出天然的氨基酸倾向,而无序预测表明 88% 的 ProtGPT2 生成的蛋白质是球状的,与自然序列一致。
2024-08-21 17:20:37
450
1
原创 【论文阅读】Progen: Language modeling for protein generation
蛋白质工程学的综合建模是解决合成生物学、医学和材料科学基本问题的关键。我们认为蛋白质工程是一个无监管的序列生成问题,目的是利用那些缺乏昂贵的结构注释的单向生长的蛋白质。我们对ProGen进行了基于分子功能、细胞成分等分类和关键词标签的280M蛋白质序列的1.2B参数语言模型的训练。这就为ProGen提供了一个不可预测的进化序列分集,并允许其产生精细粒度控制,如基于初始顺序相似性、二次结构精度和构形能量的度量所显示的那样。据NLP指标,ProGen是一种强大的语言模型,可实现与类似大小的英语模型相当的性能。
2024-08-21 16:28:00
1095
1
原创 【论文阅读】Controllable protein design with language models
一种可能是使用辅助结构元件(图1a)的边界或节省的碎片4。在任一情况下,token化过程将依赖于三级结构的可用性,并且在计算上比单词令牌化更深入。对现代语言的另一个影响性差异是。
2024-08-20 21:39:16
669
1
原创 【论文阅读】SaProt: Protein Language Modeling with Structure-aware Vocabulary
蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,我们拥有了大量的预测结构可以利用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。在这篇论文里,我们利用Foldseek来处理蛋白质结构,将其编码成一维的离散token,并与传统的氨基酸进行结合,形成了结构感知词表(Structure-aware Vocabulary),以此将结构信息嵌入到模型输入中,增强模型的表征能力。我们的预训练模型用到了目前最多的蛋白质结构(
2024-08-12 21:01:34
1206
1
原创 【大模型完全入门手册】——大模型入门理论(数据清洗与处理)
博主作为一名大模型开发算法工程师,很希望能够将所学到的以及实践中感悟到的内容梳理成为书籍。作为先导,以专栏的形式先整理内容,后续进行不断更新完善。希望能够构建起从理论到实践的全流程体系。助力更多的人了解大模型,接触大模型,一起感受AI的魅力!在构建和训练大规模语言模型过程中,数据清洗与预处理是至关重要的第一步,它直接影响模型最终的学习效果和性能表现。本章节将深入探讨这一环节的具体步骤和实践方法,旨在揭示数据从原始状态转变为适合训练模型所需格式的严谨流程。
2024-04-14 11:50:16
1656
原创 【大模型完全入门手册】——大模型入门理论(大语言模型公开数据集)
不仅以其庞大的规模满足了大模型对训练数据的需求,还因其广泛的领域覆盖和多样的文本类型增强了模型的泛化能力。与此同时,专门针对特定场景构建的数据集,例如新闻报道数据库RealNews和中文专用的WuDaoCorpora,它们为模型提供了更加聚焦和专业的语料输入,确保模型能够适应并生成符合特定领域规范和风格的内容。而在评估和推动模型进步的过程中,像ChineseGLUE这样的基准测试数据集扮演了至关重要的角色,它们集合了多种典型的自然语言处理任务,用以检验模型在解决实际问题时的表现力和准确性。
2024-04-14 11:42:25
394
原创 【大模型完全入门手册】——大模型入门理论(Transformer 架构剖析)
博主作为一名大模型开发算法工程师,很希望能够将所学到的以及实践中感悟到的内容梳理成为书籍。作为先导,以专栏的形式先整理内容,后续进行不断更新完善。希望能够构建起从理论到实践的全流程体系。助力更多的人了解大模型,接触大模型,一起感受AI的魅力!Transformer作为一种革命性的深度学习架构,在自然语言处理(NLP)等领域打破了传统循环神经网络(RNN)和卷积神经网络(CNN)在处理序列数据时所面临的诸多限制。
2024-04-14 11:37:56
411
原创 【大模型完全入门手册】——大模型入门理论(基于Transformer的预训练语言模型)
博主作为一名大模型开发算法工程师,很希望能够将所学到的以及实践中感悟到的内容梳理成为书籍。作为先导,以专栏的形式先整理内容,后续进行不断更新完善。希望能够构建起从理论到实践的全流程体系。 助力更多的人了解大模型,接触大模型,一起感受AI的魅力!
2024-04-14 11:16:39
509
原创 【大模型完全入门手册】——引言
因此,我们精心编撰了这本专著,旨在引领读者深入探索大模型的世界,系统而全面地洞悉其背后的原理与架构奥秘。综上所述,本专栏致力于为读者打造一条从理论到实战的完整学习路径,帮助广大读者紧跟大模型技术的步伐,抢占未来科技竞争高地,在这个崭新的智能时代,以大模型为核心引擎,驱动产业变革与个人职业发展迈向更高层次。:在理论基础上,我们将引导您亲自动手实践,从模型的部署开始,一步步完成预训练模型的选择与调整、针对特定场景的微调优化,乃至最终训练出符合自身业务特性的行业定制化大模型,让模型更好地服务于实际应用。
2024-04-14 11:00:42
215
原创 ChatGPT学习笔记——大模型基础理论体系
在文本预训练的基础上,ChatGPT 的基础大模型采用 159G 的代码进行了继续预训练,借助代码分步骤、分模块解决问题的特性,模型涌现出了逐步推理的能力,在模型表现上不再是随着模型规模线性增长,有了激增,打破了 scaling law;稀疏化将大量的冗余变量去除,简化模型的同时保留数据中最重要的信息。: ChatGPT 通过基于人类反馈的强化学习使模型的生成结果更符合人类预期,然而这也导致了模型的行为和偏好一定程度上反映的是标注人员的偏好,在标注人员分布不均的情况下,可能会引入新的偏见问题。
2024-01-03 21:25:03
2162
原创 【算法小记】接雨水的不同解法
首先最容易想到的是暴力解法,对每一列进行遍历,去找到它左边最高的柱子和右边最高的柱子,然后用这两个高度中最小的值去和当前柱子高度比较,如果大于当前高度,那么作差,就是当前位置可以接到的雨水高度了。(2)当前高度大于栈顶高度,出栈,计算当前的柱子和栈顶之间的积水量,然后计算当前高度和新站的高度关系,重复2,直到当前柱子的高度不大于栈顶高度,或者栈为空,然后把当前柱子入栈,指针后移。用栈去保存高度,遍历的时候如果当前高度小于栈顶高度,那么说明会由积水,我们当前高度的下标入栈。
2022-09-20 10:38:03
741
转载 【开发小记】前端性能指标和工具
最大内容绘制,可视区域中最大的内容元素呈现到屏幕上的时间,用以估算页面的主要内容对用户的可见时间。首次输入延迟,从用户第一次与页面进行交互到浏览器实际能够响应改交互的时间,输入延迟是因为浏览器的主线程正忙于做其他事情,所以不能响应用户,发生这种情况的一个常见原因是浏览器正在忙着解析和执行应用程序加载的大量计算的JavaScript。网页第一次完全达到可交互状态的时间点,浏览器已经可以持续的响应用户的输入,完全达到可交互的状态的时间是在最后一个长任务完成的时间,并且在随后的5s内网络和主线程是空闲的。
2022-09-19 17:20:51
734
原创 【开发小记】vue项目预渲染(prerender-spa-plugin)
(3)预渲染:构建阶段生成匹配预渲染路径的html文件(注意:每个需要预渲染的路由都有一个对应的html—),构建出来的html文件已经有静态数据,需要ajax数据部分未构建。(2)服务端渲染:用户访问url,服务端根据访问路径请求所需数据,拼接成html字符串,返回给前端,前端接收到html时已有当前url下的完整页面;(3)低版本浏览器:用户的浏览器可能不支持我们的使用的js特性,预渲染或者服务端渲染能够让用户至少能看见首屏的内容,而不是一个空白的网页。有可能出现白屏,且SEO不友好。
2022-09-18 17:32:58
1865
1
原创 【开发小记】elementUI面包屑跳到二级路由仍然保持父级导航栏高亮
刚进入页面的时候一直处于加载模式,因为我在子组件没有加载出来的时候会展示加载动画,所以这个问题要解决,就要保证进入父级组件的时候要主动展示一个子组件的内容。我直接在router文件里做了修改。重点在画圈圈的地方。因为我用的是elementUI组件库,所以其实是让el-menu中的:default-active能监听到父级组件就行了,改下图画线部分即可。数据是我自己用node返回的虚拟数据,啊哈哈哈哈哈,占个位。二级路由点亮了,但是导航栏上父级导航栏却不高亮了。
2022-09-08 22:51:19
1065
2
原创 【开发小记】vuex存储用户信息
今天开发的过程中,遵循前人的经验对用户信息进行了存储。实现这个功能之后,我突然想到(第三小节会给出一些理解hhh)
2022-09-07 22:33:36
1646
原创 【开发小记】vue2+elementUI实现搜索结果无限滚动(触底加载)展示
这里其实采用了分页加载的思想,每次请求除了带上请求条件,还带上了page和limit,从而获取到相应的数据。如果后台返回的数据小于limit证明以及没有新的数据会返回了,所以将flag改为true,用于控制展示模块底部的span元素展现。其中.main包含的就是我们展示的人员相关的卡片,这个地方为了控制样式我多加了一层.content的div。然后这里有一个关键点,就是在最外层的那个div上要添加infinite相关的几个属性,其中是滚动触底后触发的函数。超出五页的返回空,用来测试数据加载完毕的情况。
2022-09-05 11:59:13
2023
原创 【算法训练】二叉树系列思想(4)-快排
一、排序数组 9121、分析今天我们用快排来做这道题。快排的思想通俗的描述,挑选一个节点,然后将大于该节点的部分放在其右边,小于等于该节点的部分放在其左边,然后再对其左边和右边部分中的元素依次做类似的操作。其实可以看作是二叉树的前序遍历,先对当前节点做操作,然后再操作其左右相关部分。具体见代码及注释。2、代码import randomclass Solution: def sortArray(self, nums: List[int]) -> List[int]:
2022-05-31 17:01:23
206
原创 【算法训练】二叉搜索树系列(3)
一、不同二叉搜索树 961、分析首先是穷举思想,每一个值都可能是根节点,然后剩下的小于以及大于当前值的值作为其左右子树的构造数组。又可以递归的去计算以他们为根节点的情况数。因此,我们先搞清楚以一个节点为根节点时的情况,即为其左右子树种类数的乘积。注意到穷举过程中会存在重叠子问题,因此我们采用备忘录的形式标记,以减少重复计算。具体见代码2、代码class Solution: def numTrees(self, n: int) -> int: memo = [[0
2022-05-30 11:44:59
121
原创 【算法训练】二叉搜索树系列(2)
一、二叉搜索树中的搜索 7001、分析充分利用二分搜索树的特性,进行二分查找即可!比较简单,直接上代码2、代码# Definition for a binary tree node.# class TreeNode:# def __init__(self, val=0, left=None, right=None):# self.val = val# self.left = left# self.right = rightclas
2022-05-27 11:30:16
154
原创 【算法训练】二叉搜索树系列(1)
一、二叉搜索树中的第K小元素1、分析二叉搜索树,中序遍历就是升序排列的,所以我们采用中序遍历,在“中序遍历位置”去记录访问的元素个数,访问到的第k个就是我们要求的。比较简单,直接上代码2、代码# Definition for a binary tree node.# class TreeNode:# def __init__(self, val=0, left=None, right=None):# self.val = val# self.lef
2022-05-26 10:42:41
143
原创 【算法训练】归并排序的应用
一、翻转对 4931、分析首先看到i<j这个条件,就想到了数组分为左右两个部分,然后分别在左右两个部分去找满足条件的翻转对。由于在归并排序的过程中每一步都会访问到不同的左右数组部分,所以考虑在归并排序的框架上进行操作。就在左右两个数组将要合并的时候,利用左右数组i肯定小于j,且左右两个数组都是有序的条件去解题。具体看代码及注释。2、代码这里需要注意的就是在寻找i,j对的时候充分利用左右子数组的有序性,让end不要回退,从而降低时间复杂度!class Solution: def r
2022-05-25 22:47:36
186
原创 【算法训练】二叉树系列(四)序列化及后序遍历的特殊位置
一、寻找重复的子树 6521、分析首先要比较结点是否相同,我们可以将该结点及其子树序列化为字符串保存并用于比较(采用前序或者后序结果都可以)。其次为了保证结果集中的相同结点只被加入一次,我们可以记录相同序列化字符串出现的次数,仅当第一次出现重复的时候加入结果集,其他情况不加。具体见代码2、代码# Definition for a binary tree node.# class TreeNode:# def __init__(self, val=0, left=None, right
2022-05-23 11:15:59
974
原创 【算法训练】二叉树(3)
一、二叉树的序列化与反序列化1、分析其实可以利用二叉树的不同遍历方式记录每个节点的值,用特殊符号表示空节点,最后用字符串的形式保存遍历的结果。然后在反序列的过程中,再按照相同的遍历顺序思路还原即可。这里分别采用了前序遍历和后序遍历解法。2、代码(1)前序遍历# Definition for a binary tree node.# class TreeNode(object):# def __init__(self, x):# self.val = x#
2022-05-22 17:19:47
224
原创 【算法训练】二叉树系列(二)
一、翻转二叉树 2261、分析这道题可以分解为子问题,首先对左右子树进行翻转,然后再交换左右子树的问题即可。采用递归来写,且注意到这个交换之前需要得到左右子树的翻转结果,因此关键性代码放在“后序遍历位置”。具体见代码和注释2、代码# Definition for a binary tree node.# class TreeNode:# def __init__(self, val=0, left=None, right=None):# self.val = val
2022-05-21 17:18:43
577
原创 【算法训练】二叉树系列(一)
今天的题目在于理解前序位置、后序位置等关键位置的重要性。一、二叉树的最大深度 1041、分析首先可以将总体问题,分解成小问题,即当前结点的最大深度,应该是左右分支深度更大者的值加一。所以我们用递归的思想,对一个结点做出计算最大深度的操作,剩下的结点递归算法会对他们做相同的操作。这题较为简单,可以见具体代码2、代码# Definition for a binary tree node.# class TreeNode:# def __init__(self, val=0, lef.
2022-05-20 16:51:48
1020
原创 【算法训练】单调栈相关
前一篇文章中接触了单调栈的问题,今天的题目中也采用了单调栈相关技巧 去除字符串中的重复字符一、去除重复字母3161、分析题目有三个要求(1)首先要保证每个字母出现的相对顺序和原数组中相同——单调栈保证顺序(2)然后就要求每个字母在结果中只出现一次——严格控制出现次数(3)还要保证返回结果的字典序最小——即要保证字典序小的字符要在前面;可以考虑将栈中大于当前元素的内容出栈,然后将当前元素入栈。但是在出栈操作前,还要考虑到每个元素都要出现一次这点,所以就看栈顶元素在后续是否还有出现机会(这里我.
2022-05-19 11:15:24
117
原创 【算法训练】田忌赛马思维及单调栈相关
今天的几道题主要是涉及到思维上的一些小技巧。比如运用田忌赛马的贪心思维,以及单调栈的每次新元素入栈后,栈内的元素都保持有序(单增或者单减)一、优势洗牌 8701、分析核心思维就是田忌赛马的贪心,依次用nums1中剩余的最好的去和nums2剩余最好的比,如果比得过就比,如果比不过就用nums1中最差的那个去比。由于nums2的索引位置不能变,所以我们用大根堆来存放nums的元素以及对应的索引。对nums1进行一次从小到大排序,然后用left,right指针去操作当前“出战”的元素。具体看代码.
2022-05-18 21:43:26
226
l_mkl_2018.1.163.tgz
2020-07-08
l_mpi_2018.1.163.tgz
2020-07-08
hpl-2.3.tar.gz
2020-07-08
数字图像处理实验三代码及资源.zip
2020-01-02
Hybrid_Images1218.zip
2020-01-02
colorful.zip
2020-01-02
基于SSM的用户管理系统
2019-07-18
基于SSM的数据库增删改查(宁波中软培训)
2019-07-15
h5仿qq聊天页面 图灵机器人api接入
2019-03-18
将算术表达式转换成四元式
2018-12-10
预测分析程序的实现
2018-12-10
NFA转DFA实验代码
2018-12-10
链表栈的基本操作(C语言)
2018-11-27
生命游戏完整代码--java
2018-09-26
汇编实验报告
2018-05-13
汇编语言实验报告
2018-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人