- 博客(7)
- 收藏
- 关注
原创 用精心调整的预训练语言模型集合提取化学-蛋白质关系文献笔记
不同模型配置在DrugProt开发集上的结果如表2,其中所有分数都以百分比计算,单个结果是在五个不同的随机种子中最好的三个运行的平均值和标准偏差,Ensemble表示每个配置的三个最佳运行的集合结果。运行5(不在开发集上训练):在训练集上训练的,由10个RoBERTa-large-PM-M3-Voc模型集成的模型,以及从CTD派生的化学定义。运行1(完整配置):在训练集和开发集上训练的,由10个RoBERTalarge-PM-M3-Voc模型集成的模型,以及从CTD派生的化学定义。
2025-01-14 17:38:32
879
原创 Recent advances in biomedical literature mining论文笔记
近年来,生物医学领域的科学论文数量迅速增加。生物学途径包括基因、基因产物等异质实体和代谢物等小分子之间的相互作用,相互作用的例子包括转录调控(分子如转录因子与DNA结合,从而调控基因的表达)和翻译后调控(蛋白质合成后对其功能的调节)。长短期记忆(LSTM)、卷积神经网络(CNN)和变压器双向编码器表示(BERT)等深度学习模型已经被确立为命名实体识别(named entity recognition,NER)和关系提取(relation extraction,RE)等NLP任务中的最先进(SOTA)方法。
2024-10-08 10:59:51
901
原创 构建知识图谱及其生物医学应用论文笔记
此外,我们讨论的方法认为所有的边缘类型是等价的,这可能不适用于所有应用场景,需要新的方法来区分和适应不同的节点和边缘类型。这个过程的目标是保留和编码与问题相关的知识图谱的局部和/或全局结构,同时将图转换为可以随时使用机器学习方法构建预测器的表示。关键词是通过专家知识或使用预先存在的本体来建立的,而语法模式是通过专家策划的解析树来构建的。该领域的任务包括预测药物与其他药物的相互作用,确定药物可能与之相互作用的分子靶点,以及为已有药物确定新的疾病治疗方法。关系可以单双向的,也可以是双向的。
2024-10-08 10:57:38
941
1
原创 pubmedKB:用于探索生物医学文献中生物医学实体关系的交互式web服务器论文笔记
消除由NER模型识别的实体提及的歧义,因为不同的结构可以表示相同的实体(图1C)。pubmedKB结合了一种新的探索性文献挖掘方法和为研究人员提供的交互界面,从而可以快速、智能地搜索大型生物医学文献,从而提供有用的知识和见解。在未来,我们希望扩展当前的PubMed摘要数据集,以包括PubMed Central全文文章,尽管这将需要在速度和准确性方面提高搜索性能,以应对数据集规模的大幅增加。指的是在同一篇文献中,不同种类的生物医学概念(如基因、蛋白质、疾病、药物、生物过程等)同时出现的情况。
2024-08-02 16:11:58
571
原创 序列标注的双向LSTM-CRF模型笔记
本文提出了多种基于神经网络的序列标注模型。这些模型包括LSTM网络、双向LSTM网络(BI-LSTM)、带CRF层的LSTM网络(LSTM-CRF)和带CRF层的双向LSTM网络(BILSTM-CRF)。我们的贡献可以概括如下。1)系统比较了上述模型在NLP标注数据集上的性能;2)我们的工作首次将双向LSTM CRF(表示为BI-LSTM-CRF)模型应用于NLP基准序列标记数据集。由于双向LSTM组件,该模型可以使用过去和未来的输入特征。此外,由于有CRF层,该模型可以使用句子级别的标记信息。
2024-08-02 16:08:09
1076
原创 Yogurt factory 机器工厂
2021-10-26文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入
2021-10-28 19:39:22
498
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人