镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
HAM-TTS大模型:基于token的零样本文字转语音分层声学建模
本文提出了一种基于深度学习的文本到语音(TTS)系统,称为HAM-TTS,旨在提高生成语音的质量,特别是在发音准确性、说话风格一致性以及音色连贯性方面。该模型采用了一种层次化的声学建模方法,并结合了数据增强策略和预训练的合成数据,使得训练数据规模扩大至650,000小时。通过引入一个包含补充声学信息的潜在变量序列到TTS模型中,并利用预测器进行转换,有效改善了语音的发音准确性和风格一致性。此外,还设计了一种策略来增强合成语音的音色连贯性。原创 2025-01-21 00:44:02 · 68 阅读 · 0 评论 -
Whisper-GPT:混合表征音频大语言模型
本文提出了一种新型的音频生成模型——WHISPER-GPT,该模型能够同时利用连续的音频表示和离散的音素表示进行语言建模。与现有依赖于神经编码算法得到的离散音频令牌的方法相比,WHISPER-GPT通过结合连续的频谱图和离散的音素,解决了高保真生成架构中的上下文长度处理问题,从而在保持信息完整性的前提下,允许模型预测未来的时间步。原创 2025-01-21 00:22:23 · 340 阅读 · 0 评论 -
SoundStorm分析: 语音大模型中的新型声学Decoder
SoundStorm其实是负责本文介绍了。与基于自回归的AudioLM方法相比,。该模型来实现,特别适用于长序列的音频生成任务。实验表明,尽管采用了并行解码,但SoundStorm能够在不牺牲音频质量的前提下显著提高生成速度。此外,通过结合文本到语义建模阶段,。文中还讨论了该技术的潜在应用及其对社会的影响,强调了负责任地开发人工智能技术的重要性。。原创 2025-01-20 20:15:07 · 168 阅读 · 0 评论 -
Differential Transformer
在这项工作中,引入了DIFF Transformer,它可以增强对相关上下文的注意力,同时消除噪音。语言建模的实验结果表明,DIFF Transformer 在缩放特性、长上下文建模、关键信息检索、幻觉缓解、上下文学习和激活异常值减少等方面优于 Transformer。结果强调了减少注意力噪音的重要性。此外,差分注意力机制可以通过 FlashAttention 轻松实现。研究结果将 DIFF Transformer 定位为大型语言模型的独特且有前途的基础架构。原创 2025-01-11 00:48:42 · 91 阅读 · 0 评论 -
TDv2:一种用于离线数学表达式识别的新型树形结构解码器
本文提出了一种,旨在充分利用数学表达式的树结构标签进行更有效的建模和预测。相较于传统的LaTeX字符串解码器,该模型通过采用一个节点分类模块和一个分支预测模块来简化解码过程,并提高模型的泛化能力。特别地,。通过一系列的实验验证,包括ablation研究、可视化分析以及与当前最先进的HMER方法的比较,证明了所提模型在CROHME 2014/2016/2019数据集上具有出色的性能和较强的泛化能力,尤其是在处理深度较大的数学表达式时展现出显著优势。原创 2025-01-09 22:34:34 · 223 阅读 · 0 评论 -
【论文解读】Med-BERT: 用于疾病预测的大规模结构化电子健康记录的预训练情境化嵌入
Med-BERT 是一种基于预训练的语义模型,它是在BERT的基础上进行了修改,专门用于处理结构化的电子健康记录(EHR)数据。Med-BERT 的架构由两个部分组成:Med-BERT 和预测头。其中,Med-BERT 部分的参数被加载并初始化自预训练模型,而预测头的参数则在微调过程中更新。Med-BERT 使用了六个层、六个注意力头和一个隐藏维度为192的变压器架构。在预训练阶段,Max Sequence Length 被设置为512个标记。原创 2024-10-31 09:45:52 · 513 阅读 · 0 评论 -
【论文解读】Sieve-Based Entity Linking for the Biomedical Domain
这篇论文探讨了生物医学文本处理中的关键任务——疾病提及归一化(normalization of disorder mentions),并提出了一个多阶段筛分方法(multi-pass sieve approach)来解决这个问题。该方法具有简单性和模块化的优点,并在两个数据集上进行了评估,取得了最先进的结果。规范化是在消除潜在的歧义表面单词或短语后,将文档中的单词或短语映射到本体中的唯一概念(基于本体中对该概念的描述)的任务。这个任务被称为实体消歧、记录链接或实体链接。我们采用的方法对于。原创 2024-10-30 10:12:31 · 125 阅读 · 0 评论 -
【PaperReading】scBERT as a large-scale pretrained deep language model for cell type annotation of sin
根据单细胞RNA测序数据对细胞类型进行注释是研究疾病进展和肿瘤微环境的前提。在这里,我们展示了现有的注释方法通常面临着缺乏筛选基因列表、批次效应处理不当以及难以利用潜在的基因-基因相互作用信息的问题,这影响了它们的泛化性和稳健性。为了克服这些挑战,我们开发了一种基于预训练深度神经网络的模型,称为"single-cell bidirectional encoder representations from transformers"(scBERT)。原创 2023-08-07 20:00:00 · 499 阅读 · 0 评论 -
【PaperReading】LINE:Large-scale Information Network Embedding
DeepWalk使用DFS随机游走在图中进行节点采样,使用word2vec在采样的序列学习图中节点的向量表示。**LINE(Large-scale Information Network Embedding)也是一种基于邻域相似假设的方法**,与DeepWalk使用DFS构造邻域不同的是,**LINE可以看作是一种使用BFS构造邻域的算法**。此外,**LINE还可以应用在带权图中**(DeepWalk仅能用于无权图)。原创 2023-07-11 08:00:00 · 574 阅读 · 0 评论 -
【PaperReading】metapath2vec: Scalable Representation Learning for Heterogeneous Networks
Metapath2vec是一种用于学习节点嵌入(node embedding)的图表示学习算法,旨在处理异构信息网络(heterogeneous information networks)。该算法通过将异构信息网络中的节点序列转换为连续的向量表示,以捕捉节点之间的语义关系和相似性。原创 2023-07-04 19:37:01 · 479 阅读 · 0 评论 -
【PaperReading】CTpathway: a CrossTalk-based pathway enrichment analysis method for cancer research
这篇文章介绍了一种新的通路富集分析方法(CTpathway),该方法使用基因表达数据计算基因间的交叉谈话,并将其转化为加权图,以更全面地理解通路在癌症中的作用。该方法可以更准确地鉴定与癌症相关的通路,并且可以更好地解释这些通路的作用。文章提出了一种解决现有通路富集分析方法忽略基因间交叉谈话的问题的方法。文章的缺点是没有详细说明该方法的局限性和适用范围。原创 2023-06-09 12:55:07 · 554 阅读 · 0 评论 -
【PaperReading】科学可重复的基因组富集: CERNO 与其他八种算法的比较
CERNO是一种基于修改后的Fisher P值积分的灵活且快速的基因集富集分析算法。与其他算法不同的是,CERNO不需要像GSEA那样进行随机化处理,使其在小样本量情况下的实现快速而强大。已经证明,CERNO在小样本量情况下优于GSEA,并且具有显著的鲁棒性。此外,CERNO假设P值独立,这是Fisher方法的基础,但是其他算法中这种假设并不成立。原创 2023-06-08 20:30:00 · 875 阅读 · 0 评论 -
【PaperReading】Toward a gold standard for benchmarking gene set enrichment analysis
基因集富集分析(GSEA)是一种广泛应用于高通量基因表达数据的方法,用于确定在不同生物学条件下表达的基因集是否富集。然而,由于缺乏标准化的基准数据集和评估方法,GSEA的结果在不同研究中难以比较和解释。本文提出了一种GSEA基准协议,旨在为GSEA方法的开发和评估提供一个标准化的基准。该协议包括使用模拟数据集和真实数据集进行评估,以及评估GSEA方法的准确性、灵敏度、特异性和可重复性。我们还讨论了GSEA方法的局限性和未来的发展方向。该基准协议将有助于推动GSEA方法的发展,并促进不同研究之间的比较和解释。原创 2023-06-07 23:00:00 · 463 阅读 · 0 评论 -
【PaperReading】Comparative Study ongene set and pathway topology-based enrichment methods
本文提出了三种基于基因集(GS)和四种基于通路拓扑结构(PT-based)的富集方法,并对它们进行了系统比较。研究解决了如何将通路数据整合到不同富集方法中的问题,并进行了广泛的模拟研究和基准测试。研究发现,对于原始的KEGG通路,PT-based方法在模拟和基准测试中都没有明显优于GS方法,但在非重叠通路的模拟研究中,PT-based方法优于简单的GS测试。研究还讨论了竞争性和自包含性方法的局限性和批评,并比较了GS和PT-based方法的优缺点。最终得出的结论是,简单的GS方法可能足以检测富集通路,但需要原创 2023-06-06 23:00:00 · 461 阅读 · 0 评论 -
【PaperReading】OpenHGNN:An Open-Source Toolkit for Heterogeneous Graph Neural Networks
今天带大家学习一个异质图神经网络开源工具包`OpenHGNN`。该工具包由北京邮电大学石川教授 `GAMMA Lab`发布,主要基于`PyTorch`和`DGL`。该开源工具包中集成了当前许多异质图神经网络的前沿模型,并提供了易用的接口,用户可以定义定制化的任务/模型/数据集来对新的场景应用建模,同时还集成了optuna进行超参数优化。原创 2023-05-26 16:21:50 · 862 阅读 · 0 评论 -
【PaperReading】Heterogeneous Graph Neural Network
今天阅读一篇KDD 2019的一篇文章:Heterogeneous Graph Neural Network。研究团队针对异构图网络进行建模,得到每个节点的向量表示。首先,利用基于重启的随机游走策略为每个节点根据节点类型选择邻居,然后利用两个模块聚合邻居节点特征:一方面,对节点的不同类型特征进行建模,生成特征向量;另一方面,聚合不同类型的邻居节点,并融合注意力机制,对不同类型的节点赋予不同的权重,得到最终的向量表示。最后,建立损失函数,mini-batch梯度下降端对端学习模型。将学习到的向量表示用于链接预原创 2023-05-23 23:00:00 · 1220 阅读 · 0 评论 -
【PaperReading】SHINE: SubHypergraph Inductive Neural nEtwork
近日,西北大学范伯格医学院Yuan Luo副教授发表在`NeurIPS 2022`上的论文“`SHINE: SubHypergraph Inductive Neural nEtwork`”。`超图神经网络`可以对图的节点之间的多路连接进行建模,这在基因医学等现实世界的应用中很常见。原创 2023-05-22 23:00:00 · 930 阅读 · 0 评论 -
【PaperReading】HGT:Heterogeneous Graph Transformer
近年来见证了图神经网络(GNN)在建模结构化数据中的新兴成功。但是,大多数GNN都是为均匀图设计的,其中所有节点和边缘都属于相同类型,使它们不可避免地代表异质结构。在本文中,我们介绍了用于建模网络尺度异质图的异质图变压器(HGT)体系结构。为了建模异质性,我们设计了依赖性参数,以表征每个边缘上的异质注意力,从而赋予HGT以维护不同类型的节点和边缘的专用表示。为了处理动态异质图,我们将相对时间编码技术引入HGT,该技术能够以任意持续时间捕获动态结构依赖性。要处理网络尺度的图形数据,我们设计了异质的迷你批次图采原创 2023-05-19 23:00:00 · 1013 阅读 · 0 评论 -
【PaperReading】PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Predicti
近日加州大学洛杉矶分校、亚马逊以及卡内基梅隆大学研究者们发表了一篇关于异质链路预测的文章:“PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction”。研究人员**提出了一个基于路径的GNN解释器用于异质链路预测** (PaGE-Link),**生成具有连接可解释性的解释,享有模型可扩展性,并处理图的异质性**。实验结果证明了其有效性。原创 2023-05-12 23:00:00 · 558 阅读 · 0 评论 -
【PaperReading】Defining functional distances over Gene Ontology
在试图定义蛋白质之间的功能关系时,一个基本的问题是很难量化功能相似性,即使已经存在有关蛋白质活动的结构良好的本体论(即"基因本体" -GO-)。然而,功能度量可以克服在比较和评估功能分配和预测时遇到的问题。作为接近度的参考,以往的比较GO术语的方法考虑到本体论中通过概率分布加权的链接,以平衡直接无环图不同部分的非均匀"丰富程度"。在这里,我们采用了一种不同的方法来量化GO术语之间的功能相似性。原创 2023-04-04 23:00:00 · 287 阅读 · 0 评论 -
【PaperReading】Permutation – based statistical tests for multiple hypotheses
Permutation – based statistical tests for multiple hypothesesAnyela Camargo,Francisco Azuaje,Haiying WangEmail author andHuiru ZhengSource Code for Biology and Medicine20083:15: https://doi.org/10...翻译 2019-01-25 16:38:04 · 902 阅读 · 0 评论 -
【PaperReading】The permutation testing approach: a review
The permutation testing approach: a reviewFortunato Pesarin, Luigi Salmaso摘要:近年来,permutation testing方法在应用数量和解决复杂的多变量问题方面都有所增加。传统的基于参数或基于秩的非参数方法也可以有效地解决大量的测试问题,尽管在相对温和的条件下,它们的permutation对应物通常渐近和最...翻译 2019-01-25 15:43:04 · 790 阅读 · 0 评论 -
【PaperReading】Prevalence and patterns of higher-order drug interactions in Escherichia coli
Prevalence and patterns of higher-order drug interactions inEscherichia coli大肠杆菌中高阶药物相互相互作用模式和普遍性Elif Tekin,Cynthia White,Tina Manzhu Kang,Nina Singh,Mauricio Cruz-Loya,Robert Damoiseaux,Va...原创 2018-12-30 19:19:15 · 1146 阅读 · 0 评论 -
【PaperReading】An improved incremental algorithm for mining weighted class-association rules
An improved incremental algorithm for mining weighted class-association rules挖掘加权类关联规则的一种改进增量算法B. SubbulakshmiRelated information1Department of Computer Science and Engineering, Thiagarajar Col...翻译 2019-01-24 18:09:27 · 352 阅读 · 1 评论 -
【PaperReading】空间分析方法在微生物生态学研究中的应用
空间分析方法在微生物生态学研究中的应用 The application of spatial analysis methods to microbial ecology 投稿时间:2009-08-18修订日期:2009-11-09 DOI: 关键词:微生物生态空间分析地统计空间自相关空间格局 Key Words:microbial ecologyspat...原创 2019-01-26 16:10:10 · 1343 阅读 · 1 评论 -
【PaperReading】Tools and Benchmarks for Automated Log Parsing
Tools and Benchmarks for Automated Log Parsing自动日志分析的工具和基准Jieming Zhu① , Shilin He② , Jinyang Liu③ , Pinjia He④ , Qi Xie⑤ , Zibin Zheng⑥ , Michael R. Lyu⑦①Huawei Noah’s Ark Lab, Shenzhen, China...翻译 2019-08-07 23:17:35 · 2790 阅读 · 4 评论 -
【PaperReading】System Log Analysis for Anomaly Detection
Experience Report: System Log Analysis for Anomaly Detection2016 IEEE 27th International Symposium on Software Reliability Engineering经验报告: 系统日志分析以检测异常Shilin He, Jieming Zhu, Pinjia He, and Mich...翻译 2019-08-09 00:14:02 · 2162 阅读 · 1 评论 -
【PaperReading】Detecting Large-Scale System Problems by Mining Console Logs
Detecting Large-Scale System Problems by Mining Console LogsFriday, August 9, 2019 9:14 AM通过挖掘控制台日志来检测大型系统的问题Wei Xu∗ Ling Huang† Armando Fox∗ David Patterson∗ Michael I. Jordan∗∗EECS Departmen...原创 2019-08-16 21:48:45 · 1931 阅读 · 0 评论 -
【知识图谱】一种可以从预训练语言模型中可扩展可解释地高效提取知识图谱的新框架
在这项工作中,研究团队提出了一个从语言模型自动抽取知识图谱的框架。它可以处理任意用户输入的关系,并且以高效和可扩展的方式进行知识抽取。在两组关系上构建了知识图谱,证明了语言模型不加以外界资源就已经是一个非常有效的知识来源。该框架还可以作为对于语言模型的符号解释,为分析语言模型的知识储备提供了工具。原创 2023-02-21 23:45:00 · 232 阅读 · 0 评论 -
【PaperShare】SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
华盛顿大学等机构联合发表一篇论文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》,提出的新框架**SELF-INSTRUCT通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力**。原创 2023-02-17 21:05:32 · 5738 阅读 · 0 评论 -
【PaperReading】OpenFE: Automated Feature Generation beyond Expert-level Performance
在本文中,我们介绍了`OpenFE`,这是一种自动特征生成工具,可提供与机器学习专家竞争的结果。OpenFE通过两个组件实现效率和准确性:1) 一种新颖的特征增强方法,用于准确估计候选特征的增量性能。 2)一个特征评分框架,用于通过连续的特征减半和特征重要性归因从大量候选者中检索有效特征。原创 2023-01-31 20:51:47 · 408 阅读 · 0 评论 -
【PaperReading】基于粪便微生物组的机器学习多类诊断模型
已有研究表明,肠道微生物群的不平衡即“菌群失调”,会导致各种人类疾病的出现。目前,微生物标志物的开发主要基于二元分类器法。新的研究结果显示,多数健康状况表现出重叠的肠道微生物组特征,单一疾病诊断模型可能会被不相关的疾病混淆,进而导致错误的分类。虽然人们开始尝试开发多类诊断模型,但先前依赖公共数据集进行分析的工作所涉及的异质性、技术偏差和批次效应限制了模型的准确性。原创 2023-01-27 17:22:29 · 578 阅读 · 0 评论 -
【图神经网络】Pytorch图神经网络库——PyG在线代码笔记和视频教程
这里准备了一份colab笔记本列表,它实际上介绍了图神经网络与PyG的世界原创 2022-12-25 12:00:00 · 1109 阅读 · 0 评论 -
【PaperReading】Computational network biology: Data, models, and applications
Computational network biology: Data, models, and applications计算网络生物学长文综述:数据、模型和应用1.网络结构与生物功能2.关键生物分子识别3.网络疾病4.基于药物-基因-疾病网络的药物研发展望与挑战计算网络生物学长文综述:数据、模型和应用论文地址:https://www.sciencedirect.com/science/article/pii/S0370157319304041生物网络是网络科学研究的重要方向,其相关研究伴随着网络原创 2021-10-31 07:00:00 · 1390 阅读 · 0 评论 -
【PaperReading】Identification of Key Genes With Differential Correlations in Lung Adenocarcinoma
利用the Cancer Genome Altas (TCGA) 中LUAD的表达式,基于加权基因共表达网络分析(Weighted gene co-expression network analysis, WGCNA)构建基因交互网络原创 2022-11-04 08:00:00 · 145 阅读 · 0 评论 -
【PaperReading】Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review
在过去的三十年里,打鼾(Snoring (affecting more than 30% adults of the UK population))在医学和工程学等跨学科研究领域得到了越来越多的研究。早期的研究工作表明,鼾声可以携带有关上呼吸道状态的重要信息,这有助于发展基于无创声学的诊断和筛查阻塞性睡眠呼吸暂停和其他睡眠障碍的方法。尽管如此,临床实践对于寻找方法定位鼾声的激发有更多的要求,而不仅仅是检测睡眠障碍。为了进一步开展相关的研究,并引起大家的重视,本文综述了从机器学习到自动分类鼾声的最新技术。原创 2022-11-03 08:00:00 · 188 阅读 · 0 评论 -
【PaperReading】情感人的互联网:通过视听信号实现跨文化的可持续情感计算
在本研究中,我们致力于将传统的孤立情感计算转换为终身学习模式,即持续情感计算,提供一些新的思路。作为音频和视频领域的第一个尝试性工作,我们在该基准工作中探索了弹性权重合并的终身学习算法,并将其在一个完美的跨文化场景中,即法语和德语情感识别。为了评估引入终身学习的可行性和有效性,我们在RECOLA和SEWA数据库中进行了广泛的实验。原创 2022-11-02 08:00:00 · 264 阅读 · 0 评论 -
【PaperReading】Robust Semi-supervised Generative Adversarial Networks for Speech Emotion Recognition
语音情感识别系统的性能在很大程度上依赖于可供训练的带标记数据量。然而,获取足够的带注释的数据是非常费时费力的,并且有时候由于隐私和道德而被禁止。为了解决这个问题,本文提出了一种半监督生成式对抗网络(SSGAN),用于从标记数据和非标记数据中获取潜在的知识。SSGAN是由GAN衍生而来的,但SSGAN的鉴别器不仅能区分其输入样本的真伪,还能区分输入样本的情感类别。因此,可以学习现实输入的分布情况,以鼓励在有标签和无标签数据之间共享标签信息。原创 2022-10-31 08:00:00 · 209 阅读 · 0 评论 -
【PaperReading】An autoregressive flow model for 3d molecular geometry generation from scratch
作者关注从头开始生成3D分子几何图形的问题。虽然目前已经开发了多种方法来生成分子图,但从零开始生成分子的三维几何结构问题并没有得到充分的探索。在这项工作中,作者提出了`G-SphreNet`,一种生成三维分子几何的自回归流模型。G-SphereNet采用了一种逐步将原子放置在三维空间上灵活的顺序生成方案,它并不直接生成三维坐标,而是通过生成距离、角度和扭转角来确定原子的三维位置,从而确保不变性和等变性。此外,作者建议使用球形信息传递和注意力机制进行条件信息提取。实验结果表明,G-SphreNet在随机分子几原创 2022-10-28 08:00:00 · 167 阅读 · 0 评论 -
【PaperReading】Spherical Message Passing for 3D Molecular Graphs
今天给大家介绍的是ICLR 2022 Poster的文章《Spherical Message Passing for 3D Molecular Graphs》。作者在此工作中考虑了三维分子图的表示学习,其中每个原子与三维的空间位置相关联。这是一个尚未得到充分探索的研究领域,目前还缺乏一个有效的信息传递框架。在这项工作中,作者在球坐标系(SCS)中进行了分析,以完整地识别三维图结构。基于此观察,作者提出了球形信息传递(SMP)作为一种新的和强大的三维分子学习方案。SMP显著降低了训练的复杂性,使其能够在大规模原创 2022-10-27 08:00:00 · 423 阅读 · 0 评论