算法
文章平均质量分 71
发呆的比目鱼
凡尔赛程序狗一枚,日常划水!! 目前专注于生物医学与计算机交叉学科。 承接各种学生作业,论文复现!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
deepchem教程--使用分裂器
deepchem教程--使用分裂器原创 2023-02-15 23:37:51 · 444 阅读 · 0 评论 -
点云配准算法--kabsch
点云配准算法--kabsch转载 2023-01-15 18:27:32 · 2967 阅读 · 0 评论 -
scipy--scipy.spatial.distance.cdist
Scipy distance原创 2023-01-14 13:51:13 · 1292 阅读 · 0 评论 -
超参数优化专题之工具—wandb/wandb(2)
超参数优化专题之工具转载 2022-08-28 14:52:27 · 4906 阅读 · 0 评论 -
超参数优化专题之工具—microsoft/nni(1)
超参数优化专题之工具—microsoft/nni(1)原创 2022-08-28 11:57:59 · 829 阅读 · 0 评论 -
神经网络语言模型(NNLM)
神经网络语言模型Paper: http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf本文算是训练语言模型的经典之作,Bengio 将神经网络引入语言模型的训练中,并得到了词向量这个副产物。词向量对后面深度学习在自然语言处理方面有很大的贡献,也是获取词的语义特征的有效方法。,为它准备一个文档Id,然后通过链表将文档当中的关键词串联起来。通过文档的ID去查询文档当中包含的关键词信息。我们先查到对应的文档,再去查其中的id,这是一个符合我们日常思维的查询,所以被认为是一个“正向查询”。如:“文档1”的ID >原创 2021-07-04 19:43:10 · 726 阅读 · 0 评论 -
Word2vec
Word2vecWord2vec是谷歌团队在2013年开源推出的一个专门用于获取词向量的工具包,其核心算法是对NNLM运算量最大的那部分进行了效率上的改进,让我们来一探究竟。代码import torchimport numpy as npimport torch.nn as nnimport torch.optim as optimimport matplotlib.pyplot as pltimport torch.utils.data as Datadtype = torch.Flo原创 2021-07-04 21:44:49 · 370 阅读 · 0 评论 -
spacy教程--基础
spacy教程–基础安装pip install spacy训练模型安装之后还要下载官方的训练模型, 不同的语言有不同的训练模型,这里只用对应中文的模型演示:python -m spacy download zh_core_web_sm代码中使用:import spacynlp = spacy.load("zh_core_web_sm")模型官方文档: https://spacy.io/models每种语言也会有几种不同的模型,例如中文的模型除了刚才下载的 zh_core_web_s转载 2022-05-25 23:34:20 · 1944 阅读 · 0 评论 -
词性标注教程
词性标注教程基本概念在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。序列标注指的是给定一个序列 ,找出序列中每个元素对应标签 的问题。其中,y 所有可能的取值集合称为标注集。比如,输入一个自然数序列,输出它们的奇偶性。求解序列标注问题的模型一般称为序列标注器,通常由模型从一个标注数据集中学习相关知识后再进行预测。在N原创 2022-05-25 17:53:45 · 3110 阅读 · 0 评论 -
依存句法分析
依存句法分析其中‘ROOT’,‘case’,‘det’,'nmod’等符号就是语法关系。目前国际公认的语法关系定义框架是Universal Dependencies (UD)。英语的通用语法原创 2022-05-25 17:31:40 · 2602 阅读 · 0 评论 -
稀疏格式储存
稀疏矩阵类别coo_matrixcsr_matrixcsc_matrixscipy.sparse.csr_matrix# 示例解读indptr = np.array([0, 2, 3, 6]) # 0->2 表示第一行有2-0=2个元素;2->3 表示第2行到第三行有1个元素indices = np.array([0, 2, 2, 0, 1, 2]) #结合第一行有2个元素,得出第一行的两个元素在第0,2列上data = np.array([1, 2, 3, 4, 5,转载 2021-07-14 16:29:48 · 161 阅读 · 0 评论 -
jieba基础
jieba基础分词# 精确模式 试图将语句最精确的切分,不存在冗余数据,适合做文本分析seg_str='上海自来水厂生产的自来水来自海上'jieba.lcut(seg_str)#全模式将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据jieba.lcut(seg_str,cut_all=True)# 搜索引擎模式:在精确模式的基础上,对长词再次进行切分jieba.lcut_for_search(seg_str)添加词语# 手动添加jieba.add_word(wor原创 2022-02-05 00:09:56 · 297 阅读 · 0 评论 -
Spacy教程-Matcher
Spacy教程Lexemes一个Lexeme实例是词汇表中的一个元素,是词汇表中和语境无关的元素;在词汇表中查找一个字符串或者一个哈希ID就可以获得一个lexeme;doc = nlp("我想喝咖啡")lexeme = nlp.vocab["咖啡"]print(lexeme.text, lexeme.orth, lexeme.is_alpha)lexeme实例中包含一个词和与语境无关的信息:词组的文本(lexeme.text, lexeme.orth)、词汇的属性(lexeme.is_alph原创 2022-03-30 15:36:22 · 1215 阅读 · 0 评论 -
Alias Sample-别名抽样
Alias Sample-别名抽样目的用空间换时间,降低采样的时间复杂度为O(1).前提是它需要预处理,预处理的时间复杂度为O(n)。但在大量反复抽样的情况下,是它的优势更突出。等概率分布和二项分布这两种模型中的抽样方法。我们知道等概率分布抽样的时间复杂度为O(1),考虑一种情况,如果四种情况A,B,C,D出现的概率均为0.25,我们用1代表A,2代表B,以此类推,那我们只需要在1~4里随机产生一个整数,抽中哪个就是哪个,复杂度自然为O(1),这是等概率分布抽样的情况。我们知道对符合二项分布的模型原创 2022-05-13 21:29:49 · 410 阅读 · 0 评论 -
张量工作流程
张量工作流程本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址本文将介绍如何使用 txtai 工作流有效处理张量的示例。安装依赖项安装txtai和所有依赖项。我们将安装 api、管道和工作流可选附加包,以及数据集包pip install txtai[api,pipeline,workflow] datasets转换大型张量数组import numpy as npimport torch#原创 2022-03-01 16:04:16 · 696 阅读 · 0 评论 -
DIET知识点
DIET知识点youtube Rasa系列视频DIET结构:模型的损失分成三个部分Intent Loss,意图分类损失:由于CLS是句子向量,所以拿它来与意图embedding来做点积,得到相似性,negative samples可以通过采样得到,如可以从候选意图库中,采样除了play_game的其它20个意图来作为negative意图,最后用熟悉的交叉熵来计算损失和反向传播。Entity Loss,实体抽取损失:每个token的transformer的输出会输入到CRF层,然后求真实实体序列和转载 2021-12-29 10:44:42 · 676 阅读 · 1 评论 -
使用可组合的工作流转换表格数据
使用可组合的工作流转换表格数据本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-24 01:04:57 · 577 阅读 · 0 评论 -
导出并运行其他机器学习模型
导出并运行其他机器学习模型本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-24 01:04:23 · 1222 阅读 · 0 评论 -
提取 QA 以构建结构化数据
提取 QA 以构建结构化数据本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-24 01:03:50 · 634 阅读 · 0 评论 -
训练 QA 模型
训练 QA 模型本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg原创 2021-12-24 01:03:13 · 1376 阅读 · 0 评论 -
使用 ONNX 导出和运行模型
使用 ONNX 导出和运行模型本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:14:05 · 3974 阅读 · 0 评论 -
无标签训练
无标签训练本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg原创 2021-12-23 13:13:18 · 844 阅读 · 0 评论 -
训练一个文本标签
训练一个文本标签本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:12:34 · 467 阅读 · 0 评论 -
分布式嵌入集群
分布式嵌入集群本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:11:32 · 535 阅读 · 0 评论 -
运行管道工作流
运行管道工作流本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:10:51 · 357 阅读 · 0 评论 -
图像相似度搜索
图像相似度搜索本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:09:52 · 1065 阅读 · 0 评论 -
在语言之间翻译文本
在语言之间翻译文本本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:09:02 · 337 阅读 · 0 评论 -
将音频转录为文本
将音频转录为文本本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:08:09 · 2375 阅读 · 1 评论 -
从文档中提取文本
从文档中提取文本本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址参考https://dev.to/neuml/tutorial-series-on-txtai-ibg...原创 2021-12-23 13:04:21 · 970 阅读 · 0 评论 -
构建抽象文本摘要
构建抽象文本摘要本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab抽象摘要使用自然语言处理 (NLP) 模型来构建文本的转换摘要。这类似于让一个人阅读一篇文章并询问它是关于什么的。人类不会只是冗长地阅读文本。本文展示了如何使用抽象摘要管道来摘要文本块。安装依赖安装txtai和所有依赖项。由于本文使用的是可选管道,因此我们需要安装管道 extras 包。pip install txtai[pipeline]原创 2021-12-23 13:02:11 · 395 阅读 · 0 评论 -
使用kenlm工具训练统计语言模型
使用kenlm工具训练统计语言模型一、背景统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。二、使用kenlm训练 n-gram工具主页:http://kheafield.com/code/kenlm/工具包的下载地址:http://kheafield.com/code/kenlm.tar.gz使用。该工具在linux环境下使用方便,windows下使用需要用c转载 2021-12-22 13:32:43 · 1585 阅读 · 3 评论 -
NLP 相关指标
NLP 相关指标Perplexity定义PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为NPP(S)=P(w1w2...wN)−1N=1p(w1w2...wN)N=∏i=0N1p(wi∣w1w2...wi−1)NPP(S) = P(w_1w_2...w_N)^{-\frac{1}{N}} \\ = \sqrt[N]{\frac{1}{p(w_1w_2...w_N)}} \\ = \sqrt[N]{\pr原创 2021-12-22 11:26:50 · 984 阅读 · 0 评论 -
txtai API 库
txtai API 库本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址txtai API 是由FastAPI支持的基于 Web 的服务。所有 txtai 功能,包括相似性搜索、提取 QA 和零样本标记都可以通过 API 获得。本文安装了 txtai API 并展示了一个使用 txtai 支持的每种语言绑定的示例。安装依赖安装txtai和所有依赖项。由于本文使用了API,我们需要安装api extra原创 2021-12-22 09:42:12 · 963 阅读 · 0 评论 -
使用零样本分类应用标签
使用零样本分类应用标签本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址本文中的示例使用文本片段的标签列表选择最匹配的标签。tldrstory具有使用 Streamlit、FastAPI 和 Hugging Face Transformers 的零样本分类系统的全栈实现。还有一篇Medium 文章描述了 tldrstory和零样本分类。安装依赖安装txtai和所有依赖项pip install txt原创 2021-12-22 09:16:00 · 515 阅读 · 0 评论 -
使用 Elasticsearch 进行抽取式 QA
使用 Elasticsearch 进行抽取式 QA本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址安装依赖安装txtai和Elasticsearch.# Install txtai and elasticsearch python clientpip install txtai elasticsearch# Download and extract elasticsearchwget http原创 2021-12-22 09:08:08 · 1511 阅读 · 0 评论 -
使用 txtai 进行抽取式 QA
使用 txtai 进行抽取式 QA本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab本文在之前介绍的基础上,扩展到构建提取式问答系统。安装依赖安装txtai和所有依赖项。pip install txtai创建 Embeddings 和 Extractor 实例Embeddings 实例是 txtai 的主要入口点。Embeddings 实例定义了用于标记文本段并将其转换为嵌入向量的方法。Extrac原创 2021-12-21 09:19:24 · 640 阅读 · 0 评论 -
将语义搜索添加到 Elasticsearch
将语义搜索添加到 Elasticsearch本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址在本文中,我们将采用第 2 部分中使用的相同 Hugging Face Dataset,在 Elasticsearch 中对其进行索引,并使用来自 txtai 的语义相似度函数对搜索结果进行排名。安装依赖安装txtai,datasets和Elasticsearch.# Install txtai, datas原创 2021-12-20 10:53:12 · 2391 阅读 · 0 评论 -
从数据源构建嵌入索引
从数据源构建嵌入索引本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab 地址对于现实世界的大规模用例,数据通常存储在数据库中(Elasticsearch、SQL、MongoDB、文件等)。在这里,我们将展示如何从 SQLite 中读取数据,构建由词嵌入支持的嵌入索引并针对生成的嵌入索引运行查询。此示例涵盖了paperai库中的功能。请参阅该库以获取可与下面讨论的数据集一起使用的完整解决方案。安装依赖安装tx原创 2021-12-19 20:22:02 · 766 阅读 · 0 评论 -
使用 Hugging Face 数据集构建 Embeddings 索引
使用 Hugging Face 数据集构建 Embeddings 索引本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。colab安装依赖pip install txtaipip install datasets在此示例中,我们将加载ag_news数据集,该数据集是新闻文章标题的集合。这只需要一行代码!接下来,txtai 将索引数据集的前 10,000 行。在 msmarco 上训练的模型用于计算句子嵌入。句子转原创 2021-12-18 23:14:34 · 5325 阅读 · 0 评论
分享