_沧海桑田_
ACL/NAACL/EMNLP/COLING审稿人,
MOD大侠梦/MOD禾下霸业作者。
github.com/guotong1988
展开
-
纯规则的搜索的排序
根据搜索词(query)的关键词完全匹配doc中的关键词,召回/搜到 多个文本结果,之后。可以设计一个可加和的基于规则的公式,多个规则加和得到排序分数,原创 2024-12-13 19:52:22 · 52 阅读 · 0 评论 -
纯规则的文本匹配
会造成解了这个badcase,出了另一个badcase的情况!针对几个badcase在那改规则,就是XJBG。对于每条数据,4个特征都是有默认值的;对于每条数据,4个特征明显是可加和的;如果要计算两文本匹配的规则匹配分数。原创 2024-12-13 17:25:10 · 83 阅读 · 0 评论 -
思维链CoT / 检索增强生成RAG,来调用ChatGPT,有效的原因
prompt相当于模型的输入的特征。自己训练一个模型,也是希望特征在正确的前提下越多越好。在prompt本身正确的前提下,肯定是prompt输入越多,ChatGPT回复的越准,原创 2024-10-07 11:34:26 · 108 阅读 · 0 评论 -
GPT4 > 搜索引擎,如同 向量召回(做得好的话) > BM25文本召回
所以向量召回的结果起码会是BM25文本召回的补充。向量召回(做得好的话)的结果是。BM25文本召回的结果是。原创 2024-07-24 14:24:53 · 102 阅读 · 0 评论 -
多国语言的词根提取
下载libstemmer-java(https://download.youkuaiyun.com/download/guotong1988/89574039)解压,把整个目录放到IDE里。原创 2024-07-24 11:36:23 · 84 阅读 · 0 评论 -
【NLP】提升文本生成多样性的实用方法
可以每训练3个epoch保存一个模型参数,最终可保存5个模型参数,预测时5个模型结果分别 对同样的输入文本 各预测一次,如果只有几千条fine-tune数据,实测可提升50%的多样生成结果。原创 2024-07-22 11:09:37 · 322 阅读 · 0 评论 -
使用Stanford-CoreNLP命令行进行分词
建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java。接上文 https://blog.youkuaiyun.com/guotong1988/article/details/136652691。原创 2024-05-29 17:45:17 · 211 阅读 · 0 评论 -
命令行跑stanford-corenlp
在 https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip。在 https://stanfordnlp.github.io/CoreNLP/human-languages.html。下载model的jar。也放到解压后的文件夹里。原创 2024-03-12 15:03:02 · 272 阅读 · 0 评论 -
Lucene 自定义词库
【代码】Lucene 自定义词库。原创 2024-03-11 10:00:40 · 366 阅读 · 0 评论 -
Lucene 分词 示例代码
【代码】Lucene 分词。原创 2024-03-11 09:44:54 · 239 阅读 · 0 评论 -
AutoModelForSequenceClassification 数据预处理和模型初始化
【代码】AutoModelForSequenceClassification 数据预处理和模型初始化。原创 2023-07-31 16:11:21 · 600 阅读 · 0 评论 -
文本生成,数据质量 比 数据数量 重要
商品-描述 作为 输入-输出,数据集大小1500W,人工评估 模型预测新商品的描述 的可用率90%商品-描述 作为 输入-输出,数据集大小20W,人工评估 模型预测新商品的描述 的可用率93.5%任务是商品描述生成,模型为encoder-decoder transformer。原创 2023-07-23 09:26:12 · 123 阅读 · 0 评论 -
减少歧义数据的原则,同样适用于文本生成任务
因为实际应用时,其实我们不在乎 生成多样性 问题,因为 多样性高 不如 结果准确,如果我们认为下面情况里。类似我们也基于统计,保留出 无歧义 的用户行为,作为训练数据集,比如用户的 搜索-订单 行为,无论文案结果对不对,但真正应用时,模型也是需要一个 无歧义 的训练数据集,类似我们也可让 同一条数据 给 多个人标注,然后选择“投票”最高的结果,我们基于统计,可以得到做到这点,比如让ChatGPT多次生成。广义来讲,任何机器学习任务都可看成分类任务,如果数据中出现这样歧义的情况,则模型预测。原创 2023-07-03 12:31:49 · 737 阅读 · 0 评论 -
文本生成过拟合,泛化时语句不通!文本生成欠拟合,泛化时多样性差!
随着train-loss降低,对测试集生成的多样性确实会提升,但语句不通率也在提升。必须关注dev-loss!文本生成模型的过拟合,会导致泛化时语句不通!文本生成模型的欠拟合,会导致泛化时多样性差!原创 2023-06-21 12:02:17 · 208 阅读 · 0 评论 -
用decoder-only的GPT做Conditional Generation不如encoder-decoder的T5
比如word-to-text的生成任务,GPT要把word padding到相同的长度,还需要设定word末尾的EOS(end-of-sentence),而T5不需要padding,也不需要加EOS,也没有上述attention_mask的要注意的问题。另外,GPT的输入加了padding,使输入和输出距离更远了。attention_mask得处理正确,详见。原创 2023-06-20 09:59:30 · 605 阅读 · 0 评论 -
文本生成 语句不通 解决
然后过滤掉所有模型生成句子里的2-gram或3-gram出现次数低的句子。有优质句子库的情况下,比如训练数据集就是优质句子库,{你好,10000次}{大家,9000次}{我们,8000次}{一起,7000次}{世界,7000次}{和平,6000次}原创 2023-06-10 16:57:37 · 101 阅读 · 0 评论 -
文本生成badcase高效解决
根据 https://blog.youkuaiyun.com/guotong1988/article/details/130850249。人工标注置信度分数最低的那一批生成结果的badcase关键词,作为黑名单过滤。置信度分数最低的那些生成结果确实badcase率很高!我们可以输出生成文本的置信度分数,原创 2023-06-02 09:14:00 · 231 阅读 · 0 评论 -
huggingface/transformers 文本生成模型,输出置信度分值
以上摘自 https://discuss.huggingface.co/t/generation-probabilities-how-to-compute-probabilities-of-output-scores-for-gpt2/3175。原创 2023-05-24 16:37:32 · 406 阅读 · 0 评论 -
文本匹配任务,一个问题其实是 还需要构造负例
文本生成任务,不存在 还需要构造负例 的问题,有生成的target即可训练。解决方法,场景允许,可以转成 文本生成 任务 看能否得到等同效果,负例要合理覆盖很大范围,原创 2023-05-22 16:09:47 · 128 阅读 · 0 评论 -
文本生成,随着loss降低,生成多样性是在提升的
训练后期,loss不再降低,说明生成的结果多样性 已经接近 训练数据的多样性。在训练数据本身多样性足够的情况下,训练中期,生成的结果多样性提升,训练初期,生成的结果都雷同,原创 2023-05-10 11:27:42 · 163 阅读 · 0 评论 -
GPT文本生成,训练数据中有同一个prompt对应两个response,会怎样(下)
所以,造成上面 类似分类问题里的(存在一个输入对应两个类的)歧义问题,这种情况,就是看两种response的重复次数了,重复次数就等于learning-rate。原创 2023-05-06 18:43:55 · 264 阅读 · 0 评论 -
GPT文本生成,训练数据中有同一个prompt对应两个response,会怎样(上)
所以对prompt-response-pair去重,不会造成分类问题里的(存在一个输入对应两个类的)歧义问题。原创 2023-04-24 08:56:17 · 253 阅读 · 0 评论 -
ChatGPT的Reward模块的替代方案
因为本质我们需要的是优质的text-generation格式的数据而已。原创 2023-04-07 09:17:53 · 696 阅读 · 0 评论 -
基于单词生成句子的重要trick——padding和truncation
如果不加padding和truncation处理的话,在keywords的长度不同的情况下,预测的时候,会出现生成结果也是keywords里的一部分的情况,truncation(舍弃长度多出的token)到相同的长度。padding(补齐)到相同的长度。原创 2023-03-24 12:02:47 · 187 阅读 · 0 评论 -
huggingface/transformers的tokenizer的padding参数 代码示例
【代码】huggingface/transformers的tokenizer的padding参数 代码示例。原创 2023-03-23 15:53:09 · 383 阅读 · 0 评论 -
GPT-4 / ChatGPT 解读3---没有前置的任务分类模型
意图分类‘内置’在prompt里了。原创 2023-03-17 15:26:35 · 395 阅读 · 1 评论 -
decoder-only transformer可以实现pre-train和fine-tune的一致性
LLM(large language model)原创 2023-03-10 15:12:19 · 364 阅读 · 0 评论 -
从零构建ChatGPT
从零构建ChatGPT原创 2023-02-06 09:43:03 · 512 阅读 · 0 评论 -
知识图谱 论文
基于张量分解的知识图谱表示学习: Large-scale factorization of type-constrained multi-relational data Querying factorized probabilistic triple databases Logistic tensor factorization for multi-relational data Reduc原创 2016-07-03 20:52:50 · 5467 阅读 · 1 评论 -
TensorLog体系
有三元组 [ E2 , R1 , E1 ] [ E1 , R2 , E2 ] 即 R1 为 E2 -> E1 (E2推理出E1) R2 为 E1 -> E2 (E1推理出E2)TensorLog体系表示为 实体的表示 E1为one-hot向量[1,0] E2为one-hot向量[0,1]关系的表示,是矩阵的横轴纵轴都是实体,也就是一个len(E)×len(E)的...原创 2018-03-21 14:26:33 · 1251 阅读 · 0 评论 -
GraphSage 代码阅读笔记
relation也就是边 没有embeddingsupervised_train.py 是用节点分类的label来做loss训练,不能输出节点embeddingunsupervised_train.py 是用节点和节点的邻接信息做loss训练,训练好可以输出节点embedding...原创 2019-11-19 12:07:53 · 1274 阅读 · 0 评论 -
GNN graph neural network 最早的论文
A New Model for Learning in Graph Domainshttps://www.researchgate.net/profile/Franco_Scarselli/publication/4202380_A_new_model_for_earning_in_raph_domains/links/0c9605188cd580504f000000.pdf原创 2018-09-11 17:09:54 · 3162 阅读 · 2 评论 -
Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information
最近,随着深度学习的发展,基于神经网络的方法被用于 基于知识图谱的问答 的任务,和之前的方法不同,基于神经网络的方法将问题和答案表示为语义向量,之后 基于知识图谱的问答 就转变成一个在 问题的语义向量 和 候选答案的语义向量 之间的相似度匹配问题,有最高匹配度的答案就是最终答案。(感觉这里既然NN将Q向量map到A向量,那么求Q和A'之间的相似度也就是求A和A'之间相似度)在 基于神经网络的方法,关翻译 2016-11-08 12:00:54 · 1536 阅读 · 0 评论 -
GCN graph convolutional networks 详解
首先要充分了解卷积: 然后再看graph上 图摘自 https://download.youkuaiyun.com/download/guotong1988/10635690原创 2018-09-11 16:36:44 · 7529 阅读 · 2 评论 -
KBQA 几大类方法 以及 最早的几篇文章
Information Extraction大类方法Information extraction over structured data: Question answering with freebase.该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到...转载 2018-03-09 15:32:37 · 3379 阅读 · 0 评论 -
networkx调用matplotlib在mac的pycharm里draw的时候一显示就消失
import dgldef build_karate_club_graph(): g = dgl.DGLGraph() # add 34 nodes into the graph; nodes are labeled from 0~33 g.add_nodes(34) # all 78 edges as a list of tuples edge_lis...原创 2019-11-18 10:57:10 · 1060 阅读 · 0 评论 -
GNN paper read roadmap
嗯原创 2018-09-12 14:37:09 · 527 阅读 · 0 评论 -
sparql常用查询语句总结
1 isql 命令ttl数据导入DB.DBA.TTLP_MT(file_to_string_output('/usr/local/share/virtuoso/data/testly2.ttl'),'','http://test2.com');2 virtuoso导入的图数据删除SPARQL CLEAR GRAPH <http://test2.com>;3为操作...原创 2018-02-28 10:30:30 · 13106 阅读 · 0 评论 -
TransE的理解
github.com/thunlp/OpenKE先看下train2id.txt,大概是这样子:253 3643 35438 10640 9436 13172 188484 35 17406 3869 386039 6038 3845771 8658 507111 683 107293 9471 614312 2557 382就只有head tail relatio...原创 2018-02-26 15:28:30 · 5706 阅读 · 6 评论 -
知识图谱的库
语言知识图谱:WordNet事实性知识图谱:OpenCyc , Freebase , DBpedia , YAGO2领域知识图谱: 人物之间的亲属关系Kinships, 医学领域UMLS, Cora机器自动构建的知识图谱: Knowledge Vault NELL原创 2016-07-03 20:24:11 · 2453 阅读 · 2 评论