
NLP应用/问答系统
文章平均质量分 82
NLP应用/问答系统
u013250861
这个作者很懒,什么都没留下…
展开
-
QA处理训练数据常见的4种方法
此外,字节级(Byte-level)BPE 通过将字节视为合并的基本符号,用来改善多语言语料库(例如包含非ASCII 字符的文本)的分词质量。GPT-2、BART 和LLaMA 等大语言模型都采用了这种分词方法。原始LLaMA 的词表大小是32K,并且主要根据英文进行训练,因此,很多汉字都没有直接出现在词表中,需要字节来支持所有的中文字符,由2 个或者3 个Byte Token 才能拼成一个完整的汉字。原创 2025-02-16 15:02:59 · 1007 阅读 · 0 评论 -
基于医疗知识图谱的问答系统
由于之前用Rasa构建过对话系统,因此一直想脱离Rasa这个开源框架,从底层开始构建一个可以实现相似功能的对话系统,毕竟框架用的再溜,都不如自己做一遍。恰巧在Rasa群里看到了 @王乐 前辈分享的一个项目:基于知识图谱的医疗诊断知识问答系统,先看了一遍视频,然后把代码下载下来,自己实现了一遍,遇到不懂得地方就再看视频,现在基本把这个项目搞明白了,写个总结分享一下,后期会在现有的基础上做一些横向拓展。由于前辈已经有了视频讲解(项目主页有视频链接),我的总结和分享尽量避开已有的讲解内容,避免重复。因此建议本文和原创 2023-05-25 01:02:16 · 3841 阅读 · 4 评论 -
基于FAQ的智能问答(一): Elasticsearch的调教
如果引入了IK分词器,会自动引入一个中文的词典:elasticsearch-analysis-ik/config/main.dic但是,这个词表还是有局限的。针对例子: "美甲上门服务", 以下是ik的分词结果美甲上门服务 的IK分词结果可以看到切出了一个很奇怪的词语: "甲上", 而最新的词的"美甲"是没有被正确切分的。所以检索“美甲”检索到的结果会很靠后,只有“美” 命中。同时“美甲”不能高亮显示。经查证:“甲上”确实是IK中自带的一个词IK的词典。原创 2023-05-21 23:55:32 · 518 阅读 · 2 评论 -
基于FAQ的智能问答(二): 召回篇
基于FAQ的智能问答本质是一个信息检索的问题,所以可以简单划分成:召回+精排 两个步骤。召回的目标是从知识库中快速的召回一小批与query相关的候选集。所以召回模型的评价方法,主要侧重于和两个方面。本文将分享我们召回模型的逐步迭代过程,从最基础的“ES字面召回”到 “ES字面召回和向量召回”的双路召回模式。原创 2023-05-21 23:55:31 · 587 阅读 · 0 评论 -
基于FAQ的智能问答(三): 精排篇
同时根据top1打分的不同,客户端执行不同的操作:(1) 如果top1的评分"很高",则直接将答案返回给用户 (2) 如果top1的评分"较高",则进行问题的推荐 (3) 如果top1的评分"较低",则提示无法回答。在上一篇中已经介绍了,给定一个用户的query如何从知识库中快速准确的召回一小批相关的问题,本篇将继续介绍如何对这一小批问题进行精排,最终构建出answer返回给用户。在模型的预测阶段,给定q与d,可直接计算出q与d的相似度。,从产品上是合适的。原创 2023-03-09 21:04:05 · 398 阅读 · 0 评论 -
知识图谱问答技术实践与探索
美团在平台服务的售前、售中、售后全链路的多个场景中都存在大量的咨询问题。我们基于问答系统,以自动智能回复或推荐回复的方式,来帮助商家提升回答用户问题的效率,同时更快地解决用户问题。本文结合KBQA在美团场景中的具体实践,以及发表在EMNLP2021上的论文,介绍了KBQA系统整体设计、难点突破以及端到端问答的探索,希望能对从事相关研究的同学有所帮助或者启发。...原创 2022-07-20 17:05:19 · 216 阅读 · 0 评论 -
智能问答(Question Answering)的主要研究方向
EMNLP2019]BiPaRABilingualParallelDatasetforMultilingualandCross-lingualReadingComprehensionNovels多语言和跨语言阅读理解小说的双语并行数据集。大多数研究关注于事实类问题,而非事实类问题的研究相对不足,包括数学类的问题、判断类的问题等。包括英法德等主流语言之间的研究,也包括特定于使用人数较少的语言的研究。比如可以将对答案的解释也作为训练数据的一部分,让模型学会解释。..................原创 2022-07-19 23:23:22 · 998 阅读 · 0 评论