
聊天机器人
文章平均质量分 75
利炳根
敲代码、学日语,不做任何付费咨询
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
学习笔记CB001:NLTK库、语料库、词概率、双连词、词典
聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测。NLTK库安装,pip install nltk 。执行python。下载书籍,import nltk,nltk.download(),选择book,点Download。下载完,加载书籍,from nltk.book import ...原创 2018-02-12 06:39:58 · 963 阅读 · 0 评论 -
学习笔记CB013: TensorFlow、TensorBoard、seq2seq
tensorflow基于图结构深度学习框架,内部通过session实现图和计算内核交互。tensorflow基本数学运算用法。import tensorflow as tfsess = tf.Session()a = tf.placeholder("float")b = tf.placeholder("float")c = tf.constant(6.0)d = tf.mul(a...原创 2018-05-05 13:00:45 · 436 阅读 · 0 评论 -
学习笔记CB011:lucene搜索引擎库、IKAnalyzer中文切词工具、检索服务、查询索引、导流、word2vec
影视剧字幕聊天语料库特点,把影视剧说话内容一句一句以回车换行罗列三千多万条中国话,相邻第二句很可能是第一句最好回答。一个问句有很多种回答,可以根据相关程度以及历史聊天记录所有回答排序,找到最优,是一个搜索排序过程。 lucene+ik。lucene开源免费搜索引擎库,java语言开发。ik IKAnalyzer,开源中文切词工具。语料库切词建索引,文本搜索做文本相关性检索,把下一句取出作答案候...原创 2018-04-21 09:18:41 · 487 阅读 · 0 评论 -
学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人
真正掌握一种算法,最实际的方法,完全手写出来。LSTM(Long Short Tem Memory)特殊递归神经网络,神经元保存历史记忆,解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。用途:word representation(embedding)(词语向量)、sequence to sequence learning(输入句子预测句子)、机器翻译、语音识别等。10...原创 2018-05-01 14:12:59 · 1344 阅读 · 0 评论 -
学习笔记CB005:关键词、语料提取
关键词提取。pynlpir库实现关键词提取。# coding:utf-8import sysimport importlibimportlib.reload(sys)import pynlpirpynlpir.open()s = '怎么才能把电脑里的垃圾文件删除'key_words = pynlpir.get_key_words(s, weighted=True)for...原创 2018-03-06 10:01:33 · 289 阅读 · 0 评论 -
学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、word2vec
人工神经网络,借鉴生物神经网络工作原理数学模型。由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息。信息检索领域,模型训练合理排序模型,输入特征,文档质量、文档点击历史、文档前链数目、文档锚文本信息,为找特征隐藏信息,隐藏层神经元数目设置少于输入特征数目,经大量样本训练能还原原始特征模型,相当用少于输入特征数目信息还原全部特征,压缩,可发现某些特征之间存在隐含相关性,或...原创 2018-03-13 09:02:22 · 598 阅读 · 0 评论 -
学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF
词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。有监督词义消歧方法。基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧。来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信...原创 2018-03-12 00:46:19 · 1863 阅读 · 0 评论 -
学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体。概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标记序列Y概率,指数函数 exp(∑λt+∑μs)。符合最大熵原理。基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注大规模语料库训练。命名实体的放射性。命名实体的前后词。特征模板,当前位置前后n个位置字/词...原创 2018-03-11 14:46:44 · 823 阅读 · 0 评论 -
学习笔记CB004:提问、检索、回答、NLPIR
聊天机器人,提问、检索、回答。提问,查询关键词生成、答案类型确定、句法和语义分析。查询关键词生成,提问提取关键词,中心词关联扩展词。答案类型确定,确定提问类型。句法和语义分析,问题深层含义剖析。检索,搜索,根据查询关键词信息检索,返回句子或段落。答案抽取,分析和推理检索句子或段落,抽取提问一致实体,根据概率最大对候选答案排序。海量文本知识表示,网络文本资源获取、机器学习方法、大规模语义计算...原创 2018-02-24 13:44:24 · 306 阅读 · 0 评论 -
学习笔记CB006:依存句法、LTP、N-最短路径分词法、由字构词分词法
依存句法分析,法国语言学家L.Tesniere1959年提出。句法,句子规则,句子成分组织规则。依存句法,成分间依赖关系。依赖,没有A,B存在错误。语义,句子含义。依存句法强调介词、助词划分作用,语义依存注重实词间逻辑关系。依存句法随字面词语变化不同,语义依存不同字面词语可同一意思,句法结构不同句子语义关系可相同。依存句法分析和语义分析结合,计算机理解句子含义,匹配到最合适回答,通过置信度匹配...原创 2018-03-09 21:50:45 · 1222 阅读 · 0 评论 -
学习笔记CB003:分块、标记、关系抽取、文法特征结构
分块,根据句子的词和词性,按照规则组织合分块,分块代表实体。常见实体,组织、人员、地点、日期、时间。名词短语分块(NP-chunking),通过词性标记、规则识别,通过机器学习方法识别。介词短语(PP)、动词短语(VP)、句子(S)。分块标记,IOB标记,I(inside,内部)、O(outside,外部)、B(begin,开始)。树结构存储分块。多级分块,多重分块方法。级联分块。关系抽取...原创 2018-02-14 14:18:45 · 397 阅读 · 0 评论 -
学习笔记CB002:词干提取、词性标注、中文切词、文档分类
英文词干提取器,import nltk,porter = nltk.PorterStemmer(),porter.stem(‘lying’) 。词性标注器,pos_tag处理词序列,根据句子动态判断,import nltk,text = nltk.word_tokenize(“And now for something completely different”),nltk.pos_tag(t...原创 2018-02-13 13:21:34 · 400 阅读 · 0 评论 -
学习笔记CB014:TensorFlow seq2seq模型步步进阶
神经网络。《Make Your Own Neural Network》,用非常通俗易懂描述讲解人工神经网络原理用代码实现,试验效果非常好。循环神经网络和LSTM。Christopher Olah http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 。seq2seq模型基于循环神经网络序列到序列模型,语言翻译、自动问答等序列到序...原创 2018-05-05 23:12:44 · 471 阅读 · 0 评论