
NLP
啊啊平
这个作者很懒,什么都没留下…
展开
-
python实现Bert文本分类
.# coding=utf-8# Copyright 2018 The Google AI Language Team Authors.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the L...原创 2019-11-15 11:54:00 · 5157 阅读 · 1 评论 -
Python之TensorFlow实现seq2seq自动文摘
简介这篇文章中我们将基于Tensorflow的Seq2Seq+Attention模型,介绍如何训练一个中文的自动生成新闻标题的模型。自动总结(Automatic Summarization)类型的模型一直是研究热点。 直接抽出重要的句子的抽取式方法较为简单,有如textrank之类的算法,而生成式(重新生成新句子)较为复杂,效果也不尽如人意。目前比较流行的Seq2Seq模型,由 Sutskeve...原创 2019-10-23 12:08:21 · 4763 阅读 · 0 评论 -
NLP之文本预处理
对于自然语言处理的话,预处理其实就是有那么几个固定的步骤:分词,英文的话全部转换为小写,去除标点符号,提取词干,出去不是英文的单词,出去特殊的符号,修正错别字。1.分词 (Tokenization)Token 是符号,包括了单词还有标点符号两种。 Tokenization 就是把一句话或者一段话分解成单个的单词和标点。比如 I like yourcat. 这句话分词之后就变成了 ['I...原创 2019-10-10 22:33:16 · 5560 阅读 · 1 评论 -
Python基于word2vec的词语相似度计算
词语相似度计算在商品搜索的过程中,可以计算用户输入的关键字与数据库中商品名间的相似度,在商品数据库中找出相似度最大的商品,推荐给用户。比如“凳子”跟“椅子”的语意更相近,跟“香蕉”或“冰箱”的语意相对较远,这种相近的程度就是词语的相似度。在实际的工程开发中可以通过word2vec实现词语相似度的计算。from sklearn.datasets import fetch_20newsgr...原创 2019-10-21 12:52:41 · 9843 阅读 · 0 评论 -
NLP常用算法及应用领域
1. 词法分析(分词、词性、实体):– 算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表– 应用:优酷、YunOS、蚂蚁金服、推荐算法、资讯搜索等2. 句法分析(依存句法分析、成分句法分析):– 算法:Shift-reduce,graph-based,Bi-LSTM– 新闻领域、商品评价、商品标题、搜索Query– 应用:资讯搜索、评价情感分析3. 情感分...原创 2019-10-20 11:48:14 · 6799 阅读 · 0 评论