
自然语言处理
qxdoit
这个作者很懒,什么都没留下…
展开
-
自然语言处理--jieba使用
进行中文自然语言处理首先需要对文本进行分词。1.添加用户自定义词典(对专有名词等)import jiebajieba.load_userdict('drop.txt')seq_list = jieba.lcut('小明毕业于中国科学院大学,然后在哈佛大学深造,研究自然语言处理')print(seq_list)运行结果:2.关键词提取基于TF-IDF的关键词的提取lines = open('w...原创 2018-04-26 23:23:48 · 523 阅读 · 0 评论 -
bert-实体抽取
import tensorflow as tfimport numpy as npfrom bert import modelingfrom bert import tokenizationfrom bert import optimizationimport osimport pandas as pdflags = tf.flagsFLAGS = flags.FLAGS...原创 2019-07-12 11:44:30 · 2623 阅读 · 1 评论 -
tensorflow-并行输入训练数据-demo
1. 生成数据:import numpy as npfrom sklearn.datasets.samples_generator import make_classificationimport tensorflow as tfimport matplotlib.pyplot as pltimport osdef generate_data(data_num,data_dim)...原创 2019-07-06 17:39:03 · 444 阅读 · 0 评论 -
word2vec-回顾
1. skip-gramskip-gram 是用中心词预测上下文给每个词进行embedding 编码 ,inputs 为 [batch_szie] labels 为 [batch_size,context_len]nce_loss 负采样 用随机梯度下降更新梯度,负采样的选择的概率为按照每个词的频数大的选择概率大将一个正例和若干个负采样组成的负例,组合起来进行逻辑回归详细信息见...原创 2019-07-15 10:55:18 · 192 阅读 · 0 评论 -
bert-事件实体抽取-with_Predict
加入了predict 的代码,还可以提升准确率,没有解决对于 由于 bert 编码问题带来的 对应不到原句最大为512,数据都筛选过了import tensorflow as tfimport numpy as npfrom bert import modelingfrom bert import tokenizationfrom bert import optimization...原创 2019-07-13 13:56:07 · 3620 阅读 · 3 评论 -
BERT-tensorflow 示例代码-dense100
一页简单介绍代码:首先 pip install bert-tensorflow权重文件下载地址:href="https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip"import tensorflow as tfimport numpy as npfrom bert im...原创 2019-07-03 19:32:20 · 2338 阅读 · 4 评论 -
transformer-multihead 代码
import tensorflow as tfimport numpy as np''' inputs 是一个形如(batch_size,seq_len,word_dim) 的向量 函数返回 一个形如(batch_size,seq_len,position_size) 的位置向量'''def Position_Embedding(inputs,position_siz...原创 2019-07-02 17:24:56 · 657 阅读 · 0 评论 -
attention-对对联
import tensorflow as tfimport tensorflow.contrib.rnn as rnnimport tensorflow.contrib.seq2seq as seq2seqimport numpy as npimport osimport tqdmin_seq = []out_seq = []with open('train/in.txt',e...原创 2019-06-23 17:45:00 · 180 阅读 · 0 评论 -
crf 初步学习
1. 成对马尔可夫性 无向图里面任意没有边连接的节点 u,v 其他所有节点为o ,成对马尔可夫性是指: 给定 o 的条件下 u,v 条件独立2. 局部马尔可夫性设无向图 G 的任一节点v ,W是与v 有边连接的所有节点,o是v, W 外的其他所有节点,局部马尔可夫性是指,给定W的条件下,v, O 条件独立3. 全局马尔可夫性设节点集合 A,B,是在无向图 G ...原创 2019-07-01 19:29:25 · 150 阅读 · 0 评论 -
短文本分类的步骤和疑问
1.对于短文本分类问题,它的主要特点是词空间很大,如果用词袋模型表示,会产生高纬稀疏向量,这给运算带来麻烦2.短文本分类问题,它的 document 和 features 都很多,这也是文本分类问题共同的特点,短文本的短带来了稀疏,同时短文本也 有自己独特的特点,它有很明显的主谓宾结构,绝大多数情况下一句话就是一个document。3.通常的文本分类问题的步骤为: a...原创 2019-05-07 20:12:57 · 1231 阅读 · 0 评论 -
语音识别-前世
首先,对孤立词的识别,观察yes和no的波形,他们差异很大,现在再输入一个yes或no,即使是不同人说的,也能分辨出来说的是yes还是no,这是最基本的模板匹配法特征提取要对波形进行特征提取,舍弃不同人之间的差异,抓住词语音波形的本质。一帧信号通常为20-50毫秒,微观上足够长即包括几个周期,宏观上又要足够短即需要在一个音素以内(音素: y,e,s,n,o就是5个音素)对一...原创 2019-05-01 11:54:31 · 199 阅读 · 0 评论 -
自然语言处理--分词正向最大匹配,逆向最大匹配和双向最大匹配
逆向最大匹配词典word.txt南京南京市长江长江大桥大桥南京市长市长北京北京市长烤鸭南京烤鸭 逆向最大class IMM(object): def __init__(self,dic_path): #集合 self.dictionary = set() self.maximum = 0 ...原创 2018-10-15 22:22:13 · 2285 阅读 · 0 评论 -
crf-和softmax的qubie
1. 假设现在 一个输入有 n 帧, 每一帧有 k 个可能 softmax 是 将这个问题看作一个 n 个 k 分类问题 crf 则将这个问题看作是一个 k**n 问题从 k**n 条路径中选择一条最佳路径具体来说 ,在 CRF 序列标注问题中,为了得到从输入到每个预测标签的最大预测概率,为了得到这个概率的估计CRF 做了两个假设假设1, 该分布是指数分布其中 Z 是...原创 2019-07-17 22:52:38 · 1954 阅读 · 0 评论