
自然语言处理相关
人工智能小白菜
如果对博客或者博客中的程序有疑问欢迎和我一起探讨,微信:799330288
展开
-
单词和字符的onehot编码
直接看代码即可,代码注释还是比较详细的。 1、单词级的 one-hot 编码 import numpy as np samples = ['the cat sat on the mat.','the dog ate my homework','the chicken is delicious'] token_index = {} # 单词和索引组成的字典 for sample in sample...原创 2019-01-21 17:55:10 · 2373 阅读 · 0 评论 -
用gensim做word2vec词向量
如果词的文件太大,考虑用迭代器来进行一部分一部分地输入。 如果词的文件存在数据库中,可以用迭代器来一行一行地进行输入。 如果词存在一个dataframe中,可以用迭代器来把dataframe每一行输入。 例子如下,只是为了示范使用方法,语料随便挑的,太少了,一般不会这样: import gensim import pandas as pd text = [["双方", "要", "持续", "深...原创 2019-04-29 21:57:44 · 674 阅读 · 0 评论 -
分词器keras.preprocessing.text.Tokenizer的使用
下面例子的文本输入texts可以是一个list类型,也可以是一个series类型(所以可以也可以用dataframe的某一列), import tensorflow as tf texts = ["你好 我好 你好 你好 你好 我们 大家 都 好 吗 吗 吗 吗 吗", "分词器 训练 文档 训练 文档 文档 你好 我好"] tokenizer = tf.contrib.keras.prepro...原创 2019-04-29 22:00:17 · 5187 阅读 · 0 评论