
工具使用
chnhbhndchngn
这个作者很懒,什么都没留下…
展开
-
keras 2.0.0 的“取长补短“功能 one-hot编码
keras的处理文本数据的取长补短功能 from keras.preprocessing.sequence import pad_sequences # # help(pad_sequences) # pad_sequences(sequences, maxlen=None, # dtype='int32', padding='pre', # truncating='pre', value=0.0) x = [[1, 2, 3], [4,原创 2020-07-22 18:59:11 · 211 阅读 · 0 评论 -
使用 gensim 训练词向量
第一种情况 直接将文件传入 文件内容应该是有空格或 其他风格符 分割好的 import gensim sentences = gensim.models.word2vec.Text8Corpus("corpus_cut.txt") print("sentences格式:", sentences) # 训练 skip-gram 模型 model = gensim.models.Word2Vec(sentences, size=5, min_count=2, window=3,原创 2020-07-22 18:02:48 · 704 阅读 · 0 评论 -
结巴jieba分词器的各种用法
import jieba jieba.__version__ # 默认模式就是精确模式 # 默认参数(sentence, cut_all=False, HMM=True, use_paddle=False) seg_list = jieba.cut("我来到北京清华大学") print(list(seg_list)) # 全模式 seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print(list(seg_list)) # 搜索引.原创 2020-07-21 12:35:47 · 1333 阅读 · 0 评论