
自然语言处理(NLP)
zhshmi1995
从一无所知,到所知甚少,再到积少成多,最后到多知而有所精通
展开
-
R语言 gsub处理文本数据中的特殊符号(' | ',空格等)
我要处理一些文本数据,数据格式如下:idcontentcategory1”ab*c()dfhjk?k“1|3|5数据文件为1.csv,首先读取数据文件,然后处理第二列数据和第三列数据。将第二列所有特殊符号删除,将第三列的|转换成空格,然后保存文件:// An highlighted block// [^[:alnum:]///' ]能搞定大部分特殊符号,搞不定...原创 2019-06-09 17:17:15 · 15795 阅读 · 1 评论 -
logistic Regression+doc2vec实现多标签(multi_label)分类
1.导入需要的各种模块from sklearn.linear_model import LogisticRegressionfrom tqdm import tqdmimport gensimfrom sklearn.preprocessing import MultiLabelBinarizerfrom sklearn.multiclass import OneVsRestClassi...原创 2019-06-25 11:11:36 · 902 阅读 · 0 评论 -
利用pytorch_pretrained_bert得到wordEmbedding (batch_size,1024),保存为稀疏矩阵sparse.dok_matrix( )
1.注意本方法只适用于保存2维embedding因为直接将完整的Bert加入到其他模型中,训练时会出现内存不够用的情况,考虑将通过Bert得到的Embedding保存为文件,再在其他模型中导入使用,试过很多保存的方法(numpy.savetxt等),都不成功,最后采用稀疏矩阵sparse.dok_matrix的方式保存wordEmbdedding,然后利用toarray()方法转换为矩阵形式,发...原创 2019-07-16 11:47:53 · 3212 阅读 · 1 评论