python
ZesenChen
机器学习研究生在读,研究方向为多标记学习,github主页为:https://github.com/ZesenChen
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scipy.sparse模块解决稀疏矩阵的存储问题
最近在做腾讯算法广告大赛,样本数高达1100多W,这个时候用numpy矩阵存储特征向量会出现memory error,而且特征本身是稀疏的,也就是大部分元素都为0。查了一些资料后发现scipy库中的sparse模块能很好的解决这个问题,先附上scipy.sparse的文档网址:https://docs.scipy.org/doc/scipy/reference/sparse.html。 ...原创 2018-04-22 16:03:06 · 8086 阅读 · 0 评论 -
利用CNN模型进行NLP文本分类
前言 这段时间在做kaggle的一个NLP比赛,虽然刚做不久但看了一些kernel和discussion后收获颇多,打算写几篇博客记录一下方便自己后面复习。 文本特征提取 文本作为一种长度不相同的数据,要作为模型的输入需要进行一定的处理。简而言之就是想办法让它们的长度一致。**keras.preprocessing.text中有Tokenizer模块,可以帮助你把英文句子转换成数值序列,再用pad...原创 2018-11-22 22:29:39 · 1930 阅读 · 0 评论
分享