起源是师兄叫着参加Sogou的用户画像比赛。过程中师兄比较忙,所以就自己试着摸索了一下。这也是第一次参加数据挖掘的比赛。所以记录一下,勉励自己更加努力才行。
LDA主题模型+决策树
1、LDA主题模型
- 文本预处理(编码问题烦死了)
- 结巴分词(去停用词)
- 大文本处理(内存8G直接跑到内存溢出,让我哭一会儿)
- gensim中关于主题模型函数讲解
2、决策树
- 决策树生成
- 对于连续数的处理
- 返回结果的问题
- 如何实现一棵方便的决策树API
Sogou用户画像赛初体验
本文记录了作者首次参与Sogou用户画像数据挖掘比赛的经历,详细介绍了使用LDA主题模型进行文本预处理及分词的过程,并探讨了如何通过决策树进行结果预测的方法。
起源是师兄叫着参加Sogou的用户画像比赛。过程中师兄比较忙,所以就自己试着摸索了一下。这也是第一次参加数据挖掘的比赛。所以记录一下,勉励自己更加努力才行。
1239
1492

被折叠的 条评论
为什么被折叠?