收集各话题的学习资料

本文介绍了一种通过搜索引擎输入内容推测用户年龄、性别、学历的方法,包括编码方式转换、jieba分词、词性过滤、word2vec应用、数据准备及模型训练等步骤,探讨了决策树、逻辑回归、SVM等算法的应用,并介绍了集成学习的概念。

1. 用户画像   

由用户在搜索引擎输入的搜索内容推测用户的年龄、性别、学历,是一个有代码的案例,涉及:

           *  编码方式的转换,gb18030 utf8  gbk等转换,转换中涉及参数error = 'ignore'可以保证转化的顺畅

           *  搜索内容的从一个句子变成词,使用jieba这个包

           *  词性过滤,数据检验

           *  word2vec  用于将字符变成数字

           *  如何将数据记录变成可以输入给训练模型。可以采用平均向量,tfidf,主题模型等很多选择

           *  训练模型    决策树,逻辑回归, SVM等

           *  集成学习   也叫堆叠模型。  就是将训练分为2个阶段,第一阶段  决策树,逻辑回归, SVM等训练出来的pred作为第二阶段的特征继续训练处一个新的模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值