1. 用户画像
①由用户在搜索引擎输入的搜索内容推测用户的年龄、性别、学历,是一个有代码的案例,涉及:
* 编码方式的转换,gb18030 utf8 gbk等转换,转换中涉及参数error = 'ignore'可以保证转化的顺畅
* 搜索内容的从一个句子变成词,使用jieba这个包
* 词性过滤,数据检验
* word2vec 用于将字符变成数字
* 如何将数据记录变成可以输入给训练模型。可以采用平均向量,tfidf,主题模型等很多选择
* 训练模型 决策树,逻辑回归, SVM等
* 集成学习 也叫堆叠模型。 就是将训练分为2个阶段,第一阶段 决策树,逻辑回归, SVM等训练出来的pred作为第二阶段的特征继续训练处一个新的模型。