仅仅是自己学习的小记录,可能会和大佬的有出入,有错误欢迎指出~~
1. 获取数据
根据需求可以爬虫,还有一些在kaggle网站上可以下载,之前又做过相关获取数据的项目,是从kaggle上面下载的,很方便。
用Python爬虫,python自带有urllib以及urllib2等库可以使用
2. 数据处理
2.1 二值化
eg. 例如数据中有一个属性是是否及格,属性的值在未处理前是“及格”、“不及格”。二值化可以将及格置为1,不及格置为0。
2.2 分箱
分箱是按照某种规则将数据分类。比如连续的身高属性,可以分类成(-∞, 155], (155, 165], (165, 175], (175, 185], (185 ,+∞)。
2.3 one-hot
参考:https://www.cnblogs.com/lianyingteng/p/7755545.html
2.4 tf-idf
3. 选择算法
4. 模型评估
参考:
[1]. https://blog.youkuaiyun.com/juliarjuliar/article/details/81062191