- 博客(4)
- 收藏
- 关注
原创 机器学习笔记(4) -- 文本分类实例(20Newgroups数据集)
1. 问题定义在这个项目中会采用20Newgroups的数据,这是在网上非常流行的对文本进行分类和聚类的数据集。数据集中的数据分为两部分,一部分是用来训练算法模型的数据,一部分是用来评估算法的新数据。网上还提供了3个数据集,这里采用了20new-bydate这个数据集进行项目研究。这个数据集是按照日期进行排序的,并去掉了部分重复数据和header,共包含18846个文档。2.导入数据这里使用...
2019-08-21 15:01:33
5031
原创 机器学习笔记(3) -- Boston House Price数据集预测
Python机器学习项目模版1. 准备a) 导入类库b) 导入数据集2. 概述数据a) 描述性统计b) 数据可视化3. 预处理数据a) 数据清洗b) 特征选择c) 数据转换4. 评估算法a) 分离数据集b) 评估选项和评估矩阵c) 算法审查d) 算法比较5. 提高模型准确度a) 算法调参b) 集成算法6. 序列化模型a) 预测评估数据集b) 利用整个数据集...
2019-08-19 17:11:21
3770
1
原创 机器学习笔记(2) -- 逻辑回归简单实现Kaggle泰坦尼克预测
预测Titanic乘客逃生1、关于KaggleKaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广...
2019-08-16 15:14:49
682
原创 机器学习笔记(1) -- 逻辑回归(Logistic Regression)
1、描述逻辑(Logistic)回归是分类算法中最基础也是最重要的手段,因此,掌握其内在原理是非常必要的。逻辑回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分问题(即结果要么是0,要么是1)。2、初识逻辑回归是在线性回归的基础上,将线性模型通过一个函数,转化为结果只有0/1的分类模型。其建模过程与线性回归相似:①寻找预测函数②构造代价函数③使得代价函数最小并求得回归参...
2019-08-16 14:26:35
478
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人