- 博客(4)
- 收藏
- 关注
原创 机器学习笔记(4) -- 文本分类实例(20Newgroups数据集)
1. 问题定义 在这个项目中会采用20Newgroups的数据,这是在网上非常流行的对文本进行分类和聚类的数据集。数据集中的数据分为两部分,一部分是用来训练算法模型的数据,一部分是用来评估算法的新数据。网上还提供了3个数据集,这里采用了20new-bydate这个数据集进行项目研究。这个数据集是按照日期进行排序的,并去掉了部分重复数据和header,共包含18846个文档。 2.导入数据 这里使用...
2019-08-21 15:01:33
5203
原创 机器学习笔记(3) -- Boston House Price数据集预测
Python机器学习项目模版 1. 准备 a) 导入类库 b) 导入数据集 2. 概述数据 a) 描述性统计 b) 数据可视化 3. 预处理数据 a) 数据清洗 b) 特征选择 c) 数据转换 4. 评估算法 a) 分离数据集 b) 评估选项和评估矩阵 c) 算法审查 d) 算法比较 5. 提高模型准确度 a) 算法调参 b) 集成算法 6. 序列化模型 a) 预测评估数据集 b) 利用整个数据集...
2019-08-19 17:11:21
3876
1
原创 机器学习笔记(2) -- 逻辑回归简单实现Kaggle泰坦尼克预测
预测Titanic乘客逃生 1、关于Kaggle Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。 除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广...
2019-08-16 15:14:49
752
原创 机器学习笔记(1) -- 逻辑回归(Logistic Regression)
1、描述 逻辑(Logistic)回归是分类算法中最基础也是最重要的手段,因此,掌握其内在原理是非常必要的。逻辑回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分问题(即结果要么是0,要么是1)。 2、初识 逻辑回归是在线性回归的基础上,将线性模型通过一个函数,转化为结果只有0/1的分类模型。其建模过程与线性回归相似: ①寻找预测函数 ②构造代价函数 ③使得代价函数最小并求得回归参...
2019-08-16 14:26:35
531
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅