
数据科学
李呵呵1997
这辈子想搞点大的事情
展开
-
数据科学家之路 chapter4 --- 可视化
这篇博客专注于机器学习中的可视化,其重要性这里不赘述了,直接开始吧!1.直方图直接对一个DataFrame执行hist(),我们就能得到这个DataFrame中所有数值型特征的直方图了。注意上图不完整,还有几张图由于篇幅限制这里不截图了。 to be continued......原创 2017-12-14 17:06:30 · 409 阅读 · 0 评论 -
机器学习基本概念 交叉验证
在机器学习里,通常来说我们不能将全部数据用于训练模型,否则我们将没有数据集对该模型进行测试,从而评估我们的模型的准确率。而如果我们随机的去选择一个划分点,可能并不能发挥这个模型最好的效果,因为最终模型与参数将极大程度依赖于你对训练集和测试集的划分方法。为了解决这一问题,我们可以使用交叉验证(Cross-Validation)的方法。 1.交叉验证方法一:LOOCVLOOCV方法只用一个...原创 2017-10-20 17:03:19 · 1376 阅读 · 0 评论 -
数据科学家之路 chapter1 --- 拿到数据后该干什么
我的数据科学家之路。chapter1 拿到数据之后该干什么一. 前言 2018年,经过了很多种数据分析的学习路线之后,我好像还是没有找到门道。经过深刻的反思,我发现过了这么久,自己连一个完整的数据分析流程的都不能很好的阐述,可以说是很失败了。在经过了近10个月的考研后,我深知“套路”对于一门学科的重要性,它让我们有了所谓的基础,从而可以做更多的探索。那么,痛定思痛,我将在这个章...原创 2017-10-20 15:26:50 · 1213 阅读 · 0 评论 -
数据科学家之路 实战1 --- O2O优惠券使用预测(part1)
在前几天终于看完了Andrew的Machine Learning课程, 但是实际上自己并没有完成那门课的各种编程作业,因为我觉得那里涉及较多的算法细节,而对于我现在这个阶段,可能更重要的是更加懂得数据以及模型,所以我规划的路线是学完概念后进行各种比赛的训练。那么这里,就是第一个我看的比赛,来自阿里云天池新人赛的一道题目,即“O2O优惠券使用预测”,题目很早之前已经结束了,这里我会以看懂大神代码...原创 2017-11-23 11:48:21 · 7234 阅读 · 4 评论 -
数据科学家之路 chapter2 --- pandas(part1)
这个部分将会介绍python中处理数据最重要的工具之一---------pandas,主要涉及是其中一些操作。因为自己之前没有了解到这些功能,导致花了很多时间去自己实现,这里做一个总结,为了提高之后的效率。一.Series1.先创建一个Series: 2.通过索引方式去选取值:3.再利用下numpy就能更方便的处理数据:4.Series的一个重要作用是:在算数...原创 2017-10-21 13:48:01 · 1054 阅读 · 0 评论 -
数据科学家之路 实战1 --- O2O优惠券使用预测(part2)
本篇文章内容接着part1的模型部分4.上模型a.回归树由于GBDT中用到的树是回归树,而不是我们一般用到的分类树,所以这里举个例子复习一下:我们利用x1、x2这两个特征可以很容易地把数据分为四个区域,其中每个区域各有一个中心点(5,5)、(5,10)、(10,10)、(10,5),在对新数据做预测时,该数据落在哪个区域,就把该区域的中心点作为它的预测值。那么如何判断新数...原创 2017-12-02 12:27:32 · 2572 阅读 · 4 评论 -
数据科学家之路 实战2---Kaggle房价预测
第一个O2O我其实主要讲了思路,大部分的代码并没有去实现。究其原因还是因为能力不够......感觉天池的题目前对我还是有点难了,找不到下手点。所以还是先回归kaggle,希望仔细研究几个题目后再转战天池。房价预测是kaggle的Getting Started的三个题目之一,是入门必备,这篇文章就围绕这个题目开始记录,其中包括了详细的代码。1.题目以及数据:官方说明简单来说,就是给你...原创 2017-12-03 15:33:46 · 8136 阅读 · 2 评论 -
数据科学家之路 chapter3 --- 统计学知识(《赤裸裸的统计学》学习笔记)
近日在做机器学习题目的时候发现统计对于机器学习的重要性,加上老师说以后可以从计算机转统计。于是这里决定新开一个分类,专门记录关于统计的知识。希望一来能够辅助机器学习中对于数据的认识,二来也可以为读研做准备。本系列博客参照于《赤裸裸的统计学》一.描述统计学1.平均数和中位数:在统计中,你其实很难用一个特征去总结某件事情。比如,如何衡量这几十年美国中产阶级的经济状况?一个答案是观察这部分人群的...原创 2017-12-05 11:30:35 · 1339 阅读 · 0 评论 -
机器学习基本概念 特征工程
近期做了一道题目,现在到了瓶颈,怎么换模型准确率都上不去了。于是决定回过头来再研究下特征,才发现自己在特征工程这方面还欠缺很多,所以这篇博客便做个补充。1.特征标准化( feature nomalization)a.定义与解释:特征数据的标准化, 也可以说正常化, 归一化, 正规化等等。为什么我们需要标准化特征呢??简单来说,这是为了让机器学习能够消化我们的数据。 举个例子,你现在手上...转载 2017-12-12 14:19:10 · 429 阅读 · 0 评论 -
机器学习基本概念 过拟合和欠拟合
这篇博客主要谈谈关于过拟合和欠拟合,这是机器学习中很重要的问题。1.什么是过拟合???由于我自己比较清楚这个概念了,这里就放一张图。2.学习曲线(sklearn实现) learning curve参数说明:train_sizes, train_scores, test_scores = learning_curve(输入: (estimator : 你用的分类...原创 2017-12-12 15:53:03 · 728 阅读 · 0 评论 -
数据科学家之路 chapter2 --- pandas(part2)
最近刚考完研,终于有学习专业知识的时间了,决定先把pandas的技能捡起来,这里就记录一些我觉得很有用的方法。1.unique:查看某列不重复的数量2.str(对于字符串的处理):为字符串类型的变量加上str就带来了很多处理字符串的方法,这里的startswith就是找到姓李的人3.resample:这个方法是用来完成日期的聚合工作,包括按周(W),日期,月(M),年(A),季...原创 2018-12-29 10:28:12 · 418 阅读 · 0 评论