
数据科学入门
JabinY
这个作者很懒,什么都没留下…
展开
-
数据科学入门_第十二章_k近邻法
k近邻法1 模型最近邻法要求的仅仅是:• 某种距离的概念• 一种彼此接近的点具有相似性质的假设2 案例:最喜欢的编程语言# 每一条记录都是([longitude, latitude], favorite_language)的形式cities = [([-122.3 , 47.53], "Python"), # 西雅图([-96.85, 32.85], "Java"), # 奥斯汀([ -89.33, 43.13], "R"), # 麦迪逊# ……还有很多记录]第一步最好是先根据数据原创 2020-08-21 17:25:13 · 364 阅读 · 0 评论 -
数据科学入门_第十一章_机器学习
机器学习1 建模模型实际上是针对存在于不同变量之间的数学(或概率)联系的一种规范。2 什么是机器学习我们使用的定义是创建并使用那些由学习数据而得出的模型。一般来说,我们的目标是用已存在的数据来开发可用来对新数据预测多种可能结果的模型,比如:• 预测一封邮件是否是垃圾邮件• 预测一笔信用卡交易是否是欺诈行为• 预测哪种广告最有可能被购物者点击• 预测哪支橄榄球队会赢得超级杯大赛3 过拟合和欠拟合在机器学习中,一种常见的困境是过拟合(overfitting)——指一个在训练数据上表现良好,原创 2020-08-21 16:52:51 · 351 阅读 · 0 评论 -
数据科学入门_第九章_获取数据
获取数据1 读取文件文本文件基础处理文本文件的第一步是通过 open 命令来获取一个文件对象:# 'r' 意味着只读file_for_reading = open('reading_file.txt', 'r')# 'w' 是写入——会破坏已存在的文件!file_for_writing = open('writing_file.txt', 'w')# 'a' 是添加——加入到文件的末尾file_for_appending = open('appending_file.txt', 'a')原创 2020-08-21 11:13:19 · 194 阅读 · 0 评论 -
数据科学入门_第六章_概率
概率把概率论视为对从事件空间中抽取的事件的不确定性进行量化的一种方式。我们用 P(E) 来标记“事件 E 的概率”1 不独立和独立泛泛地讲,如果 E 发生意味着 F 发生(或者 F 发生意味着 E 发生),我们就称事件 E 与事件 F 为不相互独立(dependent)。反之,E 与 F 就相互独立(independent)。从数学角度讲,事件 E 和事件 F 独立意味着两个事件同时发生的概率等于它们分别发生的概率的乘积:P(E, F)=P(E)P(F)2 条件概率如果事件 E 与事件 F原创 2020-08-20 17:15:38 · 482 阅读 · 0 评论 -
数据科学入门_第五章_统计学
统计学1 描述单个数据集对任何数据集,最简单的描述方法就是数据本身:num_friends = [100, 49, 41, 40, 25,# ……等等许多]画个直方图(数据可以上github上找)friend_counts = Counter(num_friends)xs = range(101) # 最大值是100ys = [friend_counts[x] for x in xs] # height刚好是朋友的个数plt.bar(xs, ys)plt.axis([0, 101, 0原创 2020-08-20 16:37:19 · 304 阅读 · 0 评论 -
数据科学入门_第四章_线性代数
线性代数1 向量抽象地说,向量是指可以加总(以生成新的向量),可以乘以标量(即数字),也可以生成新的向量的对象比如,如果你有很多人的身高、体重、年龄数据,就可以把数据记为三维向量 (height,weight, age) 。如果你教的一个班有四门考试,就可以把学生成绩记为四维向量 (exam1,exam2, exam3, exam4) 。我们常常需要对两个向量做加法。向量以分量方式(componentwise)做运算。这意味着,如果两个向量 v 和 w 长度相同,那它们的和就是一个新的向量,其中向量原创 2020-08-20 15:26:10 · 306 阅读 · 0 评论 -
数据科学入门_第三章_可视化数据
可视化数据1 matplotlib我们会使用 matplotlib.pyplot 模块。在最简单的应用中, pyplot 保持着一种内部状态,你可以在其中一步步地创建可视化。一旦创建工作完成,就可以保存savefig() 或显示用 show() 你的图形from matplotlib import pyplot as pltyears = [1950, 1960, 1970, 1980, 1990, 2000, 2010]gdp = [300.2, 543.3, 1075.9, 2862.5, 5原创 2020-08-20 14:17:52 · 249 阅读 · 0 评论