
数据科学和机器学习
haoen110
这个作者很懒,什么都没留下…
展开
-
重采样方法 (Resampling Methods) (CV, Bootstrap)
文章目录IntroductionCross-ValidationThe Validation Set ApproachDrawbacksLeave-One-Out Cross-ValidationIn Linear RegressionDrawbacksK-fold Cross-ValidationBootstrapStepsEstimate of S.E.Estimate of C.I.Boot...原创 2020-01-19 15:08:46 · 6523 阅读 · 0 评论 -
搭建数据科学虚拟机(DSVM)远程玩转数据(远程使用ipad来写Python)
搭建数据科学虚拟机(DSVM)远程玩转数据大家有没有想过,如果有一天我可以用ipad来编程就好了。或者总是抱怨自己的电脑跑程序跑得慢。今天!我就来给大家分享一下利用Azure品台的云端服务器来搭建数据科学虚拟机(DSVM),让我们只要有一个浏览器,不论在手机上、平板上,还是经过多少个世纪的电脑上,都可以开开心心地享受数据科学带来的乐趣。请大家参考我的上一期,首先成功拥有Azure使用权。ht...原创 2019-10-05 22:36:44 · 2107 阅读 · 3 评论 -
梯度下降 Python
Gradient DescentToday, I’m going to try this method to solve a linear regression problem.Function can be written as:h(θ)=θ0+θ1xh(\theta)=\theta_0+\theta_1xh(θ)=θ0+θ1xThe cost function, “Squared ...原创 2019-08-31 17:22:40 · 278 阅读 · 2 评论 -
梯度下降和Normal Equation的比较
梯度下降和Normal Equation的比较Normal Equation是一种基础的最小二乘方法推导:https://zhuanlan.zhihu.com/p/22757336梯度下降Normal Equation需要选择学习率不需要选择学习率需要很多次迭代不需要很多次迭代复杂度低 O(kn2)O(kn^2)O(kn2)复杂度高 O(n3)O(n...原创 2019-08-30 10:02:02 · 370 阅读 · 0 评论 -
PandasBasic基础
Pandas对象import numpy as npimport pandas as pd1. Series对象带有索引数据的一维数组data = pd.Series([0.25, 0.5, 0.75, 1.0])data0 0.251 0.502 0.753 1.00dtype: float64从上面看出,数据和索引(第一列)绑定在一起# ...原创 2019-07-08 07:31:14 · 248 阅读 · 0 评论 -
图像识别ImageRecognition
图像识别注意:cv2中的色彩排列是(b,g,r),而matplotlib库中的排列方式是(r,g,b),本文件中采用plt进行输出,因此颜色不是准确的颜色1. OpenCV,机器视觉import cv2 as cvimport numpy as npimport matplotlib.pyplot as pltoriginal = cv.imread('../data/fores...原创 2019-06-18 16:50:40 · 1927 阅读 · 0 评论 -
语音识别SpeechRecognition
语音识别1. 声音的本质是震动,震动的本质是位移关于时间的函数Signal: s = f(t)波形文件(.wav)中记录了不同采样时刻的位移2. 通过傅里叶变换可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。# audio.pyimport numpy as npimport numpy.ff...原创 2019-06-18 10:59:22 · 6632 阅读 · 0 评论 -
聚类Clustering
十三、聚类1. 样本相似性:欧氏距离用两个样本对应特征值之差的平方和之平方根,即欧氏距离,来表示这两个样本的相似性。P(x1)−Q(x2):∣x1−x2∣=(x1−x2)2P(x1)-Q(x2):|x1-x2|=\sqrt{(x1-x2)^2}P(x1)−Q(x2):∣x1−x2∣=(x1−x2)2P(x1,y1)−Q(x2,y2):(x1−x2)2+(y1−y2)2P(x1,y1)...原创 2019-06-16 10:56:23 · 764 阅读 · 0 评论 -
分类Classification(支持向量机 SVM)
十二、支持向量机(SVM)1. 原理寻求最优分类边界:正确:对大部分样本可以正确地划分类别。泛化:最大化支持向量间距。公平:与支持向量等距。简单:线性,直线或平面,分割超平面。基于核函数的升维变换:通过名为核函数的特征变换,增加新的特征,使得低维度空间中的线性不可分问题变为高维度空间中的线性可分问题。2. 不同核函数的分类效果线性核函数:l...原创 2019-06-16 10:52:30 · 4255 阅读 · 1 评论 -
分类Classification(决策树 DecisionTree 朴素贝叶斯 Naive Bayesian)
八、人工分类输入1输入2输出3102511816405203514714-1068?51?import numpy as npimport matplotlib.pyplot as mpx = np.array([ [3, 1], [2, 5], ...原创 2019-06-16 10:47:50 · 625 阅读 · 0 评论 -
决策树概览DecisionTreeIntro
七、决策树1. 基本原理相似的输入导致相似的输出。例如:年龄:青年-1,中年-2,老年-3学历:专科-1,本科-2,硕士-3,博士-4经验:缺乏-1,一般-2,丰富-3,资深-4性别:男-1,女-2薪资:1-低,2-中,3-高,4-超高年龄学历工作经验性别薪资数薪资类1112500011221800022...原创 2019-06-10 09:04:27 · 205 阅读 · 0 评论 -
回归Regression(一元线性回归、岭回归、多元线性回归、多项式回归)
四、一元线性回归1. 预测函数输入输出0113253749……预测函数为:y=1+2xy=1+2xy=1+2x预测:输入10;输出21y=w0+w1xy=w_0+w_1xy=w0+w1x,任务就是寻找预测函数中的模型参数w0w_0w0和w1w_1w1,以满足输入和输出之间的联系。2. 单样本误差...原创 2019-06-09 14:13:22 · 2439 阅读 · 0 评论 -
机器学习MachineLearning概述(简单预处理)
机器学习一、概述1. 什么是机器学习?人工智能:通过人工的方法,实现或者近似实现某些需要人类智能处理的问题,都可以称为人工智能。机器学习:一个计算机程序在完成任务T之后,获得经验E,而该经验的效果可以通过P得以表现,如果随着T的增加,借助P来表现的E也可以同步增进,则称这样的程序为机器学习系统。特点:自我完善、自我修正、自我增强。2. 为什么需要机器学习?简化或者替代人工方式的...原创 2019-06-09 14:04:14 · 771 阅读 · 0 评论