
机器学习
大龄coder
靡不有初鲜克有终,人无远虑必有近忧。
没有最好的语言,只有最好的程序员。
展开
-
概率论之贝叶斯统计
在极大似然估计和矩估计中,我们都将待估参数θ\thetaθ视为参数空间Θ\ThetaΘ的一个未知常数(或常向量),我们坚信这些参数的信息只是由样本携带,于是通过对样本“毫无偏见”的加工,得到参数估计,而后按照判别好坏的标准对估计量进行分析,但事实上,参数θ\thetaθ本身就是一个随机变量。既然我们将参数θ∈Θ\theta\in\Thetaθ∈Θ视为一个取值于Θ\ThetaΘ的随机变量,如果是连...原创 2019-04-03 23:46:24 · 662 阅读 · 0 评论 -
LeetCodeContest week140
主要是引用第一名(python),第二名(python)和第五名(java)的代码1.Occurrences After BigramGiven words first and second, consider occurrences in some text of the form “first second third”, where second comes immediately af...原创 2019-06-10 23:34:33 · 206 阅读 · 0 评论 -
kaggle教程--Introduction to ML
Using Pandas to Get Familiar With Your DataThe first step in any machine learning project is familiarize yourself with the data. You’ll use the Pandas library for this. Pandas is the primary tool dat...原创 2019-06-04 08:54:06 · 365 阅读 · 0 评论 -
Titanic数据分析(部分)
Titanic文章来源:https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracyMachine Learning的hello worldHow a Data Scientist Beat the Odds克服困难A Data Science FrameworkDefine the ...原创 2019-05-23 02:49:45 · 1733 阅读 · 0 评论 -
机器学习一些笔记
1.何时使用机器学习大量数据的复杂任务,且无结构数据 --> 自动化问题定义:输出和输入是什么数据:足够多的数据,具有特征和标签(如果监督学习)数据中的规律:必须是有模式可寻的数据特征:ml一般作用在数字上,好的特征=成功一半如何评价:有评价标准2.如何开始问一个尖锐的问题-可以用名字或数字回答。下周股价或第一名的车名?数据科学家可以回答5个问题: 1A还是B,2是否...原创 2019-05-20 01:43:25 · 177 阅读 · 0 评论 -
读书笔记-统计学习方法-ch01
1.1 统计学习对象统计学习的对象是数据。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。本书以讨论离散变量为主。目的统计学习用于对数据进行预测和分析,特别是对未知新数据进行预测和分析。方法统计学习有监督学习、非监督学习、半监督学习和强化学习等组成。本书主要讨论监督学习。监督学习方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据...原创 2019-04-24 00:20:07 · 161 阅读 · 0 评论 -
读书笔记-统计学习方法-ch01
1.1 统计学习对象统计学习的对象是数据。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。本书以讨论离散变量为主。目的统计学习用于对数据进行预测和分析,特别是对未知新数据进行预测和分析。方法统计学习有监督学习、非监督学习、半监督学习和强化学习等组成。本书主要讨论监督学习。监督学习方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据...原创 2019-04-24 00:17:46 · 213 阅读 · 0 评论 -
概率论之极大似然估计
统计的基本任务是以样本推断总体,在很多场合下,总体分布的形式是已知的,需要求得未知参数,这就是数理统计的参数估计问题。参数估计分为两种:一种是点估计,一种是区间估计。前者是用一个适当的统计量作为参数的近似,我们将统计量的样本值称为该参数的估计值;后者是用统计量两个值所界定的区间来指出真实参数值的大致范围。本文主要讲点估计中的极大似然估计。点估计的矩估计和区间估计以后再说。极大似然估计(Maxim...原创 2019-04-03 02:19:21 · 1874 阅读 · 0 评论 -
朴素贝叶斯法(统计学习方法四)
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。1.朴素贝叶斯法的学习与分类1.1基本方法设输入空间是χ⊆Rn\chi\subseteq{R}^nχ⊆Rn,为n维向量的集合,输出空间为类别标记集合y=c1,c2,...,ck,Xy={c_...原创 2019-04-08 03:02:24 · 263 阅读 · 0 评论 -
sklearn中的决策树
参数DecisionTreeRegressor(criterion=’mse’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=N...原创 2019-04-08 01:07:51 · 750 阅读 · 0 评论 -
机器学习之决策树(三)
1.决策树决策树是一种常见的 机器学习算法,可以用于分类任务,(也有回归的),且模型具有良好的可解释性,基本流程遵循简单且直观的“分而治之”的策略,其算法如下:输入:训练集D=(x1,y1),(x2,y2),...,(xm,ym)D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}D=(x1,y1),(x2,y2),...,(xm,ym) 属性集A=...原创 2019-04-02 00:17:05 · 350 阅读 · 0 评论 -
机器学习之线性回归(一)
机器学习之线性回归(一)作为一名Java后端狗,从今天开始学习机器学习,希望自己有所收获。学习编程语言一般都是从打印hello world入手,这是最简单的程序。而机器学习最简单的模型就是线性模型了。线性回归,也就是LR(Linear Regression)。回归(Regression)首先看下什么是回归:统计学中,回归分析(regression analysis)指的是确定两种或两种...原创 2019-03-27 01:27:26 · 582 阅读 · 0 评论 -
机器学习之逻辑回归(二)
逻辑回归线性回归模型的作用是来预测,如果我们的任务是分类呢,可以对线性回归模型进行改造,找一个单调可微的函数将输出值转换为0/1,从而达到分类的效果。对数几率函数是一个常用的这样的函数,y=11+e−xy=\frac1{1+e{-x}}y=1+e−x1,图像如下,函数处处可微,且函数值处于0-1之间,这样我们的函数模型可以写作:y=11+e−(wTx+b)y=\frac1{1+e^{-(...原创 2019-04-01 23:04:32 · 171 阅读 · 0 评论 -
概率论之数理统计的概念
1.数理统计“统计学”一词的英文statistics 源于拉丁文的status(国家),意思为国情资料的收集或国情学,一般地说,数理统计这一学科的研究对象是带随机性的教据,很容易把数理统计与一大堆数据和图表联系起来,但这仅仅是数据的初级处理。数据初级处理阶段的统计称之为描述性统计.描述性统计充满了图表,常见于我们日常生活中.随着统计方法的普及,分析数据并进行各种合理的推断成为数理统计研究的中心。...原创 2019-04-07 10:21:29 · 541 阅读 · 0 评论 -
概率论之大数定律和中心极限定理
1.大数定律教材说这是概率论最精彩的一章。。。,我觉得说的不错。。。,感觉需要吃透这几个定理。1.1切比雪夫不等式设随机变量XXX的均值EXEXEX及方差DXDXDX存在,则对于任意正数ε\varepsilonε,有不等式P{∣X−EX∣≥ε}≤DXε2P\{|X-EX|\ge\varepsilon\}\le\frac{DX}{\varepsilon^2}P{∣X−EX∣≥ε}≤ε2DX...原创 2019-04-06 02:38:55 · 3619 阅读 · 0 评论 -
概率论之随机变量的数字特征
1.数学期望1.1离散型随机变量的期望设离散型随机变量XXX的分布律为XXXx1x_1x1x2x_2x2.........xnx_nxn.........PPPp1p_1p1p2p_2p2.........pnp_npn.........若计数∑k=1∞xkpk\sum_{k=1}^\infty{x}_kp_k∑k=1∞xkpk绝...原创 2019-04-05 20:39:38 · 632 阅读 · 0 评论 -
概率论之多元随机变量及其分布
1.多元随机变量在实际问题中,有一些实验的结果需要同时用两个或两个以上的随机变量来描述。设n元随机变量X(ω)=(X1(ω),X2(ω),...,Xn(ω)),简记为X=(X1,X2,...,Xn)X(\omega)=(X_1(\omega),X_2(\omega),...,X_n(\omega)),简记为X=(X_1,X_2,...,X_n)X(ω)=(X1(ω),X2(ω),...,X...原创 2019-04-05 02:10:25 · 3698 阅读 · 0 评论 -
概率论 基础(一)
1.条件概率设A、B是两个事件,且P(A)>0A、B是两个事件,且P(A)>0A、B是两个事件,且P(A)>0,称P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}P(B∣A)=P(A)P(AB)为在事件A发生的条件下事件B发生的条件概率。由此,得公式P(AB)=P(A)P(B∣A)=P(B)P(A∣B)P(AB)=P(A)P...原创 2019-04-05 01:40:06 · 441 阅读 · 0 评论 -
kaggle教程--Intermediate Machine Learning
包括以下tackle data types often found in real-world datasets (missing values, categorical variables),design pipelines to improve the quality of your machine learning code,use advanced techniques for m...原创 2019-06-05 00:02:29 · 665 阅读 · 0 评论