- 博客(108)
- 资源 (1)
- 收藏
- 关注

翻译 第二章:Statistical Modeling
第二章:Statistical Modeling目录2.2 The difference between statistical and probabilistic model2.3 A simple example of statistical modeling2.3.1 Classical statistics for classical data2.4 Binomial distributions and maximum likelihood2.4.1 An example2.5 More boxes
2020-06-28 17:49:33
811
翻译 Statistical transformations 统计转换
下图显示了钻石数据集中的钻石总数,按切工分组。钻石数据集来自 ggplot2,包含大约 54,000 颗钻石的信息,包括每颗钻石的价格、克拉、颜色、净度和切工。该图表显示,与低质量切割相比,高质量切割的钻石更多。ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))在 x 轴上,图表显示切工,这是钻石的一个变量。 在 y 轴上,它显示计数,但计数不是钻石中的变量! 计数从何而来? 许多图表(如散点图)绘制数据集的原
2022-01-11 22:08:26
292
翻译 ggplot中的Geometric objects
在ggplot中我们说上面两图用不同的几何体表示,geom是几何对象,例如条形图使用bar geoms,折线图使用line geoms,箱线图使用boxplot geoms等等。你可以使用不同的几何体来描绘同一个数据。要更改图中的geom,请使用ggplot()中的geom函数。例如要画上面的图,代码为# leftggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy))# rightggplot(dat...
2021-12-29 20:53:30
387
翻译 ggplot 中的 Facets
对于分类变量比较有用的一个方法是将图拆分成多个facets,每个子图都展示数据的一个子集。要通过单个变量对绘图进行分面,请使用facet_wrap()。facet_wrap()的第一个参数应该是一个公式。ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy)) + facet_wrap(~ class, nrow = 2)如果要对两个变量的组合对绘图进行分面,那么需要facet_gri...
2021-12-15 22:18:35
657
翻译 关于ggplot2画图的一个小问题
如果你把代码写成这样ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy))则R只会运行第一行,然后只给出一个空白的画板。这是因为ggplot2画图"+"必须放在一行的末尾,而不是开头,否则就会出错。...
2021-12-02 22:03:25
499
翻译 making graphs with ggplot2
代码模板:ggplot(data = <DATA>) + <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))例如:ggplot(data = mpg)得到的结果是一块空白的画布。例如:ggplot(data = mpg) + geom_point(mapping = aes(x = hwy, y = cyl))图形为:上图作的是气缸数对每加仑油跑的里程数的散点图。基本上缸数越多,每加...
2021-12-01 21:31:02
114
转载 Data visualisation,ggplot2
问题:大引擎的汽车比小引擎的汽车消耗更多的燃料吗?发动机尺寸与燃油效率之间的关系是怎样的?The mpg data framempg数据框包含美国环境保护署收集的38款汽车的观察结果。library(tidyverse)mpgmpg 中的变量包括:displ,汽车的发动机尺寸,以升为单位。hwy,汽车在高速公路上的燃油效率,以英里每加仑 (mpg) 为单位。燃油效率低的汽车在行驶相同距离时比燃油效率高的汽车消耗更多的燃料。 要了解有关 mpg 的更多信息,..
2021-11-29 22:06:06
157
原创 随机变量的矩母函数
在概率论中,随机变量的矩母函数是描述其概率分布的一种可选方式。随机变量X的矩母函数定义为:前提是这个期望存在。而且事实上,矩母函数确实并非一直都存在。
2021-11-29 21:38:27
1831
转载 Tab补全
从表面上看,IPython只是看起来与标准Python解释器(通过python命令启动)有一些装饰性的区别。相较于标准Python命令行,IPython的提升之一就是tab补全功能,通常该功能在IDE或者其他交互式计算分析环境中才有。当在命令行输入表达式时,按下Tab键即可为任意变量(对象、函数等)搜索命名空间,与你目前已输入的字符进行匹配: an_apple = 27 an_example = 42 an<Tab>在上述示例中,请注意IPython同时列出了我已定义的两个变量、关键
2020-07-26 21:59:05
1615
原创 运行Jupyter notebook
Jupyter项目中的主要组件就是notebook,这是一种交互式的文档类型,可以用于编写代码、文本(可以带标记)、数据可视化以及其他输出。Jupyter notebook与内核交互,内核是编程语言的交互式计算协议的实现。Python的Jupyter内核使用IPython系统进行内部活动。需要启动Jupyter时,可以在终端中运行jupyter notebook命令:在很多平台上,Jupyter会自动打开你的默认网络浏览器(除非你使用了–no-browser命令)。你可以通过http地址来浏览note
2020-07-19 22:18:13
319
原创 Python的安装与设置
文章目录1.4.1 Windows1.4.4 安装及更新Python包1.4.6 集成开发环境和文本编辑器1.6 快速浏览本书由于每个人使用Python的应用场景不一样,设置Python、安装附加包并没有一个统一的解决方案。很多读者并没有一个适合本书后续内容的Python开发环境,因此我将给出一份各操作系统上的详细Python安装说明。我推荐使用免费的Anaconda发布版。在本书写作的时候,Anaconda提供Python 2.7和Python 3.6两个版本,当然未来某个时间版本会变更。本书使用Pyt
2020-07-14 10:44:58
335
原创 python 中重要的库介绍
文章目录1.3.1 NumPy1.3.2 pandas1.3.3 matplotlib1.3.4 IPython与Jupyter1.3.5 SciPy1.3.6 scikit-learn1.3.1 NumPyNumPy(http://numpy.org)是Numerical Python的简写,是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其他内容:· 快速、高效的多维数组对象ndarray· 基于元素的数组计算或数组间数学操作函
2020-07-13 22:20:12
801
转载 BSgenome简介
一、BSgenome和BSgenome数据包Bioconductor提供了某些物种的全基因组序列数据包,这些数据包是基于Biostrings构建的,称为BSgenome数据包。不同物种的BSgenome数据包都有类似的数据结构,可以用统一的方式进行处理。但是BSgenome数据包仅包含有数据,它们的处理的方法由另外一个软件包提供,即BSgenome包。先安装BSgenome包(如果没有安装):if (!requireNamespace("BiocManager", quietly = TRUE))
2020-07-10 17:21:07
4054
转载 tricks in R
函数中给全局变量赋值R里可以用<<-来进行全局赋值,比如我在解Project Euler 15题时,就用了<<-,这个最好还是不要用,用全局赋值可能会给你surprise,会给出惊喜的代码不是好代码。当然所谓的全局和局部,都是相对的,主要看内存管理的实现方式,内存堆栈,在R里通过environment来实现,S中称之为frames。所谓的全局变量就是位于.Globa...
2018-10-06 22:35:05
239
转载 简述多种降维算法
陈汝丹 算法与数学之美本文首先给出了七种算法的一个信息表,归纳了关于每个算法可以调节的(超)参数、算法主要目的等等,然后介绍了降维的一些基本概念,包括降维是什么、为什么要降维、降维可以解决维数灾难等,然后分析可以从什么样的角度来降维,接着整理了这些算法的具体流程。主要目录如下: 1. 降维基本概念 2. 从什么角度出发降维 3. 降维算法 3.1 主成分分析...
2018-09-23 23:24:38
6489
转载 用R语言对一个信用卡数据实现logit,GBM,knn,xgboost
Prepare the data数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening,一个信a用卡的数据,具体各项变量名以及变量名代表的含义不明(应该是出于保护隐私的目的),本文会用logit,GBM,knn,xgboost来对数据进行分类预测,对比准确率预计的准确率应该是:xg...
2018-09-11 17:37:23
763
转载 IV in R
http://eclr.humanities.manchester.ac.uk/index.php/IV_in_R In this Section we will demonstrate how to use instrumental variables (IV) estimation (or better Two-Stage-Least Squares, 2SLS) to estimat...
2018-07-09 23:50:41
1658
转载 Instrumental Variables----------Implementation R 2.13
Wald testModel 1: hsngval ~ pcturban + faminc + reg2 + reg3 + reg4Model 2: hsngval ~ pcturban Res.Df Df F Pr(>F) 1 44 2 48 -4 12.975 4.643e-07 ***-...
2018-07-06 22:18:33
452
3
转载 R 语言 optim 使用
stats中的optim函数是解决优化问题的一个简易的方法。Univariate Optimizationf = function(x,a) (x-a)^2xmin = optimize(f,interval = c(0,1),a=1/3)xminGeneral Optimizationoptim函数包含了几种不同的算法。 算法的选择依赖于求解导数的难易程度,通常最好提供...
2018-06-11 15:55:40
21674
1
转载 Example:Nelder-Mead Method
The process continues and generates a sequence of triangles that converges down on thesolution point (3, 2) (see Figure 8.10). Table 8.6 gives the function values at vertices of t...
2018-06-11 11:03:06
1291
转载 Nelder-Mead Method 有例子的
http://www.jasoncantarella.com/downloads/NelderMeadProof.pdf A simplex method for finding a local minimum of a function of several variables has been devised by Nelder and Mead. For ...
2018-06-11 07:46:11
3135
1
转载 The Nelder-Mead Algorithm in Two Dimensions
http://people.duke.edu/~hpgavin/cee201/Nelder-Mead-2D.pdfSteps for one iteration of the Nelder-Mead Algorithm1. Sort the vertices such that f(u) < f(v) < f(w). Point u is the best point, point v...
2018-06-09 23:58:30
273
转载 Nelder–Mead method
is a commonly applied numerical method used to find the minimum or maximum of an objective function in a multidimensional spaceapplied to nonlinear optimization problems for which derivatives may not ...
2018-06-07 23:47:53
1982
转载 牛顿迭代法
目前接触到的牛顿迭代法主要应用于两个方面:(1)方程求根问题(2)最优化问题。1、求解方程。并不是所有的方程都有求根公式,或者求根公式很复杂,导致求解困难。利用牛顿法,可以迭代求解。原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f'(x0)求解方程f(x)=0,即f(x0)+(x-x0)*f'(x0)=0,求解x = x1=x0-f(x0)/f'(x0),...
2018-06-07 21:31:35
4572
转载 入门 | 初学机器学习:直观解读KL散度的数学概念
代码:https://github.com/thushv89/nlp_examples_thushv_dot_com/blob/master/kl_divergence.ipynb原文链接:http://www.thushv.com/machine-learning/light-on-math-machine-learning-intuitive-guide-to-understanding-kl...
2018-06-01 12:29:12
623
转载 换个角度思考“类”
作为一个思想实验,我们先假设Python没有类这个特性。如果我们要实现类似面向对象的功能,我们要怎么做?这篇文章假设你有Python的基础知识(函数、变量、列表、字典等)。如果你是完全的0基础,你可以先看下Python部落(python.freelycode.com)影音学堂中的入门课程。什么是类、对象和面向对象?简单地说,面向对象就是把数据看成一个实实在在的东西。比如,你可以让数据代表一个人,或...
2018-06-01 11:02:11
280
转载 4 Finding the Variance and Weights
mobility <- read.csv("http://www.stat.cmu.edu/~cshalizi/mreg/15/lectures/24--25/mobility2.csv") plot(Mobility ~ Population, data=mobility, log="x", ylim=c(0,0.5)) mobility$MobSE &l...
2018-05-31 21:52:40
225
转载 3 The Gauss-Markov Theorem
Like any optimality result, it is crucial to lay out carefully the range of possiblealternatives, and the criterion by which those alternatives will be compared. Theclassical optimality result for est...
2018-05-31 18:47:50
893
转载 2 Heteroskedasticity
Suppose the noise variance is itself variable.Figure 2: Scatter-plot of n = 150 data points from the above model. (Here X isGaussian with mean 0 and variance 9.) Grey: True regression line. Dashed: or...
2018-05-31 16:02:03
627
转载 1 Weighted Least Squares
1. Focusing accuracyDiscounting imprecisionOften however the magnitude of the noise is not constant, and thedata are heteroskedastic.Sampling bias. In many situations, our data comes from a survey, an...
2018-05-31 15:24:55
4021
转载 Data Analysis: Regression
OLS Diagnostics in ROLS Diagnostics: Error Variance Variance• Formal tests for heteroskedasticity are available from the lmtestlibrary– library(lmtest)– bptest(ols.model1) will give you the Breusch‐Pa...
2018-05-31 12:30:07
269
转载 One-tailed F-test with one restriction
beta <- c(1,4,2,3) # The coefficientsn <- 20 # The number of observationscombo <- c(0,1,1,-1,-1) # The contrast (starting with an intercept coefficient)sigma <- ...
2018-05-31 10:25:27
335
转载 Standard error of regression coefficient without raw data
Is it possible to derive the standard error of a regression coefficient from summary data alone?E.g., assume we are given the following variance-covariance matrix.[Var(X)Cov(X,Y)Cov(X,Y)Var(Y)]We can ...
2018-05-30 21:27:21
1199
转载 【数据处理】reshape2包
https://zhuanlan.zhihu.com/p/22249895?refer=rdatamining前言reshape2是又一个用来做数据处理的拓展包,用于实现宽格式数据与长格式数据之间的互转。如果你熟悉结构化数据库查询,那么你一定知道列转行与行转列,宽长数据之间互转与之类似;如果你不熟悉的也没关系,它很简单,接着往下看你就能很快熟悉并掌握了。首先我们通过一个数据集来解释什么是长宽数据。...
2018-05-20 22:46:09
1444
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人