- 博客(58)
- 收藏
- 关注
原创 SQL-Join
保存LEFT JOIN 左边表格中的所有信息,从右边表格中提取左边表格中user_id 的user_name, 且将order list 重新命名为t1, user_list 重新命名为t2。
2023-08-30 16:16:15
207
原创 协方差及相关性
协方差(covariance)用于衡量两个随机变量的联合变化程度;如果两个随机变量不是独立变量,两个变量会存在一定程度的关联性,如下图所示,如果协方差大于零,说明两个随机变量是正相关,如果协方差小于零,说明两个随机变量是负相关。如果两个随机变量没有强的相关性,那协方差接近零。如果两个随机变量存在很强的相关性,协方差也有可能接近零。如下图所示,如果随机变量X和Y协方差很大,那这两个随机变量一定会存在很强的相关性吗?计算协方差的另一种形式如果两个变量是独立的,那协方差为零,如果协方差为零
2021-12-23 17:00:56
6213
原创 联合分布及其随机变量
联合分布(joint distribution)定义对于两个随机变量X,Y,联合分布就是X和Y同时发生的概率分布。离散随机变量的联合分布连续型随机变量的联合分布联合分布实例联合分布的计算下面的例子中,两个随机变量是独立的...
2021-12-23 11:03:17
4661
原创 几种连续型随机变量分布总结
简单描述了均匀分布,正态分布以及指数分布均匀分布1、均匀分布的密度函数The density function, of uniformly distributed continuous random variable W, is f(w) = 1/(b−a),ifa ≤ w ≤ b;while f(w) = 0, for all other values of w.2、均匀分布的一些函数计算概率密度函数dunif(x, min = 0, max = 1, log = FALSE)计算累积密
2021-12-21 11:40:48
1583
原创 正态及标准正态分布
正态分布,也叫做高斯分布(Gaussian distribution)正态分布(normal distribution)1、描述的是连续型随机变量2、如果一个连续型随机变量的probability density function f(x)符合下面的等式,就说明这个随机变量符合正态分布。标准正态分布(standard normal distribution)如果一个正态分布的随机变量的均值为0, 方差为1,那么这个分布就是标准正态分布。标准正态分布的一些特性标准正态分布的例子把正态
2021-12-16 18:01:34
8262
原创 泊松随机变量及指数随机变量
泊松随机变量(poisson random variables)是离散型随机变量指数随机变量 (exponential random variables) 是连续型随机变量泊松随机变量该变量描述的是一个事件,在指定时间范围内,可能发生的次数(这里涉及到三个元素,分别是时间,事件,以及事件发生的可能次数)泊松分布(poisson distribution)1、描述在一定时间范围内,一个事件发生的次数的概率分布2、泊松分布的概率质量函数(probability mass function),期望及方
2021-12-16 11:22:13
6485
原创 连续型随机变量
连续型随机变量:continuous random variables即在一定区间内变量取值有无限个,或数值无法一一列举出来如下面的例子概率密度函数(probability density function, pdf):在数学理论中,一个连续型随机变量的概率密度函数,是一个描述这个随机变量落在某一个确定的取值附近的可能性的函数。概率密度函数的一些特性累积分布函数(cumulative distribution function, cdf):又叫做分布函数,是概率密度函数的积分,能完成描述一个
2021-12-16 09:36:37
5269
原创 积分及导数
只是为了个人温习所用,有些表达并不是很严谨积分(integral)几何意义:函数所代表的曲线(或者在一个函数期间[a,b])与x坐标轴所围成的图形面积;求该图形的面积,就是把曲线与x坐标轴所围成的图形切分成无数个矩形,求无数个矩形的面积的总和就是曲线与x坐标坐标轴所围成的面积。定义:积分是微积分学与数学分析里的一个核心概念,通常分为定积分与不定积分两种。直观地说,对于一个给定的正实值函数f(x), f(x)在一个实数区间[a,b]上的定积分,为函数极限(limit)极限(Limit):可以用
2021-12-15 17:46:39
1908
原创 常见离散型随机变量比较
1、X~Bern(p), 表明X的取值符合伯努利分布,只有1(成功)和0(失败)两种结果,其中成功的概率为P。伯努利分布的X期望值为P,方差为P(1-P);2、X~Geom(p),表明X是几何随机变量,符合几何分布,其中成功的概率为P, 该分布主要是探索n次独立尝试,直到第一次尝试成功的概率,每一次独立试验都是伯努利分布。几何分布的X期望值为1/P,方差为(1-P)/P^2;3、X~Bin(n,p),表明X是二项式随机变量,符合二项式分布,其中每次试验成功的概率为P,该分布主要是探索在n次独立尝试中,有
2021-12-07 08:09:25
2558
原创 二项式和负二项式随机变量
二项式随机变量(binomial random variables)二项式随机变量具有的特性1、n 次尝试2、每一次尝试的结果均是伯努利试验,结果为成功或失败3、每次尝试是独立的,也就是每次试验的结果不会影响其他试验的结果几何离散型随机变量,其实就是n次伯努利试验,期望值为np,方差为np(1-p)负二项式随机变量(Negative binomial random variables)负二项式随机变量与负二项式随机变量的相关性...
2021-12-07 07:17:29
1339
原创 期望及方差
Expectation and variables (期望与方差)问题:需要匹配多少个肾才最终可以匹配成功?如果是伯努利随机变量,那期望值为P如果是几何随机变量,期望值为1/P方差:V(X), 衡量随机变量与均值的距离。伯努利及几何随机变量的方差例子...
2021-12-06 07:44:04
775
原创 伯努利及几何离散型随机变量
Bernoulli and Geometric discrete random variables伯努利随机变量(Bernoulli rv),有时候叫做binary rv, 是指只有0或1的两种可能结果的任何随机变量几何随机变量(Geometric rv)如何判断一个变量是否是几何随机变量,需要达到以下几个条件...
2021-12-03 20:56:39
2804
原创 离散型随机变量-Discrete Random Variables
这里主要讲了离散型随机变量的概率质量函数以及累计分布函数随机变量(random variables, rv)有两大类:离散型(discrete)和连续型(continuous),对于前者,表示变量取值是有限个或者可数无穷个一般来说,以靠近字母表末端的大写字母来定义随机变量,如(X,Y),而随机变量的具体值为小写字母,如x,y概率质量函数(probability of mass function, pmf): 是离散随机变量在各特定取值上的概率具体例子累积分布函数(Cumulative Distr
2021-12-02 07:59:56
3853
原创 独立事件-independent event
学习整理笔记,为方便以后温习所用独立事件知道事件A及B,如果知道一个事件A发生,并不影响另一个事件B的发生的概率,那么事件A及B即为独立事件。对于独立事件A及B, A与B同时发生的概率等于两者单独发生的概率的乘积实例如下...
2021-11-15 08:04:04
1454
原创 Conditional Probability and Bayes Theorem
主要讲了条件概率,贝叶斯定理以及全概率定理条件概率(conditional probability)假如事件A,B来自于同一个样品空间,知道事件B发生的前提下,事件A发生的概率,即为条件概率P(A/B). The probability of event A given that event B occured.实例贝叶斯定理(Bayes Theorem)个人理解总结贝叶斯定理是由条件概率推理而来,两者求的都是条件概率P(A/B),方程式为除法,分母皆为P(B),不同的部分为分子的表达式
2021-11-15 07:48:12
648
原创 Probability Theory——模块1
概率对统计和数据科学都及其重要概率学的简单介绍**什么是统计学(Statistics)?高效利用数据来获取新知识的科学,获取和分析数据时需要不要违反道德约束。Population: 我们需要从中获取信息或者得出某些结论的客体。有时候population很大,我们无法收集所有的信息,只能从population中的一部分sample中收集信息,以概括population.什么是概率(probability)?研究一件事情发生的可能性。或者说,通过一些数学理论基础来研究事件的随机性和不确定性Expe
2021-11-10 12:05:18
314
原创 Linear regression:Polynomial regression
Polynomial regression: 多项式回归原始输入变量为2个,如x0,x1,通过转换,把原来的两个输入变量转换为5个,那为什么需要进行这些转换?We can use to transform a problem into a higher dimensional regression space (可以把一个问题转换为一个更好维度的回归空间),并且增加了不同变量之间的互作关系运行Polynomial regression的代码展示下面的代码比较了三种回归模型,Linear regr
2021-10-31 13:38:57
241
原创 linear regression:Lasso 回归
Lasso 回归:是线性回归另一种形式的正则化,采取L1 penalty,使每个输入变量相关系数(coefficients)绝对值的和最小。Lasso 回归的代码展示
2021-10-31 13:18:45
378
原创 Linear Regression:Ridge regression
Ridge regression:岭回归与least-squares method (最小二乘法)相似,只是加了一个对输入数据权重的惩罚值, 这个惩罚参数称为regularization (正则化)。正则化降低模型的复杂度,防止模型的过度拟合。Ridge regression 利用L2 regularization, 使各个输入变量的权重平方和最小。另外,使用alpha 参数控制正则化,alpha值越高,说明越多正则化,模型越简单。增加alpha值,表明使W的平均值趋向于零,或者趋向于相同。如果输入变量
2021-10-31 13:02:56
342
原创 Linear Regression: Least-Squares
什么是线性模型前提假设:输入变量与输出变量呈线性关系什么是线性回归线性回归,可以说是一个线性模型的一个实例仅有一个变量(one Feature)的线性回归模型,如下,蓝色的点为训练数据,灰色和红色的直线为对训练数据的回归预测,红色的直线为最佳的线性回归模型如下,蓝色的点为训练数据,训练数据用于预测参数W0和b,其中用于评估模型参数的方法之一为least-squares linear regression,也叫做ordinary least-squares,该评估模型的主要原理就是当平均方差(每
2021-10-31 08:12:17
1058
原创 K-Nearest Neighbours(KNN) 模型
KNN 模型,可用于分类和回归分析,KNN模型可记住整个训练数据,对一个new instance的分类流程有以下三步:如下图,当K=1时,分类边界线变化较大,not smooth,有时候呈锯齿状,高方差。这种模型具有高的复杂性,数据过拟合。尝试对每个点正确的预测,从而忽略了数据的整体分类趋势。如下图,当K=11时,分类界限更平滑,这种模型具有低的复杂性,单个点对预测的结果不会有巨大的影响KNN 模型的相关代码如下,设定K为1,3,11时,分类背景的平滑程度,以及训练数据及预测数据的准确性如下面
2021-10-31 07:35:26
1481
原创 Python K-NN分类器机器学习
监督性机器学习:输入训练数据(包括object的特征值及分类label),根据训练数据,寻找出一个最好的分类器(classifer),输入test 数据,使用训练出来的分类器进行分类,看结果是否跟已知的分类符合。监督性机器学习主要包括分类以及回归方程监督性机器学习的一个实例%matplotlib notebookimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_select
2021-10-12 07:33:22
668
原创 Python数据可视化--Matplotlib
import numpy as npimport matplotlib.pyplot as pltnumbers = np.arange(10)numbersplt.plot(numbers,color=“r”,lw=2,linestyle = “-”,marker=‘D’)lw 表示设置线条宽度,linestyle 表示设置线条类型,marker 设置 线条上点的形状添加图例,即表示每条线具体代表什么plt.legend(‘y’,fontsize=10)显示标题plt.title(‘简单
2021-05-20 09:58:43
247
原创 如何查看sra数据
Run:BioprojectBiosampleExperimentAccession list: 就是run号,可以根据这个号来下载raw data 数据登录SRA网页 https://www.ncbi.nlm.nih.gov/sra输入要搜索的物种名字,点击search3、然后在Send to 下拉框中点击Run Selector, 然后点击Go4、对搜索出来的结果打钩,如正方形方框所示,然后点击metadata, 就会下载每个run所对应的详细信息5、对于下载下来的metad
2020-11-09 17:25:05
3279
转载 sys模块 python
此文转载于 https://www.jianshu.com/p/e61dd809a060,只是用于个人需求sys模块用于提供对解释器相关的操作模块方法 解释说明sys.argv 传递到Python脚本的命令行参数列表,第一个元素是程序本身路径sys.executable 返回Python解释器在当前系统中的绝对路径sys.exit([arg]) 程序中间的退出,arg=0为正常退出sys.path 返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值sys.pl
2020-10-17 09:14:40
172
原创 如何重启一个已经完成的贝叶斯树
在跑贝叶斯树时,有时候会中途断掉,或者跑完迭代数(generation number)后出现了错误,为了避免重新从头开始跑,可以利用Mrbaye的checkpoint 文件 (一般checkpoint文件会默认生成的,后缀名位ckp,或者ckp~)我碰到的问题就是:我设定的迭代数跑完了,但是在生成一致树时发生了错误了,后来发现在code里面的outgroup的物种名写错了。解决的方法就是在rbcl.nex文件里面,修正outgroup物种的名字,增加了一些迭代数以及加上append=yes后,重新运行rb
2020-10-16 12:48:34
2005
3
原创 安装 jupyter notebook,及设定默认的python3和pip3
首先确认mac 电脑的默认python是否是python3, 如何不是,设置mac中默认的python版本为python31、查看python 默认版本$ python --version# Python 2.7.162、 查看python3 版本的安装路径 $ which python3 # /Library/Frameworks/Python.framework/Versions/3.7/bin/python33、把python 3的安装途径,添加到bashrc 文件$ echo "
2020-09-30 07:40:15
1602
1
原创 从列表生成字典
加入你有两个列表,想要在字典中按元素配对,一种写法为seq1 = ['foo','bar','baz']seq2 = ['one','two','three']mapping = {}for key, value in zip(seq1,seq2): # zip()函数将多个列表、元组的元素配对,新建一个元组构成的列表 mapping[key] = valueprint(mapping)输出结果为:{'foo': 'one', 'bar': 'two', 'baz': 'thr
2020-09-08 15:36:00
1321
原创 enumerate()函数
enumerate()函数可将一个可迭代的对象(如列表、元组或字符串)的索引下标和其所对应的数值对返回。用法enumerate(iterable, start=0)Parameters:Iterable: any object that supports iterationStart: the index value from which the counter isto be started, by default it is 0例子:基本用法list = ['Year','monty',
2020-09-08 11:49:20
412
1
原创 python split and join
split()方法默认以空格为分隔符,并把一系列字符串全部分开并返回一个列表。然而,我们也可以自己指定分隔符和分隔次数,如下面所示:sentence = "enzymes and other proteins come in many shapes."words = sentence.split() # 这个为默认设置,表示以空格为分隔符,分隔所有, 与 words=sentence.spli...
2020-03-31 08:48:59
180
原创 python 存储数据json
模块json存储数据,模块json让你能够把用户提供的信息存储在列表和字典等数据结构中,并在程序再运行时,加载该文件中的数据。函数json.dump()用来存储数据,这个函数接收两个参数,一个是要存储的数据,另一个是可用于存储数据的文件对象函数json.load()用于加载数据,接收一个参数,就是存储数据的文件对象,如下面的代码块演示了,用户首次运行程序时被提示输入自己的名字,并提醒用户下次...
2020-03-28 11:10:58
223
原创 python 文件写入和异常
1、写入文件filename = 'program.txt'with open(filename, 'w') as f_obj: # 以写入模式('w')打开文件,若要写入的文件program.txt不存在,python将自动创建这个文件 f_obj.write("I like the python.\n") # 方法write(),将一行字符串写入到文件中.方法write()不会在写...
2020-03-27 08:41:34
623
原创 python 文件操作-读取数据
1、读取整个文件filename = 'text.txt' # 把要读取的文件名存储在变量filename中with open(filename) as file_object: #打开文件,并将其存储在变量file_object中 contents = file_object.read() # **方法read(),表示读取文件的全部内容**,并将其存储在变量contents中 ...
2020-03-26 08:51:28
280
原创 Python OrderedDict 类
字典让你能够将信息关联起来,然后它们不记录你们添加键值对的顺序,要创建字典和记录添加键-值对的顺序,可使用模块collections中的OrderedDict类,如下面例子所示”from collections import OrderedDict # 从模块collections中导入OrderedDict类favorite_languages = OrderedDict() # 创建Ord...
2020-03-26 07:57:48
223
原创 Python 继承
如果你要编写的类是另一个现成类的特殊版本,可使用继承。一个类继承另一个类时,它将自动获得另一个类的所有属性和方法;原有的类称谓父类,而新类称为...
2020-03-25 09:01:47
245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人