- 博客(31)
- 收藏
- 关注
原创 相关性分析
斯皮爾曼等級相關係數:無母數分析(non-parametric analysis)。直接使用資料數值算統計叫parametric方法,把資料排序之後用排序的名次算統計叫non-parametric方法。斯皮爾曼等級相關係數前提假設:無。皮爾森相關係數分析類型:母數分析(parametric analysis)。直接使用資料數值算統計叫parametric方法,把資料排序之後用排序的名次算統計叫non-parametric方法。3.皮爾森相關係數前提假設:兩組變數之資料均為常態...
2020-10-14 09:42:40
362
原创 sratoolkit
执行之前先配置。This sra toolkit installation has not been configured.Before continuing, please run: vdb-config --interactive
2020-08-06 16:23:02
1139
原创 tableone
参考文章:https://cran.r-project.org/web/packages/tableone/vignettes/introduction.htmlstep1. install.packages('tableone')step2.library(tableone) #load 'tableone' packagestep3.f = read.csv('12...
2020-04-14 15:19:02
488
原创 ROC
Setting levels: control = 0, case = 1Setting direction: controls < casesdirection:根据两组数据中位数大小确定;“>”: control组中位数值大于cases组;“<”:control组中位数值小于或等于cases组...
2020-04-08 19:02:33
5529
3
原创 多重共线性
1.多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施,如果VIF值大于10说明共线性很严重,这种情况需要处理,如果VIF值在5以下不需要处理,如果VIF介于5~10之间视情况而定。2.如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。...
2020-04-02 16:16:45
1932
原创 glm
广义线性模型:包括lasso, ridge,elastic net 。glmnet 只能接受数值矩阵作为模型输入,如果自变量中有离散变量的话,#需要把这一列离散变量转化为几列只含有 0 和 1 的向量, 这个过程叫做 One Hot Encoding。...
2020-03-31 09:05:02
276
原创 lefse分析
LEfSe(LDA Effect Size)分析,可以用于两个或多个分组之间的比较,从而找到组间 有显著性差异的物种(即 biomarker),分析步骤主要分为三步:Step1:利用 Kruskal-Wallis 秩和检验检测所有的特征物种,通过检测不同组间的物种丰 度差异,获得显著性差异物种。Step2:再利用 Wilcoxon 秩和检验检测上步获得的显著性差异物种的所有亚种是否都趋 同...
2020-03-24 16:49:45
7370
原创 logistic regression
> mydata <- read.csv("binary.csv")> head(mydata) admit gre gpa rank1 0 380 3.61 32 1 660 3.67 33 1 800 4.00 14 1 640 3.19 45 0 520 2.93 46 1 ...
2020-03-23 12:39:47
528
原创 logit regression
> CarData = read.table('car.data',sep=',',col.names=c('buying','maintenance','doors','persons','lug_boot','safety','rating'))> summary(CarData) buying maintenance doors persons ...
2020-03-20 13:31:42
153
原创 随机森林
在这里,我调整了要随ntree增长的树的数量(标准值为500)。变量mtry指定将选择多少个随机特征来生长一棵树。在这里,我选择mtry = 3,这意味着每次树木生长时,将随机选择集合{Sex,Pclass,Parch,SibSp,Embarked}中的三个特征。如果输入:...
2020-03-20 11:11:20
228
原创 哑变量处理
可以看到,该结果和model.matrix稍有区别,生成了四个虚拟变量。要注意,为了避免多重共线性,对于level=n的分类变量只需选取其任意n-1个虚拟变量。
2020-03-18 16:57:11
1409
原创 独立危险因素
所危险因素和保护因素是相对的,比如说肥胖与否对于II型糖尿病,肥胖相对于正常是危险因素,那么正常对于肥胖就是保护因素独立危险因素是控制其他变量后,该结果还有统计学意义,再结合实际的情况做出的解释,统计学上的有意义不一定代表实际也有意义。在做Logistic回归分析时,OR大于1称为危险因素,小于1称为保护因素。...
2020-03-18 13:38:55
7256
原创 Metagenomics Biomarkers Selected for Prediction of Three Different Diseases in Chinese Population
材料:3种疾病,糖尿病、肝、关节炎。四分类方法:1.数据处理:相对丰度矩阵;2.特征选择:最大相关最小冗余3.建模:7种(机器学习效果最好)4.评估:AUC结果:筛了300个biomarker...
2020-03-18 11:18:17
202
原创 特征缩放的适用范围
参考:https://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e具有欧几里德距离度量的k个近邻对幅度敏感,因此应按比例缩放所有要素以均等地加权。 在执行主成分分析(PCA)时,缩放至关重要。PCA尝试获取具有最大方差的特征,而对于高强度特征,方差很高。这会使PCA偏向高强度特征。 我...
2020-03-17 16:25:52
300
原创 t检验
前提:正态性假设检验1.画QQplotlibrary(car)#QQ-plotqqPlot(lm(value~group,data=richness_12),simulate=TRUE,main='QQPlot',labels=FALSE)2.Shapiro-Wilk检验我们还可使用Shapiro-Wilk检验验证数据分布的正态性,它类似于线性...
2020-03-12 16:12:17
264
原创 excel合并列
=A1&"-"&B1 #按-分隔符合并https://jingyan.baidu.com/article/ad310e80e4eddd1848f49e53.html
2020-03-09 17:10:05
193
原创 pheatmap in R
# 对数转换# +1是为了防止对0取对数;是加1还是加个更小的值取决于数据的分布。# 加的值一般认为是检测的低阈值,低于这个值的数字之间的差异可以忽略。data_log <- log2(data+1)Z-score又称为标准分数,是一组数中的每个数减去这一组数的平均值再除以这一组数的标准差,代表的是原始分数距离原始平均值的距离,以标准差为单位。可以对不同分布的各原始分数进行比...
2020-03-09 16:19:45
398
原创 centos7安装HFE算法
参考文章:https://fracpete.github.io/python-weka-wrapper/install.html需要将JDK写到环境变量里面去安装步骤如网站所示。除此以外:在javabridge安装时报错,需要在之前再安装一个Cython。再安装python-weka-wrapper即可。...
2020-03-09 12:51:02
152
原创 t检验,卡方检验,方差分析与单因素回归分析等价
详见链接https://www.mediecogroup.com/method_topic_article_detail/158/
2020-03-05 16:40:41
2045
原创 lasso回归和ridge回归
LASSO回归复杂度调整的程度由参数λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少的模型。λ越大,变量越少。
2020-03-05 11:41:29
1862
原创 卡方检验chiq.test()
数据类型:因子型变量(患/不患肺癌,吸/不吸烟) 患肺癌 不患肺癌 合计 吸烟 60 32 92 未吸烟 3 11 14 合计 63 43 106 目的:研究吸烟是否与肺癌有关代码:x = c(60, 3, 32, 11)dim(x) =c(2, 2)chisq.test(x, ...
2020-03-05 10:54:52
1307
原创 如何更新Rstudio
install.packages('installr')library(installr)updateR()#没能更新,不知道哪里出了问题,可能是网络原因
2019-08-11 21:55:06
8638
1
原创 python-037
0. 继承性1. 对象2. 默认自己?3. __(在变量或者函数名前)4. __init__5. 没有默认的参数?#-----定义一个游乐园门票的类-----#class Ticket: workday_ticket = 100 weekend_ticket = 1.2 * workday_ticket def workday
2017-11-12 18:38:47
128
原创 python-035
0. 变量和函数1. emmmm,包含关系?2. 机器猫?3. 长宽4. 具体?5. 封装:看不到继承:你有我也有多态:多法多效6. 现在还没发现2.0class Person: name = '小甲鱼' def name1(self): print(self.name)#-------矩形类实例对象-
2017-11-12 16:37:21
136
原创 python-028
0.A1.只读2.不懂3.关闭之后缓存的内容才会存入文件中4.将文件转化为列表list(f)5.for each_line in f:print(each_line)6.读取10个字符长度7.f.tell8.不懂
2017-10-17 20:46:04
245
原创 python-027
0.集合中的元素唯一1.frozenset()2.len()计算3.报错4.不一样5.报错6.set.add()set.remove()
2017-10-17 17:31:04
180
原创 python-026
0.不支持1.报错2.序列检查,检查字典只能检查键,不能检查值3.没有4.1:‘数字’,3:‘数字’5.dict2 = dict1动动手:0.#-------利用字典编写登录程序------#contacts = dict()while 1: print('|---新建用户:N/n---|') print('|--
2017-10-17 09:45:14
154
原创 python-025
0.python中的字典1.dict1 = {'F':70, 'C':67, 'h':104, 'i':105, 's':115>>> dict1['C']2.不对,字典是映射3.emmmm4.一样的,全都是字典a是字典 //不懂5.data = '1000, 小甲鱼, 男'MyDict = {}(MyDict['id'], MyDict['na
2017-10-15 20:46:16
167
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人