
机器学习之路
宫灵均
又要威 又要戴头盔
展开
-
DNA序列恢复 小项目的技术总结
老师给了一个任务,让一天写出来,难顶啊,最后还是硬着头皮上,最终跟另一个同学合作,才终于写了出来。1. 读取xlsx文件:seq = pd.read_excel(r"seq.xlsx", index_col=False, header=None)2. 从0到29的范围内随机生成20个随机数:import random rand1 = random.sample(range(0, 30), 20)3. 字符串的拼接:a="aaaa"b="bbbb"seq1 = a + b原创 2021-05-22 10:31:38 · 222 阅读 · 1 评论 -
数据分析项目的预处理部分——技术总结
1. 根据文件路径来读取文件、导出文件,以及各种参数设置:sample_info=pd.read_csv('./venv/data/sample_info.csv')#读取文件得到的sample_info是dataframe类型的result_AnCg=pd.read_csv('./venv/data/AnCg_temp.csv', header=1)# header=1 让第2行作为这个dataframe的列名sample_DLPFC.to_csv('./venv/data/samp.原创 2020-09-25 16:46:43 · 359 阅读 · 1 评论 -
毕业设计
命运真是无常,一点偶然也能让人豁然开朗。周日,下午,下雨,原本只是因为迷茫不知道毕设该怎么进行下去来到了计院,没想到坐了一下就遇到了导师,更没想到导师会主动来到我面前,问我关于毕业设计的事情。我也顺势跟老师说了最近的情况,说出了我的困惑与迷茫,然后导师也很耐心很详细地跟我说了具体要干的事情、要学的东西,顿时我的内心烟消云散,豁然开朗:这不就是跟之前上数据分析与处理课时候的大作业如出一辙吗。...原创 2020-01-05 17:54:22 · 2123 阅读 · 0 评论 -
10. 朴素贝叶斯 Naive Bayes
简介:朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督算法,它既可以做回归也可以分类,只不过多是用于分类之中。朴素贝叶斯的算法根源就是基于概率论和数理统计的贝叶斯理论,因此它是根正苗红的概率模型。假设特征之间是有条件独立的,可以解决众多问题,也简化了很多计算过程,这是朴素贝叶斯被称为”朴素“的理由。因此,贝叶斯在特征之间有较多相关性的数据集上表现不佳,而现实中的数据多多少...原创 2020-01-03 15:50:42 · 680 阅读 · 0 评论 -
9. 线性回归 Linear Regresion
回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。决策树,随机森林,支持向量机的分类器等分类算法的预测标签是分类变量,多以{0,1}来表示,而无监督学习算法比如PCA,KMeans的目标根本不是求解出标签,注意加以区别。只要一切基于特征预测连续型变量的需求,我们都使用回归技术。既然线性回归是源于统计分析,我们就可以用不同的角度去理解它。从统计学的角度来看,我们...原创 2020-01-03 10:18:18 · 1519 阅读 · 0 评论 -
7&8. 支持向量机 SVM
SVM简介:支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。它源于统计学习理论, 是我们除了集成算法之外,接触的第一个强学习器。从算法的功能来看:SVM囊括了分类和聚类功能:从分类效力来讲:SVM在无论线性还是非线性分类中,都是明星般的存在,如此全能,宛如机器学习界的刘德华。从学术的角度来看:SVM是最接近深度学习的机器学习算法。...原创 2020-01-02 17:00:05 · 1248 阅读 · 0 评论 -
6. 聚类算法之K-Means
有监督学习&无监督学习:决策树,随机森林,PCA和逻辑回归,他们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。而聚类算法,就是无监督学习的代表算法。K-Means的定义:作为聚类算法的典型代表,...原创 2020-01-01 11:54:38 · 1990 阅读 · 1 评论 -
5.逻辑回归 Logistic Regression
这章感觉也不难,但终究是感觉而已。所有的不难终归都是不熟练,自己只是看着好搞而已,等到自己亲自上手用这个知识敲一段时,说不定又磕磕绊绊了呢。 我觉得这章的知识可以用于我的毕业设计,即用某个算法替代论文中的某个算法,提高预测结果。 先mark一下。————————————————————————分割线————————————————————————...原创 2019-12-30 20:55:30 · 1074 阅读 · 1 评论 -
3.数据预处理 Preprocessing & Impute
这章本来只想看看就好,不敲代码的,因为不难,但代码敲到第四章发现还是用到了挺多第三章代码的,所以稳妥一点,还是不要眼高手低,把第三章代码补回来敲一敲吧。————————————————————————分割线——————————————————————————数据无量纲化将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化...原创 2019-12-30 11:24:05 · 368 阅读 · 2 评论 -
回顾课本中Python基本知识
NumPynp.shape: 返回数组的尺寸 n行m列 则返回(n,m)plt为画图的库,其中:plot:折线图scatter:散点图bar:柱形图pie:扇形图plt参数的使用:如plt.plot( x, y, s, c, marker, alpha )中x:函数y=f(x)的自变量xy:函数y=f(x)的因变量ys:指定点的大小c:指...原创 2019-12-29 22:08:27 · 140 阅读 · 0 评论 -
4.降维工程Decomposition
理论有点复杂,但应用起来很简单,几行代码就行了,框架要记住。主要是有关可视化的语句,plot库的调用语句忘记了,之后要找个时间把课本拿来看看捡起来。————————————————————————分割线——————————————————————————前提工作:提取鸢尾花数据集iris = load_iris()y = iris.targetX = iris.data...原创 2019-12-29 16:37:43 · 291 阅读 · 0 评论 -
Mac下Anaconda Navigator打不开的解决办法
今天早上想学习,却发现打不开Anaconda,遂百度解决办法。尝试过两种解决办法,都是百度到的。第一种虽然没效果,但是应该也是一种解决办法,只不过不是解决我当前的问题的,也mark一下,万一以后遇到了呢。第一种点击 Anaconda-navigator 的图标后,图表会出现几秒(initializing),然后就退出,或者根本就是无响应,是因为权限不足。解决办法:删除你个...原创 2019-12-29 10:47:17 · 8409 阅读 · 3 评论 -
2. 随机森林 Random Forest
今天学了菜菜第二章,随机森林。顺便回顾了昨天学的决策树。具体学到了什么 总结到下面用代码和注释的形式给出,相当于给自己理清楚思路。划分训练集和测试集的代码:from sklearn.model_selection import train_test_splitXtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine...原创 2019-12-28 22:20:28 · 458 阅读 · 0 评论 -
Mac环境下Jupyter Lab的快捷键
最最常用到的 就是这几个合并两个代码块:选中+shift+M拆分两个代码块:control+shift+minus 删除代码块:连按两下D向前缩进:command+]向后缩进:command+[注释:command+/代码块变为标签:M代码块变为代码:Y...原创 2019-12-28 21:54:18 · 662 阅读 · 0 评论