
Data_Science & Statistics
Data_Science & Statistics
DrugAI
Fight Disease With Code ! Fight Disease With Data Technology !
药学、医学、化学和生物与计算机和AI交叉的爱好者从业者。
展开
-
数据科学、机器学习和数据挖掘的差异
数据几乎无处不在。当前存在的数字数据量正在快速增长。这个数字每两年翻一番,完全改变了我们的基本生存方式。根据IBM的一篇论文,2012年每天生成约25亿千兆字节的数据。《福布斯》的另一篇文章告诉我们,数据的增长速度比以往任何时候都要快。该文章还暗示,到2020年,每秒将为这个星球上的所有人类居民开发约17亿新信息。随着数据以更快的速度增长,出现了与处理和处理数据相关的新术语。这些包括数据科学,...原创 2020-04-03 15:25:13 · 2813 阅读 · 0 评论 -
数据可视化 | Seaborn
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。 Python中的一个制图工具库,可以制作出吸引人的、信息量大的统计图 在Matplotlib上构建,支持...原创 2020-02-12 22:02:54 · 1065 阅读 · 1 评论 -
数据挖掘(Data Mining)| 数据分析建模理论基础
大数据分析场景和模型应用数据分析建模需要先明确业务需求,然后选择是描述型分析还是预测型分析。 如果分析的目的是描述目标行为模式,就采用描述型数据分析,描述型分析就考虑关联规则、序列规则、聚类等模型。 如果是预测型数据分析,就是量化未来一段时间内,某个事件的发生概率。有两大预测分析模型,分类预测和回归预测。 常见的数据建模分类分类与...原创 2020-02-12 21:27:06 · 2213 阅读 · 0 评论 -
数据分析工具Pandas(6):Pandas统计计算和描述
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算数据分析工具Pandas(4):Pandas的函数应用数据分析工具Pandas(5):Pandas的层级索引Pandas统计计算和描述import numpy as npimport pandas ...原创 2020-02-12 20:49:34 · 1356 阅读 · 0 评论 -
数据分析工具Pandas(4):Pandas的函数应用
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算Pandas的函数应用apply 和 applymap1. 可直接使用NumPy的函数# Numpy ufunc 函数df = pd.DataFrame(np.random.randn(5,4)...原创 2020-02-12 20:30:33 · 2411 阅读 · 0 评论 -
数据分析工具Pandas(2):Pandas的索引操作
数据分析工具Pandas(1):Pandas的数据结构Pandas的索引操作索引对象Index1. Series和DataFrame中的索引都是Index对象print(type(ser_obj.index))print(type(df_obj2.index))print(df_obj2.index)运行结果:<class 'pandas....原创 2020-02-12 20:05:29 · 1366 阅读 · 0 评论 -
数据分析工具Pandas(1):Pandas的数据结构
PandasPandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。 一个强大的分析和操作大型结构化数据集所需的工具集 基础是NumPy,提供了...原创 2020-02-11 21:06:28 · 1736 阅读 · 0 评论 -
科学计算工具NumPy(3):ndarray的元素处理
科学计算工具NumPy(1):ndarray的创建于数据类型科学计算工具NumPy(2):ndarray的矩阵处理元素计算函数 ceil(): 向上最接近的整数,参数是 number 或 array floor(): 向下最接近的整数,参数是 number 或 array rint(): 四舍五入,参数是 number 或 array isnan(): 判断元素...原创 2020-02-11 20:11:25 · 1380 阅读 · 0 评论 -
科学计算工具NumPy(2):ndarray的矩阵处理
ndarray的矩阵运算数组是编程中的概念,矩阵、矢量是数学概念。在计算机编程中,矩阵可以用数组形式定义,矢量可以用结构定义!1. 矢量运算:相同大小的数组间运算应用在元素上# 矢量与矢量运算arr = np.array([[1, 2, 3], [4, 5, 6]])print("元素相乘:")print(arr * arr)...原创 2020-02-11 20:07:53 · 1235 阅读 · 0 评论 -
科学计算工具NumPy(1):ndarray的创建于数据类型
Numpy(Numerical Python)Numpy:提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。 高性能科学计算和数据分析的基础包 ndarray,多维数组(矩阵...原创 2020-02-11 20:01:32 · 1281 阅读 · 0 评论 -
差异基因分析:fold change(差异倍数), P-value(差异的显著性)
做基因表达分析时必然会要做差异分析(DE)DE的方法主要有两种:Fold change t-testfold change的意思是样本质检表达量的差异倍数,log2 fold change的意思是取log2,这样可以可以让差异特别大的和差异比较小的数值缩小之间的差距。Q-value,是P-value校正值,P值是统计差异的显著性的。Q值比P值更严格的一种统计。p-value...转载 2019-03-28 11:28:04 · 54322 阅读 · 0 评论 -
数据挖掘与数据分析
一、数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。数据挖掘和数据分析的不同之处:1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数...原创 2018-05-28 13:58:14 · 67685 阅读 · 8 评论 -
[数据科学] 通过基因表达监测进行肿瘤预测
简介通过基因表达监测(DNA微阵列)对新的癌症病例进行分类,从而为鉴定新的癌症类别和将肿瘤分配到已知类别提供了一般方法。这些数据用于对患有急性髓性白血病(AML)和急性淋巴细胞白血病(ALL)的患者进行分类。代码实例导入依赖库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%mat...原创 2019-08-16 13:53:36 · 2337 阅读 · 7 评论