
数据科学
文章平均质量分 85
DrugAI
Fight Disease With Code ! Fight Disease With Data Technology !
药学、医学、化学和生物与计算机和AI交叉的爱好者从业者。
展开
-
GitHub 3.6k Satr自监督学习(Self-Supervised Learning)资源你值得拥有!
自我监督学习已成为AI社区中令人兴奋的方向。Jitendra Malik: "Supervision is the opium of the AI researcher" Alyosha Efros: "The AI revolution will not be supervised" Yann LeCun: "self-supervised learning is the cake, supervised learning is the icing on the cake, reinforceme原创 2021-04-12 15:06:43 · 5157 阅读 · 0 评论 -
数据科学、机器学习和数据挖掘的差异
数据几乎无处不在。当前存在的数字数据量正在快速增长。这个数字每两年翻一番,完全改变了我们的基本生存方式。根据IBM的一篇论文,2012年每天生成约25亿千兆字节的数据。《福布斯》的另一篇文章告诉我们,数据的增长速度比以往任何时候都要快。该文章还暗示,到2020年,每秒将为这个星球上的所有人类居民开发约17亿新信息。随着数据以更快的速度增长,出现了与处理和处理数据相关的新术语。这些包括数据科学,...原创 2020-04-03 15:25:13 · 2813 阅读 · 0 评论 -
数据可视化 | Seaborn
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。 Python中的一个制图工具库,可以制作出吸引人的、信息量大的统计图 在Matplotlib上构建,支持...原创 2020-02-12 22:02:54 · 1065 阅读 · 1 评论 -
数据挖掘(Data Mining)| 数据分析建模理论基础
大数据分析场景和模型应用数据分析建模需要先明确业务需求,然后选择是描述型分析还是预测型分析。 如果分析的目的是描述目标行为模式,就采用描述型数据分析,描述型分析就考虑关联规则、序列规则、聚类等模型。 如果是预测型数据分析,就是量化未来一段时间内,某个事件的发生概率。有两大预测分析模型,分类预测和回归预测。 常见的数据建模分类分类与...原创 2020-02-12 21:27:06 · 2213 阅读 · 0 评论 -
数据分析工具Pandas(7):数据清洗、合并、转化和重构
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算数据分析工具Pandas(4):Pandas的函数应用数据分析工具Pandas(5):Pandas的层级索引数据分析工具Pandas(6):Pandas统计计算和描述数据清洗 数据清洗是数据分析关键的一步,直...原创 2020-02-12 21:06:33 · 1614 阅读 · 0 评论 -
数据分析工具Pandas(6):Pandas统计计算和描述
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算数据分析工具Pandas(4):Pandas的函数应用数据分析工具Pandas(5):Pandas的层级索引Pandas统计计算和描述import numpy as npimport pandas ...原创 2020-02-12 20:49:34 · 1356 阅读 · 0 评论 -
数据分析工具Pandas(5):Pandas的层级索引
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算数据分析工具Pandas(4):Pandas的函数应用层级索引(hierarchical indexing)下面创建一个Series, 在输入索引Index时,输入了由两个子list组成的list,第一个子li...原创 2020-02-12 20:40:24 · 1157 阅读 · 0 评论 -
数据分析工具Pandas(4):Pandas的函数应用
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算Pandas的函数应用apply 和 applymap1. 可直接使用NumPy的函数# Numpy ufunc 函数df = pd.DataFrame(np.random.randn(5,4)...原创 2020-02-12 20:30:33 · 2411 阅读 · 0 评论 -
数据分析工具Pandas(3):Pandas的对齐运算
数据分析工具Pandas(1):Pandas的数据结构数据分析工具Pandas(2):Pandas的索引操作数据分析工具Pandas(3):Pandas的对齐运算Pandas的对齐运算是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaNSeries的对齐运算1. Series 按行、索引对齐s1 = pd.Serie...原创 2020-02-12 20:25:22 · 1337 阅读 · 0 评论 -
数据分析工具Pandas(2):Pandas的索引操作
数据分析工具Pandas(1):Pandas的数据结构Pandas的索引操作索引对象Index1. Series和DataFrame中的索引都是Index对象print(type(ser_obj.index))print(type(df_obj2.index))print(df_obj2.index)运行结果:<class 'pandas....原创 2020-02-12 20:05:29 · 1366 阅读 · 0 评论 -
数据分析工具Pandas(1):Pandas的数据结构
PandasPandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。 一个强大的分析和操作大型结构化数据集所需的工具集 基础是NumPy,提供了...原创 2020-02-11 21:06:28 · 1736 阅读 · 0 评论 -
科学计算工具NumPy(3):ndarray的元素处理
科学计算工具NumPy(1):ndarray的创建于数据类型科学计算工具NumPy(2):ndarray的矩阵处理元素计算函数 ceil(): 向上最接近的整数,参数是 number 或 array floor(): 向下最接近的整数,参数是 number 或 array rint(): 四舍五入,参数是 number 或 array isnan(): 判断元素...原创 2020-02-11 20:11:25 · 1380 阅读 · 0 评论 -
科学计算工具NumPy(2):ndarray的矩阵处理
ndarray的矩阵运算数组是编程中的概念,矩阵、矢量是数学概念。在计算机编程中,矩阵可以用数组形式定义,矢量可以用结构定义!1. 矢量运算:相同大小的数组间运算应用在元素上# 矢量与矢量运算arr = np.array([[1, 2, 3], [4, 5, 6]])print("元素相乘:")print(arr * arr)...原创 2020-02-11 20:07:53 · 1235 阅读 · 0 评论 -
科学计算工具NumPy(1):ndarray的创建于数据类型
Numpy(Numerical Python)Numpy:提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。 高性能科学计算和数据分析的基础包 ndarray,多维数组(矩阵...原创 2020-02-11 20:01:32 · 1281 阅读 · 0 评论 -
欧几里德结构数据与 非欧几里德结构数据
总的来说,数据类型可以分为两大类:欧几里德结构数据(Euclidean Structure Data) 非欧几里德结构数据(Non-Euclidean Structure Data)所谓的欧几里德数据指的是类似于grids, sequences… 这样的数据,例如图像就可以看作是2D的grid数据,语音信号就可以看作是1D的grid数据。但是现实的处理问题当中还存在大量的 N...原创 2020-02-19 20:12:49 · 6605 阅读 · 0 评论 -
差异基因分析:fold change(差异倍数), P-value(差异的显著性)
做基因表达分析时必然会要做差异分析(DE)DE的方法主要有两种:Fold change t-testfold change的意思是样本质检表达量的差异倍数,log2 fold change的意思是取log2,这样可以可以让差异特别大的和差异比较小的数值缩小之间的差距。Q-value,是P-value校正值,P值是统计差异的显著性的。Q值比P值更严格的一种统计。p-value...转载 2019-03-28 11:28:04 · 54323 阅读 · 0 评论 -
Python生物信息学⑥绘制热图及火山图
Python生物信息学⑥绘制热图及火山图Python生物信息学③提取差异基因通过上Python生物信息学③提取差异基因得到了该数据集的差异分析的两个关键参数,1.差异倍数(foldchange)以及2.差异的P值。本篇目的是得到满足差异倍数和差异P值的基因,同时进行可视化(包括差异分析常见的火山图和热图)。绘制火山图(1)第一步制作差异分析结果数据框genearray = n...原创 2019-03-30 22:42:31 · 14758 阅读 · 4 评论 -
心脏病预测模型(基于Python的数据挖据)
作者:Abdullah Alrhmoun该项目的目标是建立一个模型,该模型可以根据描述疾病的特征组合预测心脏病发生的概率。为了实现这一目标,作者使用了瑞士Cleveland Clinic Foundation收集的数据集。该项目中使用的数据集包含针对心脏病的14个特征。数据集显示不同水平的心脏病存在从1到4和0没有疾病。我们有303行人数据,13个连续观察不同的症状。此项目研究了不同的经典...原创 2019-04-13 21:20:00 · 17454 阅读 · 2 评论 -
差异表达基因-火山图和聚类图解释
想研究某现象的分子机制,老板豪气的来一句,先测个转录组吧,看下差异表达基因。是否在心里窃喜,制个样就完事了,太easy有木有。等大堆数据回来的时候,是不是傻眼了?从何下手挑选差异表达基因呢?今天就先来聊聊如何看差异表达基因数据,火山图,聚类图又怎么看。1差异基因筛选方法那差异基因是如何筛选出来的呢?差异基因的筛选方法有很多,包括倍数法、T检验、F检验及SAM等。下面简单介绍一下GCBI...转载 2019-02-15 10:40:38 · 45400 阅读 · 0 评论 -
Python脚本:将mol2分子库文件拆分为单个mol2文件
如题:将mol2分子库文件拆分为单个mol2文件用法:python split_multimol2.py multi-mol2.mol2 out_dir注释:python 脚本文件 mol2分子库 输出目录split_multimol2.py:#Python2 or Python3#AspirinCode 2018#Script that splits a multi-...原创 2018-07-12 11:19:11 · 4187 阅读 · 2 评论 -
数据挖掘与数据分析
一、数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。数据挖掘和数据分析的不同之处:1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数...原创 2018-05-28 13:58:14 · 67685 阅读 · 8 评论 -
DrugBank:小分子数据信息挖掘
DrugBank数据库简介DrugBank数据库是唯一将详细的药品数据(即化学,药理学和制药)与综合药物靶点信息(即序列,结构和作用通路)相结合的“生物信息学和化学信息学”资源.DrugBank由加拿大卫生研究院,亚伯达省创新 - 健康解决方案和代谢组学创新中心(TMIC)提供支持,该中心是国家资助的研究以及支持广泛的尖端技术代谢组学研究的核心.DrugBank数据库查询包含以下信息:药品类型...原创 2018-08-21 18:59:13 · 21831 阅读 · 25 评论 -
机器学习的应用
Applied Machine Learning原创 2019-10-29 17:30:40 · 1051 阅读 · 0 评论 -
人工智能 vs 机器学习 vs 深度学习的区别
In fact, the business plans of the next 10,000 startups are easy to forecast: Take X and add AI. Find something that can be made better by adding online smartness to it-Kevin Kelly, The Inevitabl...原创 2019-10-29 17:05:39 · 1240 阅读 · 0 评论 -
PubChem的Python接口PubChemPy
PubChemPubChem,即有机小分子生物活性数据,是一种化学模组的数据库,由美国国家健康研究院( US National Institutes of Health,NIH)支持,美国国家生物技术信息中心负责维护。PubChem数据库包括 3个子数据库: PubChem BioAssay 库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献; PubChem Compoun...原创 2019-10-24 15:58:51 · 7249 阅读 · 4 评论 -
回归模型-衡量预测质量的指标:
衡量预测质量的指标:误差平方:缺点:取值与样本量n有关,随着数据集的增大而增大均方误差(Mean Squared Errer,MSE):平方误差的均值缺点:平均偏离误差数是呈x^2平方增长均方根误差(Root Mean Squared Error,RMSE)缺点:取值范围为无穷,不能直观的看出模型的质量拟合优度 r2=r2xy(SST=Syy):...原创 2019-10-24 15:24:29 · 2494 阅读 · 0 评论 -
Python创建Excel表格并写入数据之xlwt
#!python3#coding:utf-8import xlwtf = xlwt.Workbook()sheet1 = f.add_sheet(r'sheet1', cell_overwrite_ok=True)sheet1.write(0,0,"Name")sheet1.write(0,1,"Conf")sheet1.write(0,2,"Grid score")sh...原创 2019-10-24 15:18:08 · 4399 阅读 · 0 评论 -
图神经网络(GNN)的简介
近年来,图神经网络(GNN)在社交网络、知识图、推荐系统甚至生命科学等各个领域得到了越来越广泛的应用。GNN在对图节点之间依赖关系进行建模的强大功能,使得与图分析相关的研究领域取得了突破。本文介绍了图神经网络的基本原理,以及两种高级的算法,DeepWalk和GraphSage。图(Graph)在讨论GNN之前,我们先来了解一下什么是图。在计算机科学中,图是由顶点和边两部分组成的一种数据结构...转载 2019-10-09 17:22:59 · 59610 阅读 · 1 评论 -
数据科学 | Python数据科学常用库
Python 在解决数据科学任务和挑战方面继续处于领先地位。目录核心库IPythonNumPySciPyPandasStatsModels可视化MatplotlibSeabornPlotlyBokehPydot机器学习Scikit-learnXGBoost / LightGBM / CatBoostEli5深度学...原创 2019-10-04 18:18:57 · 1750 阅读 · 0 评论 -
DIKW体系(Data-Information-Knowlege-Wisdom)
这个世界上,失败的人除了天分太差之外,只有以下几点,懒,方向不对,方法不对,没有坚持。你是哪一种呢?关于DIKW体系 DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪里丢失了信息中的知识?”(Where is the wisdom we have lost ...原创 2019-10-04 17:01:08 · 8946 阅读 · 0 评论 -
Data Science | 数据分析
数据分析:Data Analysis 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的过程数据收集:本地数据或者网络数据的采集与操作. 数据处理:数据的规整,按照某种格式进行整合存储。 ...原创 2019-10-04 16:45:24 · 1256 阅读 · 0 评论 -
Data Science | 数据科学简介
数据科学(Data Science) 数据科学是一个跨学科的领域,包含所有与结构化和非结构化数据相关的内容,从准备、清理、分析和源于有用的视角开始。它结合了数学、统计学、智能数据捕获、编程、问题解决、数据清理、不同的观察角度、准备和数据对齐。 简而言之,它是对数据进行处理的几种技术和流程的组合,以获得有价值的业务视角。通过使用科学的方法、算法、流程和系统来有效地提取...原创 2019-10-04 01:24:44 · 4081 阅读 · 0 评论