利用python进行数据分析
练习时长两年半的生信生
喜欢R,python,shell
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用python进行数据分析(十八)
第五章5.2.4整数索引虽然我们可以使用整数索引对pandas对象执行索引,原创 2020-07-27 23:44:03 · 291 阅读 · 0 评论 -
利用python进行数据分析(十七)
第五章5.2.3 索引选择与过滤Series的索引与NumPy数组的索引功能类似,不过Series的索引值可以不仅仅是整数。>>>obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])>>>obja 0.0b 1.0c 2.0d 3.0dtype: float64>>>obj['a']0.0>>>obj[0]0.0#索.原创 2020-07-26 00:02:54 · 235 阅读 · 0 评论 -
利用python进行数据分析(十六)
第五章5.1.3索引对象pandas中的索引对象是用于存储轴标签和其它元数据的(例如轴名称和标签)。在构造Series或FataFrame时,使用的任意数组或标签序列,都可以在内部转换为索引对象。>>>obj = pd.Series(range(3), index=['a', 'b', 'c'])>>>index = obj.index>>>indexIndex(['a', 'b', 'c'], dtype='object')>&.原创 2020-07-25 00:29:11 · 306 阅读 · 0 评论 -
利用python进行数据分析(十五)
第五章 pandas入门锣鼓喧天,鞭炮齐鸣,终于第五章了。pandas支持大部分NumPy语言风格的数组计算,尤其是数组函数以及没有for循环的各种数据处理。尽管pandas采用了很多NumPy的代码风格,但最大的不同在于pandas是用来处理表格型或异质型数据的,而NumPy更适合处理同质型的数值数组数据。使用前先导入pandas模块:>>>import pandas as pd5.1 pandas数据结构介绍pandas含有两个最常用的数据结构:Series和Data.原创 2020-07-21 23:51:30 · 401 阅读 · 0 评论 -
利用python进行数据分析(十四)
第四章4.3 使用数组进行面向数组编程使用NumPy数组可以使你利用简单的数组表达式完成多种数据操作任务,而无需写大量循环。这种利用数组表达式来替代显式循环的方法,称为向量化。向量化的数组操作会比纯python的等价实现在速度上快一到两个数量级。4.3.1 将条件逻辑作为数组操作numpy.where函数是三元表达式 x if condition else y的向量化版本,假设我们有一个布尔值数组和两个数值数组:>>>xarr = np.array([1.1, 1.2, 1..原创 2020-07-21 00:45:40 · 493 阅读 · 0 评论 -
利用python进行数据分析(十三)
第四章4.2 通用函数:快速的逐元素数组函数通用函数也称为ufunc,是一种在ndarray数据中进行逐元素操作的函数。常用的一元通用函数:函数名描述ads, fabs逐元素的计算整数、浮点数或者复数的绝对值sqrt计算每个元素的平方根(与 arr ** 0.5 相等)square计算每个元素的平方(与 arr ** 2 相等)exp计算每个元素的自然指数值 e xlog, log10, log2分别对应:自然对数(e为底)、对数10为底、对.原创 2020-07-19 00:09:40 · 257 阅读 · 0 评论 -
利用python进行数据分析(十二)
第四章4.1.6 神奇索引神奇索引是NumPy中的术语,用于描述使用整数数组进行数据索引。假设有一个8X4的数组:原创 2020-07-18 01:08:25 · 235 阅读 · 0 评论 -
利用python进行数据分析(十一)
第四章4.1.3NumPy数组运算数组允许我们进行批量操作而无需任何for循环,称之为向量化。在任何两个等尺寸的数组之间的算术操作都应用了逐元素的方式,带有标量计算的算术操作会把计算参数传递给数组的每一个元素。>>>arr = np.array([[1., 2., 3.], [4., 5., 6]])>>>arrarray([[1., 2., 3.], [4., 5., 6.]])>>>arr * arrarray([[ .原创 2020-07-15 23:26:05 · 702 阅读 · 0 评论 -
利用python进行数据分析(十)
第4章 NumPy基础:数组与向量化计算NumPy,是Numerical Python的简称,它是目前python数值计算中最为重要的基础包,具有三个显著的优点:它的设计对于含有大量数组的数据非常有效,对于内存的使用少,它可以针对全量数组进行复杂计算而不需要写python循环。4.1 NumPy ndarry:多维数组对象NumPy的核心特征之一就是N-维数组对象--ndarry,ndarry是python中一个快速灵活的大型数据集容器,数组允许我们使用类似于标量的操作语法在整块数据上进行数学计算.原创 2020-07-14 00:14:36 · 359 阅读 · 0 评论 -
利用python进行数据分析(九)
第三章3.3 文件读取与写入5)写入文件我们有时候需要将一些内容写入文件中:>>>with open('out_file.txt', 'w', encoding='utf-8') as output_file: output_file.write('Good Good Study' + '\n') output_file.write('Day Day Up!')然后我们打开out_file.txt会看到:Good Good StudyDay Day.原创 2020-07-12 23:23:01 · 379 阅读 · 0 评论 -
利用python进行数据分析(八)
第三章3.3文件与操作系统微生物基因组1,从微生物基因组可以预测出微生物的底物利用模式,这对重建微生物代谢途径有重要价值。对大量培养困难或者不可培养的微生物的基因组分析,可以用来确定其培养条件。例如对耐辐射异常球菌的基因组分析,帮助确定了其在营养受限的辐射环境中保持生长的关键营养要素。2,DNA微阵列可以确定不同生长条件下基因的表达情况;也用于与参照基因组比较,发现不同菌株或物种间基因存在或缺失。通过用微阵列技术比较了在丰富培养基和基本培养基中的基因表达,获得了微生物在不同生长条件下的基因表.原创 2020-07-12 10:45:19 · 475 阅读 · 0 评论 -
利用python进行数据分析(七)
3 函数3.2.7 错误和异常处理python使用被称为异常的特殊对象来管理程序执行期间发生的错误。也就是当我们编写的程序出现错误时返回的traceback,它提示给我们代码哪个地方出现了那种异常,如果我们不对此进行处理,程序则会终止。异常是使用try-except代码块处理的,try-except代码块让python执行指定的操作,同时告诉python发生异常时怎么办。因此,当使用了try-except代码块时,即便出现了异常,程序也将继续执行。做一个简单的例子,我们在python中执行5/0.原创 2020-07-10 23:14:31 · 421 阅读 · 0 评论 -
利用python进行数据分析(六)
第3章 函数3.2.4 匿名函数匿名函数是一种通过单个语句生成函数的方式,其结果本身就是是返回值,不需要def定 和return返回,调用更加方便。匿名函数使用lambda关键字定义,表达“我们声明一个匿名函数的意思”。其通用的格式为:<名称> = lambda <参数1 ... 参数n> : <表达式>看如下例子:>>>def short_function(x): return x * 2>>> s.原创 2020-07-09 23:39:31 · 660 阅读 · 0 评论 -
利用python进行数据分析(五)
为了函数这节内容,翻了四本书… …虽然这本书讲的不是最系统的,内容还是按着这本书的顺序来吧。3.2 函数函数是一段具有特定功能的、可复用的语句组。如果需要多次重复相同或者类似的代码,就非常值得写一个可复用的函数。函数定义通常的格式为:def <函数名>(<参数(0个或多个)>): <函数体> return <返回值>定义一个函数,计算(A+B)/C的值:>>>def cal_num(A, B, C=1): s.原创 2020-07-09 02:37:12 · 2141 阅读 · 0 评论 -
利用python进行数据分析(四)
微生物基因组 - 历史1,1920年,基因组genome一词第一次引入学术界,它是由基因GENe和染色体chromosOME两个词组合而成的。2,1975年,两个独立的研究组分别宣布发明了DNA测序技术;1977年,sanger改进了测序技术,到1978年,已经可以从一块胶上读出几百个碱基了。3,1977年,sanger研究组完成了第一个全基因组–фX174噬菌体基因组,5386bp。4,1986年,第一台自动DNA测序仪诞生。1987年自动测序仪上市,每天可测1~2万个碱基。5,1986年,.原创 2020-07-06 22:19:34 · 662 阅读 · 2 评论 -
利用python进行数据分析(三)
写在前面:其实能发现这本书的章节安排并没有很系统,有些地方我觉得再多写一些东西进去就更好了。。。恩,老老实实顺着书的目录往下去吧,得相信作者这样安排是有用意的。。第三章3.1.3 内建序列函数a) enumrate我们通常需要在遍历一个序列的同时追踪当前元素的索引,如打印成绩排名,常用使用添加一个flag的for循环的方式:>>>name_list = ['aa', 'bb', 'cc', 'dd']>>>dict_list={}>>&g.原创 2020-07-06 09:18:19 · 454 阅读 · 0 评论 -
利用python进行数据分析(二)
第3章 内建数据结构,函数及文件3.1.1 元组a) 元组是一种固定长度、不可变的python对象序列,创建元组最简单的办法就是用逗号分隔序列值,通常情况下用括号括起来更明了。b) 虽然元组中储存的对象其自身是可变的,如列表,但元组一旦被创建,各个位置的对象是无法被修改的:假设元组中某个位置对象为列表,那你可以在这个列表内部修改列表,但是不可以修改此处列表为其他对象。c) 使用“+”将两个元组连在一起,使用“*”乘以整数生成含有多个拷贝的元组,元组支持切片操作。>>>tup .原创 2020-07-04 00:13:12 · 415 阅读 · 1 评论 -
利用python进行数据分析(一)
写在前面:作为一个练习时长两年半的生信生,对于shell,python,R都会一点,但都是半吊子水平,总想系统深入学习一下自己又总是懒,控制不了自己的时间安排。2020年已经过去一半了,自己也要马上博士二年级,不能再拖沓了,决定得踏实做点什么。买过的书不少,这本《利用python进行数据分析》买了一年多还是才看过几章,甚至懒得连里面的代码都没敲敲;还有一本《流畅的python》,当时还找颜宁老师签过名(不要问为啥拿这本书签的,我也头疼为啥我抽风要拿这本)却连翻都没翻过,每次想起来都会觉得愧疚。经过至少1.原创 2020-07-02 23:54:25 · 805 阅读 · 0 评论
分享