人类各染色体缺失/重复统计柱状图（matplotlib）

原创

已于 2024-07-15 19:04:57 修改 · 396 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#matplotlib #python #数据分析

于 2024-05-17 13:36:47 首次发布

该博客介绍了如何利用Python的matplotlib库，绘制人类24条染色体的缺失和重复统计柱状图。首先，定义了读取数据文件的函数，然后合并绘图所需的数据，接着绘制柱状图，并最终展示结果。

绘制人类各条染色体缺失/重复统计柱状图。

读取数据文件函数

import pandas as pd
import matplotlib as plt

def read_file(file_path: str):
    if file_path.endswith(('.tsv', '.txt')):
        # 缺失值填充为NA
        return pd.read_csv(file_path, sep='\t').fillna('NA') if os.path.exists(file_path) else pd.DataFrame()
    elif file_path.endswith(('.xls', '.xlsx')):
        return pd.read_excel(file_path).fillna('NA') if os.path.exists(file_path) else pd.DataFrame()
    else:
        raise Exception("ERROR FILE FORMAT")

合并绘图数据

def merge_statistics(outdir='./'):
		# 读取文件
    dataframe1=read_file(file_path=outdir + "data1.tsv")
    dataframe2=read_file(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

生信与基因组学

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

请问共线性分析得到几组重复基因对，怎么根据重复对的基因组和cDNA进行分析分析每个重复对的外显子发生的插入缺失，溶解连接等现象。

**My Coding Family**

07-20

663

🏆本文收录于《全栈Bug调优(实战版)》专栏，该专栏专注于分享我在真实项目开发中遇到的各类疑难Bug及其深层成因，并系统提供高效、可复现的解决思路和实操方案。无论你是刚入行的新手开发者，还是拥有多年项目经验的资深工程师，本专栏都将为你提供一条系统化、高质量的问题排查与优化路径，助力你加速成长，攻克技术壁垒，迈向技术价值最大化与职业发展的更高峰🚀！

在线画图工具_画最美染色体，就要用这个新工具 | 今天被CRAN接收

weixin_39647773的博客

11-22

1246

今天已由CRAN审核通过，一行命令搞定安装：install.packages("RIdeogram")【需求描述】我要画差异表达基因在染色体上的分布（RNA-seq）or 开放染色质在染色体上的分布（DNase/ATAC-seq）or CTCF在染色体上的结合位点（ChIP-seq）or 突变位点在染色体上的分布（WGS）or DNA甲基化在染色体上的分布（WGBS）找工具来解决：perl工具ci...

参与评论您还未登录，请先登录后发表或查看评论

python绘制基因结构图_使用biopython可视化染色体和基因元件

weixin_31860973的博客

02-04

3662

欢迎关注”生信修炼手册”!基因组结构元件的可视化有多种方式，比如IGV等基因组浏览器中以track为单位的展示形式，亦或以circos为代表的圈图形式，比如在细胞器基因组组装中，基因元件常用圈图形式展示，示例如下在biopython中，通过BiolGraphics子模块可以对基因组结构进行可视化，支持线性和圈图两种可视化方式。其中，基因组结构信息存储在genebank格式的文件中，首先通过Bio....

使用biopython可视化染色体和基因元件

庐州月光的博客

01-06

2398

欢迎关注”生信修炼手册”!基因组结构元件的可视化有多种方式，比如IGV等基因组浏览器中以track为单位的展示形式，亦或以circos为代表的圈图形式，比如在细胞器基因组组装中，基因元件...

Python pandas 染色体 SNP 位点提取并排序

qq_40256654的博客

11-29

1939

import pandas as pd from pandas import DataFrame as df f = open('C:\\Users\\windows10\\Desktop\\Python练习\\文本流\\1177genetype_hapmapcp1_18_01.txt') d0 = pd.read_table(f, sep = "\t") #header 默认为第一行 d0.s...

本地使用Python通过染色体id+位置查询基因名列表

Javis486的专栏

10-18

5215

简介通常使用bwa做mapping后会获得sam文件，而sam文件包含2个重要的字段：该序列mapping上的染色体id和位置(比如第2列(chr5)和第3列(36345037)) KMER_44 0 chr5 36345037 37 7M1D24M * 0 0 CTGATGCAAAAAAAAAAAAGCTTTTTTG...

送你一个目录，一站式学习生信！众多干货，有趣有料！

悟道西方

12-20

9179

生信的作用越来越大，想学的人越来越多，不管是为了以后发展，还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情，也许你可以很短时间学会一个交互式软件的操作，却不能看完程序教学视频...

生信宝典教程大放送，一站式学习生信技术

悟道西方

11-14

6060

生物信息学包含生物数据分析、数据可视化、重复工作程序化，是生物、医学科研必备的技能之一。生信宝典精心组织生信学习系列教程、生信工具精品教程，通过大量的生信例子、关键的注释、浓缩的语句和录...

【大学生数学建模竞赛】2016年数模竞赛C题通关指南

大雨的博客

08-27

962

摘要：2016年大学生数学建模竞赛C题围绕Goodgrant基金会1亿美元教育投资策略展开。赛题要求建立模型筛选投资学校、确定投资金额、计算慈善回报率及规划投资周期。解题过程包括：1）分析毕业率、就业率等关键指标；2）构建线性回归或层次分析法ROI模型；3）应用遗传算法优化投资分配。配套数据来自美国国家教育统计中心，涵盖院校多维数据。研究结果表明，资金应优先配置给教育质量高、发展潜力大的院校，同时揭示了数据质量对模型准确性的重要影响。本题展示了数学建模在解决复杂实际问题中的强大应用价值。

09-08

特征重要性柱状图 shap_values_abs = np.abs(shap_values).mean(0) sorted_idx = np.argsort(shap_values_abs)[::-1] plt.figure(figsize=(10, 6)) plt.barh(range(len(sorted_idx)), shap_values_abs[sorted_idx],...

09-07

代码概述这段代码的目的是分析不同孕妇BMI分组下，Y染色体浓度达到4%的最早孕周（“达标孕周”），并据此确定最佳无创产前检测... - 使用`matplotlib`和`seaborn`绘制箱型图和柱状图，使用蒙特卡洛模拟评估误差影响。

为以下代码生成可视化图表：import pandas as pd from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from sklearn.preprocessing import LabelEncoder from sklearn.feature_selection import SelectKBest, f_classif from imblearn.over_sampling import SMOTE # 读取文件 excel_file = pd.ExcelFile(r"C:\Users\admin\Desktop\fj.xlsx") # 获取指定工作表中的数据 df = excel_file.parse('女胎检测数据') # 删除染色体的非整倍体列中存在缺失值的行 df = df.dropna(subset=['染色体的非整倍体']) # 选取特征变量和目标变量 X = df[['13号染色体的Z值', '18号染色体的Z值', '21号染色体的Z值', 'X染色体的Z值', '13号染色体的GC含量', '18号染色体的GC含量', '21号染色体的GC含量', '孕妇BMI', '在参考基因组上比对的比例', '重复读段的比例', '唯一比对的读段数', '被过滤掉读段数的比例', 'GC含量']] y = df['染色体的非整倍体'] # 对目标变量进行编码 encoder = LabelEncoder() y = encoder.fit_transform(y) # 特征选择，选择 8 个最佳特征 selector = SelectKBest(score_func=f_classif, k=8) X = selector.fit_transform(X, y) # 使用 SMOTE 进行过采样，设置 k_neighbors 为 1 smote = SMOTE(random_state=42, k_neighbors=1) X_resampled, y_resampled = smote.fit_resample(X, y) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42) # 定义要调整的参数范围 param_grid = { 'n_estimators': [100, 200, 300], 'max_depth': [None, 10, 20], 'min_samples_split': [2, 5, 10] } # 创建随机森林模型和网格搜索对象 rf = RandomForestClassifier(random_state=42) grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, scoring='accuracy') # 进行网格搜索 grid_search.fit(X_train, y_train) # 获取最优模型 best_rf = grid_search.best_estimator_ # 在测试集上进行预测 y_pred = best_rf.predict(X_test) # 评估模型性能 accuracy = accuracy_score(y_test, y_pred) print(f'模型准确率：{accuracy}') print('分类报告：') print(classification_report(y_test, y_pred)) # 这里假设原来是写错的地方，修改为 print print(y_test, y_pred)

09-08

- **特征重要性**：使用`Matplotlib`绘制特征重要性柱状图。 - **混淆矩阵**：使用`Seaborn`绘制混淆矩阵热力图。 - **ROC曲线**：使用`Matplotlib`绘制ROC曲线。 ### 注意事项请将`'your_data.csv'`替换为实际...

Python在机器学习中的模型训练

2509_93937153的博客

11-26

174

上周对比SVM和随机森林时，用Pipeline把预处理和训练步骤串起来，cross_val_score直接出十折交叉验证结果，整个实验可复现性极高。数据预处理这块绝对是重头戏。最近在做回归项目，r2_score和mean_squared_error这几个指标函数随调随用，省去了自己实现的麻烦。但平心而论，在常规业务场景下，从数据探索到模型上线的整个生命周期，Python的生态链确实做到了无缝衔接。很多库的默认参数就够用，想要精细调控又能深入底层，这种灵活性才是我们坚持用Python搞机器学习的根本原因。

Python自动化测试框架开发