shell系列-1.cat实现文件合并

本文介绍了一种使用Shell脚本将HDFS中多个文件合并为单个文件的方法。包括创建工作区、获取HDFS文件及执行合并命令等步骤。
1.问题
描述:如何将某个目录下所有文件合并成单个文件(前提是相同schema文件,不同的话合并也没多大意义,当然你想这么做也没啥问题。)

2.解决方案
1)举例
从将hdfs上多日的数据汇总成一个单文件
2)shell版本解决方案
-首先,创建一个全新文件夹,并进入
>mkdir workspace
>cd workspace

-将文件get到本地,比如get这一年的数据(或者将你要进行合并的文件和文件夹都拷贝到workspace)
hadoop fs -get /user/data/dt=2017* .

-然后,workspace目录执行以下语句
find . -type f -exec cat {} \; > targetName.csv

我在常规转录组分析中,已经把亲本和杂交种都比对到参考基因组了,生成了对应的bam文件。我要对所有的杂交种组合进行等位基因特异性表达(ASE)分析,鉴定出正常和处理条件下的ASE基因,严格按照这篇文献的方法。 9个亲本为:A632、C72、Dan340、J724、J92、Mo17、PH207、Ye478、Z58 7个杂交种为:A632_PH207、A632_Ye478、C72_Ye478、C72_Z58、Dan340_J724、Dan340_J92、Mo17_Ye478 1、我有比对好的亲本和杂交种的bam文件,存放在/public/home/xumiaoyun/wy/cxgg/rnaseq/4_hisat2_results文件夹下面,包括正常(文件名包括-C-)和盐碱处理后的(文件名包括-T-),分别有1~2个生物学重复,我的文件夹/public/home/xumiaoyun/wy/cxgg/rnaseq/4_hisat2_results内容如下: A632-C-1.Hisat_aln.sorted.bam A632-T-1.Hisat_aln.sorted.bam C72-C-1.Hisat_aln.sorted.bam C72_Ye478-T-2.Hisat_aln.sorted.bam Dan340_J724-C-1.Hisat_aln.sorted.bam Dan340_J92-T-1.Hisat_aln.sorted.bam J92-C-1.Hisat_aln.sorted.bam Mo17_Ye478-C-1.Hisat_aln.sorted.bam PH207-T-1.Hisat_aln.sorted.bam Z58-C-1.Hisat_aln.sorted.bam A632-C-2.Hisat_aln.sorted.bam A632-T-2.Hisat_aln.sorted.bam C72-T-1.Hisat_aln.sorted.bam C72_Z58-C-1.Hisat_aln.sorted.bam Dan340_J724-C-2.Hisat_aln.sorted.bam Dan340_J92-T-2.Hisat_aln.sorted.bam J92-T-1.Hisat_aln.sorted.bam Mo17_Ye478-C-2.Hisat_aln.sorted.bam PH207-T-2.Hisat_aln.sorted.bam Z58-C-2.Hisat_aln.sorted.bam A632_PH207-C-1.Hisat_aln.sorted.bam A632_Ye478-C-1.Hisat_aln.sorted.bam C72-T-2.Hisat_aln.sorted.bam C72_Z58-C-2.Hisat_aln.sorted.bam Dan340_J724-T-1.Hisat_aln.sorted.bam Dan340-T-1.Hisat_aln.sorted.bam Mo17-C-1.Hisat_aln.sorted.bam Mo17_Ye478-T-1.Hisat_aln.sorted.bam Ye478-C-1.Hisat_aln.sorted.bam Z58-T-1.Hisat_aln.sorted.bam A632_PH207-C-2.Hisat_aln.sorted.bam A632_Ye478-C-2.Hisat_aln.sorted.bam C72_Ye478-C-1.Hisat_aln.sorted.bam C72_Z58-T-1.Hisat_aln.sorted.bam Dan340_J724-T-2.Hisat_aln.sorted.bam J724-C-1.Hisat_aln.sorted.bam Mo17-C-2.Hisat_aln.sorted.bam Mo17_Ye478-T-2.Hisat_aln.sorted.bam Ye478-C-2.Hisat_aln.sorted.bam Z58-T-2.Hisat_aln.sorted.bam A632_PH207-T-1.Hisat_aln.sorted.bam A632_Ye478-T-1.Hisat_aln.sorted.bam C72_Ye478-C-2.Hisat_aln.sorted.bam C72_Z58-T-2.Hisat_aln.sorted.bam Dan340_J92-C-1.Hisat_aln.sorted.bam J724-T-1.Hisat_aln.sorted.bam Mo17-T-1.Hisat_aln.sorted.bam PH207-C-1.Hisat_aln.sorted.bam Ye478-T-1.Hisat_aln.sorted.bam A632_PH207-T-2.Hisat_aln.sorted.bam A632_Ye478-T-2.Hisat_aln.sorted.bam C72_Ye478-T-1.Hisat_aln.sorted.bam Dan340-C-1.Hisat_aln.sorted.bam Dan340_J92-C-2.Hisat_aln.sorted.bam J724-T-2.Hisat_aln.sorted.bam Mo17-T-2.Hisat_aln.sorted.bam PH207-C-2.Hisat_aln.sorted.bam Ye478-T-2.Hisat_aln.sorted.bam 2、参考的基因组文件路径为/public/home/xumiaoyun/wy/cxgg/rnaseq/maize_v5_data/Zm-B73-REFERENCE-NAM-5.0.fa,内容格式如下: >chr1 TCATGGCTATTTTCATAAAAAATGGGGGTTGTGTGGCCATTTATCATCGACTAGAGGCTCATAAACCTCACCCCACATAT GTTTCCTTGCCATAGATTACATTCTTGGATTTCTGGTGGAAACCATTTCTTGCTTAAAAACTCGTACGTGTTAGCCTTCG GTATTATTGAAAATGGTCATTCATGGCTATTTTTCGGCAAAATGGGGGTTGTGTGGCCATTGATCGTCGACCAGAGGCTC ATACACCTCACCCCACATATGTTTCCTTGTCGTAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAGAAA TCCGTAGGTGTTAGCCTTCGATATTATTGAAAATGGTCGTTCATGGCTATTTTCGACAAAAATGGGGGTTGTGTGGCCAT TGATCATCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGA GACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGTAAATGGTCATTCATGGCTATTTTCGACAAA AATGGGGGTTGTGTGGCCATTGATCATCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCAC ATTCTTGGATTTATGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGTAAATGGTCAT 3、基因组GTF文件路径为/public/home/xumiaoyun/wy/cxgg/rnaseq/maize_v5_data/maize_v5.gtf,内容格式如下: chr1 NAM transcript 34617 40204 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010" chr1 NAM exon 34617 35318 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 36037 36174 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 36259 36504 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 36600 36713 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 36822 37004 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 37416 37633 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 38021 38482 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 38571 39618 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; chr1 NAM exon 39701 40204 . + . transcript_id "Zm00001eb000010_T001"; gene_id "Zm00001eb000010"; 请给我生成对应的shell分析脚本和R可视化脚本,要求简洁易懂,运行不报错,效率高且无误。 注意: 软件直接进行调用即可,无需加载; shell脚本要求运行效率高,批量运行,节约时间,输出R可视化所需的文件即可。 R可视化要求输出的基因list格式规范,输出的图片均为PDF发表级图片(无网格线)。 /public/home/xumiaoyun/wy/cxgg/rnaseq/maize_v5_data/Zm-B73-REFERENCE-NAM-5.0.fa.fai是基因组索引文件。 请新建并生成结果文件在/public/home/xumiaoyun/wy/cxgg/rnaseq/aseg_analysis/results中。
最新发布
08-07
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值