Wenhu Next Generation Bioinformatician

TCGA大作战——初步分析RNA-seq数据01


本篇为第一部分,主要记录重要资源地址以及TCGA数据的下载方式。欢迎转载,但请注明出处!

名词及资源

  • TCGA (The Cancer Genome Atlas)人类癌症基因组图谱,数据库,主要用来收集癌症病人癌组织及癌旁组织标本以及极少量正常人相应组织的对照标本(并非每种癌都有),通过多种高通量方法,获取DNA、RNA乃至蛋白多个分子层面的数据;另一方面,它还收集了病人的临床宏观层面信息(诸如肿瘤的分期和分级,患者生存时间,患者的年龄、性别、种族等等),更进一步,该数据库对原始数据进行了标准化处理,并做了常见的后续功能分析,但缺乏一定的针对性。目前,它已经收录了超过10000名病人,30多种癌症的高达2.5PB的多维数据。从2016年开始,TCGA的数据库已经迁移到GDC (Genomic Data Commons, 基因组数据共享)网站去了,官网称2017年TCGA将会关闭,距2018还有一个月不到,加油!

  • GDAC (Genome Data Analysis Centers):顾名思义,做数据分析的,TCGA Research Network下属的一个重要团体,成员中最为著名的就是Broad Institute的Firehose(消防水龙)和Memorial Sloan-Kettering Cancer Center的cbioportal了,简言之,它们对TCGA的原始数据进行了合并、部分处理及可视化,减少了研究人员前期数据处理的繁冗工作,提高下游功能分析的效率。

  • DESeq2:著名的基因差异化表达(Defferential Expression, DE)搜索及可视化R包,本来不确定从哪个DE软件入手,陡然间发现,此包作者的实验室就在我们楼侧面,为了方便以后套磁,就选它了,学了才发现水很深,我得补补统计学

有关数据

其实,全套的转录组(RNA-seq)分析得从拿到一手的fastq测序文件开始,经过比对、注释、计数、差异分析、功能分析,最终得到一些可解释现象或者可指导实践的图表信息。但TCGA的测序原始数据一来是属于level1的,个人没有权限下载,二来,即便下载了,个人电脑估计连存都存不下,更别说分析了。这里,我直接从Firehose的level3数据入手,相当于已经对转录本(transcript)和基因(gene)都记好数了,重点看下如何做差异分析的。

关于如何下载TCGA数据,这个帖子已经讲得相当详细了,所以,我是遇到了就讲下,不再作系统赘述。

  • 为啥用Firehose的数据呢?因为它已经把每种癌症的所有样本数据按数据种类合并到一个文件中去了,而GDC中是一个样本一个文件,我是个懒人,O(∩_∩)O~!

  • Firehose提供了一个很简易的下载工具,firehose_get,网页上有安装方法和使用举例,这个需要电脑有linux系统,至少要有一个bash on windows

  • 说句题外话,强烈建议像我一样不知如何入门的新手们买本The Biostar Handbook, 100多元钱,完全物超所值,关键是其中包含手把手教你如何配置系统,如何装bash on windows,并一次性弄好生信分析常用的数十种软件,从此无忧!另外,个人推荐直接看英文版,完全是四级词汇,作者文笔风趣,何况,反正英语是躲不掉的,刚好拿这本书练练阅读,一举两得~

关注我的最新博文,请订阅my RSS ~~


评论 / Comments