TCGA数据分析系列(一)

公众号“生信小课堂”

TCGA数据分析课程:生物信息学教学


肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human

Genome Research

Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。

TCGA中数据类型主要有以下几种

mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量

microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量

Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息

Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值

Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化

Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量

Methylation:甲基化芯片测得的DNA甲基化数据


TCGA的样本命名


Project:所有TCGA样本名均以这个开头

TSS: Tissue source site,组织来源编码

详见组织来源编码

Participant:参与者编号

Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11


Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据

Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用

Analyte:分析的分子类型,对应关系如下所示

Plate:在一系列96孔板中的顺序,值大表示制板越晚

Center:测序或鉴定中心编码

TCGA数据下载方式

TCGA下载方式有很多种,主要包括

R语言下载

官网下载

在线数据库下载

小工具下载

以后我们会逐个介绍

TCGA在线分析数据库

TCGA在线分析数据库有已经很多,以后我们会选择既重要又好用的工具来学习

下回见。

公众号“生信小课堂”

TCGA数据分析课程:生物信息学教学


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容