TCGA系列教程
下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks
TCGAbiolinks是一个可用于检索,下载,并准备TCGA数据用于下游分析的R包,该包发表在
著名的 核酸研究 杂志上。
先从数据下载开始
数据来源
不同的数据来源 Legacy 与 harmonized
- GDC Legacy Archive:以前在CGHUB和TCGA数据门户中存储的数据的原始数据,由TCGA数据协调中心(DCC)托管,在该门户中用GRCH37(HG19)和GRCH36(HG18)作为参考基因组
- GDC harmonized database:可用数据与grch38(hg38)使用gdc生物信息学流程进行协调,该流程提供了生物标本和临床数据标准化的方法,简单讲就是对数据进行了一定标准化处理。
- harmonized数据库包括转录谱数据,甲基化数据,miRNA数据,但缺少芯片数据
数据检索
使用GDCquery函数
示例展示-
Sys.setlocale('LC_ALL','C')
## 检索BRCA甲基化数据
query.met <- GDCquery(project = "TCGA-BRCA",
data.category = "DNA Methylation",
legacy = FALSE,
platform = c("Illumina Human Methylation 450"))
## 检索BRCA-基因表达数据
query.exp <- GDCquery(project = "TCGA-BRCA",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - FPKM-UQ")
query.exp[1:5,1:5]
query.met[1:5,1:5]
datatable(getResults(query.met, cols = c("data_type","cases")),
filter = 'top',
options = list(scrollX = TRUE, keys = TRUE, pageLength = 5),
rownames = FALSE)
为什么推荐TCGAbiolinks包?
我认为有以下几个理由:
- 这个包发表在核酸研究杂志上,相对比较权威
- 下载的数据都是更新的,直接从TCGA获取
- 提供整理数据的函数,不需要自己花大功夫就能轻松的将单个文件都整理到一起,完全不需要什么perl,事实证明真正专业上的牛人确实是牛,可不是有些半桶水,拿自己的专业在人家的业余爱好面前膨胀, 更何况这个还算不上人家的业余爱好,写道这里突然隐隐感觉到这句话有人说过,如果说过这里要引用一下了[忘记哪位仁兄说多了,见谅]
