R代码合并TCGA体细胞突变数据

上次通过图文给大家讲解了如何从TCGA数据库下载体细胞突变的数据

如何从TCGA数据库下载体细胞突变数据(somatic mutation)

前面我们也讲过,如何从TCGA数据库下载RNAseq和miRNA-seq的数据。大家应该对TCGA数据库里面数据的格式有了一定的了解。

新版TCGA数据库RNAseq数据下载

新版TCGA数据库miRNA数据下载

无论是RNAseq,miRNAseq还是体细胞突变的数据,都是单个的文件。也就是每一个样本会用一个单独的文件来存放相应的数据。如果我们想得到如下图所示的矩阵,就需要通过循环去读取每一个文件里面的内容,然后进行合并。

前面已经跟大家分享过如何通过R代码或者是使用零代码的工具来合并RNAseq和miRNA-seq的表达矩阵。

【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵

【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵

零代码合并新版TCGA中RNAseq和miRNA表达谱

合并体细胞突变数据的思路,其实跟前面讲到的合并表达矩阵的思路大体类似,当然也有一个很重要的不同之处。

1)读取sample sheet里面的内容,获取每个MAF(mutation annotation format)文件的路径,如下图所示。


2)循环读取每一个MAF文件里面的内容


3)将每个文件里面的内容按行贴起来,这个跟前面合成表达矩阵是不一样的。合并表达矩阵是按列来合并。最终我们可以得到下面这样一张表格。


基于这张表格的数据,我们就可以绘制前面提到过的瀑布图。关于这张表格里面每一列的含义,我会在下面的文章里面给大家做详细的介绍。

完整合并R代码+详细注释☟☟☟

R代码合并TCGA体细胞突变数据

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容