avatar

芯片探针表达矩阵转化为基因表达矩阵

[参考资料]:如何零代码实现芯片探针表达矩阵转化为基因表达矩阵? https://www.dxy.cn/bbs/newweb/pc/post/42831021?onlyHost=1

GEO下载到的标准化后的表达矩阵(Series Matrix File(s)文件)或是下载原始.CEL文件自己归一化后形成的表达矩阵,每行的标注是以探针的形式给出的,例如。

img

这样在分析差异基因之后,并不知道哪个探针对应哪个基因,希望能否先得到每行以基因形式标注的表达矩阵。

我在尝试了多种方法之后,发现GSEA桌面软件中集成的一个“CollapseDataset Page”小软件可以快速实现这一操作,故分享给大家。

在进行转化之前,需要准备两种文件:

  1. 将常规的表达矩阵转化为.gct形式的表达矩阵文件:只要在EXCEL里对原有表达矩阵进行加工即可,具体的格式要求如http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GCT:_Gene_Cluster_Text_file_format_.28.2A.gct.29 所示。
  2. 提供.chip格式的探针与基因的对应关系表:这个表可以由GPL平台信息提供,如果嫌信息过时,也可由BLAST、生信人工具包等重新注释的方式得到;具体的格式要求如http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#CHIP:_Chip_file_format_.28.2A.chip.29 所示。一列是探针,一列是基因,两者的对应关系是:允许多个探针对应一个基因,但不允许一个探针对应多个基因(这种情况应该舍弃探针)。

安装并运行“GSEA v4.0.3 for Windows”(https://www.gsea-msigdb.org/gsea/downloads.jsp),进入界面后点击左侧栏目的“Load data”,会跳出加载标签页,将刚准备好的两个文件拖入加载框,再点“加载这些文件”按钮。

img

成功加载数据后,点击左侧栏目的Collapse Dataset小工具,会跳出该小工具的标签页。首先,在表达数据集下拉菜单中选取你刚才加载的表达矩阵;接着点击芯片平台右侧的“…”,选取网站上现成的chip文件或刚加载的自制chip文件;再接着选取“多个探针对应一个基因”的转换策略,目前使用较多的策略是:在每个样本中,如果有n个探针对应一个基因,那么就使用n个探针的中位数探针值作为该基因在这个样本中的表达量;因此,这里就选择“Median”;同理也可根据需要选择其他策略;下面可以继续设置分析的命名以及输出结果的文件夹。

img

最后点击“Run”,一般几秒钟就会运行完毕。

打开输出结果的文件夹,可以找到一个类似“_collapsed_to_symbols.gct”的文件,就是转化成功的基因级的表达矩阵文件。

img

可以根据需要,用EXCEL加工回常规的表达矩阵,用于下一步分析。

本质骑士楼主

发布于 2020-02-23 15:59

分享一下GEO数据库各个芯片平台探针序列通过BLAST到GENCODE最新版Release 33 (GRCh38.p13)重注释生成的.chip文件,欢迎下载。

GPL10332【Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Feature Number version)】

GPL10558【Illumina HumanHT-12 V4.0 expression beadchip】

GPL13376【Illumina HumanWG-6 v2.0 expression beadchip】

GPL13497【Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version)】

GPL1352【Affymetrix Human X3P Array】

GPL13607【Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Feature Number version)】

GPL13693【Phalanx Human OneArray? v5】

GPL13825【Arraystar Human LncRNA microarray V2.0 (Agilent-033010)】

GPL14550【Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Probe Name Version)】

GPL15314【Arraystar Human LncRNA microarray V2.0 (Agilent_033010 Probe Name version)】

GPL16951【Phalanx Human OneArray Ver. 6 Release 1】

GPL16956【Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version)】

GPL17077【Agilent-039494 SurePrint G3 Human GE v2 8x60K Microarray 039381 (Probe Name version)】

GPL17586【Affymetrix Human Transcriptome Array 2.0】

GPL18109【Agilent-038314 CBC Homo sapiens lncRNA + mRNA microarray V2.0】

GPL18461【Illumina HumanHT-12 V3.0 expression beadchip】

GPL21827【Agilent-079487 Arraystar Human LncRNA microarray V4 (Probe Name version)】

GPL4133【Agilent-014850 Whole Human Genome Microarray 4x44K G4112F (Feature Number version)】

GPL4582【Capitalbio Human 22K oligo array v1.0】

GPL5175【Affymetrix Human Exon 1.0 ST Array】

GPL570【HG-U133_Plus_2】

GPL571【Affymetrix Human Genome U133A 2.0 Array】

GPL6102【Illumina human-6 v2.0 expression beadchip】

GPL6104【Illumina humanRef-8 v2.0 expression beadchip】

GPL6244【Affymetrix hugene-1_0-st-v1】

GPL6480【Agilent-014850 Whole Human Genome Microarray 4x44K G4112F (Probe Name version)】

GPL6883【Illumina HumanRef-8 v3.0 expression beadchip】

GPL6884【Illumina HumanWG-6 v3.0 expression beadchip】

GPL6947【Illumina HumanHT-12 V3.0 expression beadchip】

GPL8300【HG_U95**2】

GPL8432【Illumina HumanRef-8 WG-DASL v3.0】

GPL96【HG-U133A】

GPL97【HG-U133B】

芯片探针转基因chip文件

链接:https://pan.baidu.com/s/1JaRreixyQzWQMopJwuKIYw
提取码:4oq1

Author: Jie
Link: https://blog.jiehua1995.xyz/post/prob_to_gene_symbol/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Donate
  • Wechat Pay
    Wechat Pay
  • Ali Pay
    Ali Pay

Comment