打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
这个基因芯片平台换了马甲就不认识了吗?

希望所有学员都可以站在生信技能树的舞台上发光发热!

下面是粉丝随机投稿

追随生信技能树的脚步,学习生信已经有半年多了。看了哔哩哔哩上的视频,也跑了健明老师的代码。以为自己起码入门了,但是真正分析感兴趣的数据集时才发现还差得远。

今天尝试分析的是GSE52746,首先在探针ID注释上难住了。这个数据集是GPL17966平台,没查到对应的注释R包。

平台描述是:“This array is identical to GPL570 but the data were analyzed with a custom CDF environment”。我略微思考了一下,是不是可以用GPL570的注释包?从《用R获取芯片探针与基因的对应关系三部曲-bioconductor》,查到其注释包是 “hgu133plus2”。

按照健明老师的代码进行注释:

ids=toTable(hgu133plus2SYMBOL) 
head(ids)
dim(ids)
colnames(ids)  
ids=ids[ids$symbol != '',]
ids=ids[ids$probe_id %in%  rownames(dat),]
dim(ids)

结果只匹配到175个基因!??

   probe_id symbol
1   1053_at   RFC2
2    117_at  HSPA6
3    121_at   PAX8
4 1255_g_at GUCA1A
5   1316_at   THRA
6   1320_at PTPN21
> dim(ids)
[141922     2
> colnames(ids)  
[1"probe_id" "symbol"  
> ids=ids[ids$symbol != '',]
> ids=ids[ids$probe_id %in%  rownames(dat),]
> dim(ids)
[1175   2

傻眼了,回头再看GPL17966网页介绍如下图。在健明老师的提醒下,注意到这里的ID并不是真正的探针ID,而是相应的Entrez GeneID;

而SPOT_ID就是基因完整的名了。

那么接下来就简单了

 x <- read.csv(file="https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?view=data&acc=GPL17996&id=15209&db=GeoDb_blob105", comment.char='',
              header = T, sep = "\t", skip = 22, na.strings=c("","NA"))
ids <- dplyr::select(x,-2)
colnames(ids) <- c("probe_id","symbol")
ids <- na.omit(ids)
ids <- filter(ids,!ids$symbol=="CONTROL")
ids <- ids[!duplicated(order(ids$symbol)),] 
ids <- ids[ids$probe_id %in%  rownames(dat),]
dat <- dat[ids$probe_id,] 
dim(dat)
rownames(dat) <- ids$symbol
dat[1:4,1:4]
dim(dat)
[118908    39

根据GEO数据,目前基于 GPL570 ([HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array)的基因芯片有61种,下图截取了部分。

看这些平台说明,都是注释后的。形式不尽相同(如下图),相应处理即可。我们随意截图其中两个看看:

GPL4454

GPL4454

GPL6671

GPL6671
视频观看方式 

我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:

  • 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
  • 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
  • TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
  • GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
  • METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC

然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!

扫描下面二维码马上就可以学习起来啦,笔记需要至少半个小时来阅读哦!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
log还是不log,表达矩阵说了算
GEO学习笔记
你肉眼能看几万个基因名字判断有没有重复的基因?
多个探针对应一个基因,取平均值或者最大值
探针注释文件中没有基因名字怎么办?(二)
R语言GEO数据挖掘01-数据下载及提取表达矩阵
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服