1 | rm(list = ls()) |
Task1: 通过R注释包从ensemble到symbol
请根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)
1 | # ENSG00000000003.13 |
1 | library(org.Hs.eg.db) |
Method1:for循环
1 | for (i in 1:nrow(ensID)) { |
Method2:apply函数
1 | ensID$ensembl_id <- unlist(lapply(ensID1, function(x) {strsplit(as.character(x),'.',fixed = TRUE)[[1]][1] |
Task2:由探针找到对应的基因名
根据R包hgu133a.db找到下面探针对应的基因名(symbol)
053_at
117_at
121_at
1255_g_at
1316_at
1320_at
1405_i_at
1431_at
1438_at
1487_at
1494_f_at
1598_g_at
160020_at
1729_at
177_at
1 | library(hgu133a.db) |
Task3 找某个基因在表达矩阵中的值并分组绘图
1 | # 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量,并且绘制在 progres.-stable分组的boxplot图 |
以下是代码部分
1 | rm(list=ls()) |
1 | # probe_id symbol |
1 | boxplot(expr['1939_at',]~pdata$Disease) |
ggpubr
http://www.sthda.com/english/articles/24-ggpubr-publication-ready-plots/
1 | library(ggpubr) |
Task4:对任意肿瘤的任意基因进行分类做图(用cBioPortal)
cbioportal下载,即利用在线数据(下载),本地进行改观
http://www.cbioportal.org/index.do
Select Studies 选项中输入Breast Invasive Carcinoma PanCancer 搜索并选中目标数据集
Enter Genes 数据框中输入目标基因BRCA1
点击Submit Query提交搜索请求
结果页面中,Plots选项卡选择合适数据进行绘图,或下载数据
1 | rm(list = ls()) |
Task5:某基因在某肿瘤中的生存曲线作图美化
找到TP53基因在TCGA数据库的乳腺癌数据集的表达量分组看其是否影响生存
提示使用:http://www.oncolnc.org/
值得商榷的问题,low和high分组问题,若50:50分组,无差异
个人理解,这里不必平分,可以30:30,也就是就挑高和低的30%,这是可以说明问题的
1 | rm(list = ls()) |
Task6:GEO下载表达数据并提取特定的基因做热图(要去重复)
下载数据集GSE17215的表达矩阵并且提取下面的基因画热图
ACTR3B ANLN BAG1 BCL2 BIRC5 BLVRA CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3
CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7
KIF2C KNTC2 KRT14 KRT17 KRT5 MAPT MDM2 MELK MIA MKI67 MLPH MMP11 MYBL2
MYC NAT1 ORC6L PGR PHGDH PTTG1 RRM2 SFRP1 SLC39A6 TMEM45B TYMS UBE2C UBE2T
GSE17215数据在https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17215
可知,是U133A的芯片数据,共6个样本
title为Expression data from paclitaxel and salinomycin-treated HMLER breast cancer cells
1 | library(hgu133a.db) |
有三种方法得到表达数据
1.下载.CEL格式文件,自己进行处理
2.手动下载series Matrix Files,然后读入
3.利用R下载表达数据
1 | library(GEOquery) |
Task7:GEO下载表达矩阵做样本的相关性热图,需要标记样本分组信息
作业7
下载数据集GSE24673的表达矩阵计算样本的相关性并且绘制热图,需要标记上样本分组信息
数据地址https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673
1 | rm(list=ls()) |
Task8: 找到芯片对应平台的注释包并进行安装
找到 GPL6244 platform of Affymetrix Human Gene 1.0 ST Array 对应的R的bioconductor注释包,并且安装它!
参考http://www.bio-info-trainee.com/1399.html
1 | options()$repos |
Task9:GEO下载表达矩阵,所有样本中挑选所需要的探针
下载数据集GSE42872的表达矩阵,并且分别挑选出所有样本的(平均表达量/sd/mad/)最大的探针,
并且找到它们对应的基因。
1 | rm(list=ls()) |
10 Task10
这部分内容参考http://www.bio-info-trainee.com/bioconductor_China/software/limma.html
下载数据集GSE42872的表达矩阵,并且根据分组使用limma做差异分析,
得到差异结果矩阵
1 | library(GEOquery) |
差异表达分析
需要分组矩阵(design),比较矩阵(contrast)
1 | library(limma) |
筛选差异基因DEGs
###分步进行1,这步用到实验设计矩阵
1 | fit <- lmFit(dat_filer, design) |
###分步进行2,用到比较矩阵
1 | fit2 <- contrasts.fit(fit, contrast.matrix) |
###分步进行3
1 | tem_output <- topTable(fit2, coef = 1, n= Inf) |
###写成函数
1 | deg<- function(dat_filter,design,contrast){ |
下面和symbole对应
1 | library(hugene10sttranscriptcluster.db) |