超几何分布
GO分析
超几何分布
超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
GO富集分析
Gene Ontology 可分为分子功能(molecular fuction),生物过程(biological process)和细胞组成(cellular component)个部分。 GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。
根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。具体来说就是基于基因组注释信息,将功能相似的基因富集成一个个term,其实就是一个`降纬`的过程。
富集分析往往都需要一个参考数据集,比如说某物种基因组共有基因2w个,其中注释到糖代谢这个term上的基因一共有800个,这就是一个参考数据集;某次你rna-seq数据测到了2000个差异基因,其中有500个注释到了糖代谢这个term上,那么如何判断你的差异基因是否在糖代谢这个term上富集了呢?
这个例子对应上面的公式,
N=2w,M=800;
n=2000,m(k)=500;
这就是一个超几何分布,将上述值代入公式,求出p值,即可判断是否富集。
以上纯属个人理解,如有不妥,欢迎讨论。
Author: 王英珍
qq: 296085360
email:wangyz666@outlook.com