- 豆豆staR
-
在人中,有300个TF结合在核心启动子区域;有1500个结合在基因其他区域,可以调节一系列基因
图示
ChIP-seq:
DNase-seq
ATAC-seq (Assay for transposase- accessiblechromatin using sequencing)
文章原图
Some TFs almost always bind in proximal promoter regions
Others bind to many regions
Position weight matrix (PWM)
Given a collection of genes that are likely to be regulated by the same TFs (or orthologous genes across different species — methods based on phylogenetic footprinting principles), find the TF-binding motifs in common
但是问题是不知道motif是什么,找不到相关的基因,而且如何排除背景干扰
比较保守的非编码区域可能有
Expectation-Maximization
In each iteration, it learns the PWM model and identifies examples of the matrix (sites in the input sequences) 在每一次迭代中,学习一个PWMmodel然后再通过输入的序列进行比对
MEME works by iteratively refining PWMs and identifying sites for each PWM(不同的迭代直到找到一个最合适的PWM)
The intuitive idea is as follows:
Start with a k-mer seed (random or specified)通常是6个
Build a PWM by incorporating some of background frequencies 根据背景生成一个初始的PWM
For every k-mer in the input sequences, identify its probability given the PWM model 计算k-mer在输入序列中给出PWM出现的概率
Calculate a new PWM, based on the weighted frequencies of all k-mers in the input sequences
根据input序列中k-mer出现频率的权重更新PWM
例子1
1.1
1.2
1.3
首先设置model, 然后经历Estep和Mstep,找到合适的PWM
然后将PWM进行极大似然转换并取log
然后看输入序列中出现该motif的概率
人的大多数结合位点都是在内含子和基因间区
Stronger sites are not closer to differentially regulated genes (not necessarily more functional)
Majority of functional sites not conserved
目前很难预测靶基因
核心思想
TF在基因组上的结合其实是一个随机过程,基因组的每个位置其实都有机会结合某个TF,只是概率不一样
peak出现的位置,是TF结合的热点,而peak-calling就是为了找到这些热点。
热点:位置多次被测得的read所覆盖(我们测的是一个细胞群体,read出现次数多,说明该位置被TF结合的几率大)。
read出现多少次算多:假设TF在基因组上的分布没有任何规律,测序得到的read在基因组上的分布也必然是随机的,某个碱基上覆盖的read的数目应该服从二项分布。
当n很大,p很小时,二项分布可以近似用泊松分布替代
lambda 是泊松分布唯一的参数,n是测序得到的read总数目,l是单个read的长度,s是基因组的大小。
我们可以算出在某个置信概率(如0.00001)下,随机情况下,某个碱基上可以覆盖的read的数目的最小值,当实际观察到的read数目超过这个值(单侧检验)时,我们认为该碱基是TF的一个结合热点。反过来,针对每一个read数目,我们也可以算出对应的置信概率P。
实际情况由于测序、mapping过程内在的偏好性,以及不同染色质间的差异性,相比全基因组,某些碱基可能内在地会被更多的read所覆盖,这种情况得到的很多peak可能都是假的。
MACS考虑到了这一点,当对某个碱基进行假设检验时,MACS只考虑该碱基附近的染色质区段(如10k),此时,上述公式中n表示附近10k区间内的read数目,s被置为10k。当有对照组实验(Control,相比实验组,没有用抗体捕获TF,或用了一个通用抗体)存在时,利用Control组的数据构建泊松分布,当没有Control时,利用实验组,稍大一点的局部区间(比如50k)的数据构建泊松分布。
read只是跟随着TF一起沉淀下来的DNA fragment的末端,read的位置并不是真实的TF结合的位置。
在peak-calling之前,延伸read是必须的。不同TF大小不一样,对read延伸的长度也理应不同。
我们知道测得的read最终其实会近似地平均分配到正负链上,这样对于一个TF结合热点而言,read在附近正负链上会近似地形成“双峰”。
MACS会以某个window size扫描基因组,统计每个window里面read的富集程度,然后抽取(比如1000个)合适的(read富集程度适中,过少,无法建立模型,过大,可能反映的只是某种偏好性)window作样本,建立“双峰模型”。
最后,两个峰之间的距离就被认为是TF的长度D,每个read将延伸D/2的长度
If we are given a set of ChIP-seq peaks, how to identify motif for the TF— use MEME
To find out what the sequence motif resembles — use TomTom
Use known motif to search peak regions — use FIMO
Study common biological pathways or functions of potential target genes of the TF — use GREAT
刘晓乐实验室ChIP-seq数据分析流程
定义:包括一个有向无环图(DAG)和一个条件概率表集合。DAG中每一个节点表示一个随机变量,可以是可直接观测变量或隐藏变量,而有向边表示随机变量间的条件依赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率
性质:每一个节点在其直接前驱节点的值制定后,这个节点条件独立于其所有非直接前驱前辈节点
类似Markov过程,贝叶斯网络可以看做是Markov链的非线性扩展。这条特性的重要意义在于明确了贝叶斯网络可以方便计算联合概率分布。
通过基因表达来推测网络
经典文章
主要过程
分析过程要给已经构建的相关性矩阵取逆
当样本很小时无法进行转换要使用lasso算法
关键在于如何确定公式中的lamada
这样不需要所有节点之间都有边