利用条件随机场预测和分析组蛋白占位、乙酰化和甲基化
1. 背景与研究动机
在遗传学研究中,组蛋白的占位、乙酰化和甲基化等修饰与各种DNA相关的遗传活动密切相关。此前已有不少研究通过染色质免疫沉淀和全基因组DNA微阵列(ChIP - Chip协议)等实验方法来探索这些关系。同时,也有基于支持向量机(SVM)的方法用于定性预测DNA序列中组蛋白的占位、乙酰化和甲基化区域。本文则引入了条件随机场(CRF)这一新型机器学习技术,来解决相同的预测问题。
2. 材料与方法
2.1 数据集
从全基因组范围内的核小体乙酰化和甲基化图谱中提取了14个数据集,用于展示方法的性能。每个数据集中的示例对应一个固定长度L的DNA序列区域(片段),在实验中,L选取了200、500、1000、1500。如果DNA序列区域中间位置测量的相对占位、乙酰化或甲基化值大于1.2,则将其归为正类;若小于0.8,则归为负类;介于0.8和1.2之间的值对应的序列被忽略。具体数据集信息如下表所示:
| Dataset | #positives | #negatives | Description |
| ---- | ---- | ---- | ---- |
| H3.YPD | 7667 | 7298 | H3 occupancy |
| H4.YPD | 6480 | 8121 | H4 occupancy |
| H3.H2O2 | 17971 | 15516 | H3.H202 occupancy |
| H3K9acvsH3.YPD | 15415 | 12367 | H3K9 acetylation relative to H