MobiVision表觀組算法介紹-ChIP

算法概覽

mobivision chip可以用于分析MobiNova平臺(tái)下機(jī)的單細(xì)胞表觀組ChIP數(shù)據(jù)，關(guān)鍵分析步驟如下圖所示:

Barcode矯正

MobiNova平臺(tái)產(chǎn)生的ChIP文庫(kù)示意圖如下：

墨卓scChIP fastq數(shù)據(jù)為雙端測(cè)序，Read 1從5‘端到3’端分別為cell barcode，umi，MEC固定序列，insertDNA。mobivision chip在處理輸入的fastq數(shù)據(jù)時(shí)，首先會(huì)對(duì)Read1中的cell barcode進(jìn)行矯正。若cell barcode存在于mobivision 內(nèi)置的whitelist中，則該read 含有有效的cell barcode，可進(jìn)行下一步分析。若cell barcode不存在于whitelist中，則該read無(wú)效，丟棄。cell barcode在與whitelist中的barcode序列進(jìn)行比對(duì)時(shí)，每個(gè)10個(gè)堿基，hamming距離<=1即可通過(guò)。在輸出的valid reads中，read 1序列對(duì)應(yīng)的cell barcode為矯正后的cell barcode。cell barcode及UMI序列，存于read id，而非read sequence。

對(duì)于cell barcode通過(guò)糾正的reads，還需進(jìn)一步去除adaptor。Read 1需要去除其3'端的MEB序列及其5‘端的MEC序列的反向互補(bǔ)序列，Read 2 需要去除其3’端的MEC序列，adaptor trimming允許的錯(cuò)配率為0.1。經(jīng)過(guò)trimming處理后，得到valid and clean fastq，可用于后續(xù)比對(duì)。

Alignment

mobivision chip比對(duì)使用了內(nèi)置的bowtie2軟件，為雙端比對(duì)，輸出.bam結(jié)果比對(duì)文件，即包含mapped reads，也包含unmapped reads。

對(duì)于比對(duì)得到的bam文件，作進(jìn)一步過(guò)濾去重處理，僅保留雙端比對(duì)，且MapQ >= 30的alignments，僅保留長(zhǎng)度 <= 2000bp的alignments，根據(jù)比對(duì)信息中的cell barcode、染色體名、比對(duì)起點(diǎn)和比對(duì)終點(diǎn)，去除重復(fù)的片段，得到過(guò)濾去重后的filtered.bed文件，并利用該文件生成可視化的bw文件。若該樣本為雙物種樣本，則每個(gè)物種各生成一個(gè)對(duì)應(yīng)的bw文件。

Peaks Calling and Annotation

使用mobivision chip內(nèi)置的macs2軟件，以去重過(guò)濾處理后的filtered.bed進(jìn)行peak calling。若不指定peaks類(lèi)型，則默認(rèn)使用narrow peak type，若需call broad peak，則需指定--peaktypebroad。若指定了--control，則call peak時(shí)，以IgG數(shù)據(jù)作為control，矯正背景噪音。最終輸出以.narrowPeak或.broadPeak為后綴的peaks文件。對(duì)于得到的peaks文件，進(jìn)行注釋?zhuān)⑨屧瓌t如下：

啟動(dòng)子區(qū)（promoter region）是指轉(zhuǎn)錄起始位點(diǎn)（transcript start site）上游1000bp，到下游100bp的區(qū)間（-1kb,+100）;

distal peak是指該peak距離離它最近的TSS不超過(guò)200kb，且其不位于啟動(dòng)子區(qū)域；

distal peak又指peak與某一轉(zhuǎn)錄本有重合，但是，其既不屬于上述情況的promoter region，也不屬于上述情況的distal peak，這種peak也稱為distal peak；

除以上三種情況，其他peak均稱為intergenic peak。

Valid Fragments

Valid Fragments即fragments in peaks，定義為fragment有1個(gè)堿基落于peak內(nèi)，即判定為fragmentsInPeaks。用該數(shù)據(jù)作為輸入，進(jìn)行cell calling。

Cell Calling

mobivision chip目前過(guò)濾細(xì)胞采用動(dòng)態(tài)閾值策略進(jìn)行細(xì)胞barcode篩選：首先將所有barcode按其落入peak區(qū)域的片段數(shù)降序排列，取期望細(xì)胞數(shù)N（默認(rèn)3000）的95分位數(shù)位置（即第2850位當(dāng)N=3000時(shí)）對(duì)應(yīng)的片段數(shù)作為m值；然后將m/10設(shè)為判定閾值，所有片段數(shù)超過(guò)該閾值的barcode均被識(shí)別為有效細(xì)胞。例如當(dāng)N=3000且m=20000時(shí)，閾值設(shè)為2000，此時(shí)所有片段數(shù)超過(guò)2000的barcode將被保留（圖示案例篩選得到9000個(gè)細(xì)胞）。該方法的優(yōu)勢(shì)在于能根據(jù)數(shù)據(jù)特征自動(dòng)調(diào)整篩選標(biāo)準(zhǔn)，確保不同規(guī)模數(shù)據(jù)集都能獲得可靠的細(xì)胞識(shí)別結(jié)果。