支持中心
Tech Support
mobivision chip可以用于分析MobiNova平臺(tái)下機(jī)的單細(xì)胞表觀組ChIP數(shù)據(jù),關(guān)鍵分析步驟如下圖所示:

MobiNova平臺(tái)產(chǎn)生的ChIP文庫(kù)示意圖如下:

墨卓scChIP fastq數(shù)據(jù)為雙端測(cè)序,Read 1從5‘端到3’端分別為cell barcode,umi,MEC固定序列,insertDNA。mobivision chip在處理輸入的fastq數(shù)據(jù)時(shí),首先會(huì)對(duì)Read1中的cell barcode進(jìn)行矯正。若cell barcode存在于mobivision 內(nèi)置的whitelist中,則該read 含有有效的cell barcode,可進(jìn)行下一步分析。若cell barcode不存在于whitelist中,則該read無(wú)效,丟棄。cell barcode在與whitelist中的barcode序列進(jìn)行比對(duì)時(shí),每個(gè)10個(gè)堿基,hamming距離<=1即可通過(guò)。在輸出的valid reads中,read 1序列對(duì)應(yīng)的cell barcode為矯正后的cell barcode。cell barcode及UMI序列,存于read id,而非read sequence。
對(duì)于cell barcode通過(guò)糾正的reads,還需進(jìn)一步去除adaptor。Read 1需要去除其3'端的MEB序列及其5‘端的MEC序列的反向互補(bǔ)序列,Read 2 需要去除其3’端的MEC序列,adaptor trimming允許的錯(cuò)配率為0.1。經(jīng)過(guò)trimming處理后,得到valid and clean fastq,可用于后續(xù)比對(duì)。
mobivision chip比對(duì)使用了內(nèi)置的bowtie2軟件,為雙端比對(duì),輸出.bam結(jié)果比對(duì)文件,即包含mapped reads,也包含unmapped reads。
對(duì)于比對(duì)得到的bam文件,作進(jìn)一步過(guò)濾去重處理,僅保留雙端比對(duì),且MapQ >= 30的alignments,僅保留長(zhǎng)度 <= 2000bp的alignments,根據(jù)比對(duì)信息中的cell barcode、染色體名、比對(duì)起點(diǎn)和比對(duì)終點(diǎn),去除重復(fù)的片段,得到過(guò)濾去重后的filtered.bed文件,并利用該文件生成可視化的bw文件。若該樣本為雙物種樣本,則每個(gè)物種各生成一個(gè)對(duì)應(yīng)的bw文件。
使用mobivision chip內(nèi)置的macs2軟件,以去重過(guò)濾處理后的filtered.bed進(jìn)行peak calling。若不指定peaks類(lèi)型,則默認(rèn)使用narrow peak type,若需call broad peak,則需指定--peaktypebroad。若指定了--control,則call peak時(shí),以IgG數(shù)據(jù)作為control,矯正背景噪音。最終輸出以.narrowPeak或.broadPeak為后綴的peaks文件。對(duì)于得到的peaks文件,進(jìn)行注釋?zhuān)⑨屧瓌t如下:
啟動(dòng)子區(qū)(promoter region)是指轉(zhuǎn)錄起始位點(diǎn)(transcript start site)上游1000bp,到下游100bp的區(qū)間(-1kb,+100);
distal peak是指該peak距離離它最近的TSS不超過(guò)200kb,且其不位于啟動(dòng)子區(qū)域;
distal peak又指peak與某一轉(zhuǎn)錄本有重合,但是,其既不屬于上述情況的promoter region,也不屬于上述情況的distal peak,這種peak也稱為distal peak;
除以上三種情況,其他peak均稱為intergenic peak。
Valid Fragments即fragments in peaks,定義為fragment有1個(gè)堿基落于peak內(nèi),即判定為fragmentsInPeaks。用該數(shù)據(jù)作為輸入,進(jìn)行cell calling。

mobivision chip目前過(guò)濾細(xì)胞采用動(dòng)態(tài)閾值策略進(jìn)行細(xì)胞barcode篩選:首先將所有barcode按其落入peak區(qū)域的片段數(shù)降序排列,取期望細(xì)胞數(shù)N(默認(rèn)3000)的95分位數(shù)位置(即第2850位當(dāng)N=3000時(shí))對(duì)應(yīng)的片段數(shù)作為m值;然后將m/10設(shè)為判定閾值,所有片段數(shù)超過(guò)該閾值的barcode均被識(shí)別為有效細(xì)胞。例如當(dāng)N=3000且m=20000時(shí),閾值設(shè)為2000,此時(shí)所有片段數(shù)超過(guò)2000的barcode將被保留(圖示案例篩選得到9000個(gè)細(xì)胞)。該方法的優(yōu)勢(shì)在于能根據(jù)數(shù)據(jù)特征自動(dòng)調(diào)整篩選標(biāo)準(zhǔn),確保不同規(guī)模數(shù)據(jù)集都能獲得可靠的細(xì)胞識(shí)別結(jié)果。
根據(jù)上述分析結(jié)果及中間數(shù)據(jù),對(duì)本次樣本分析進(jìn)行匯總,包括sequencing、mapping、cell、targeting、t-SNE Projection五個(gè)板塊。
1. Sequencing: 主要對(duì)輸入文庫(kù)的測(cè)序質(zhì)量進(jìn)行統(tǒng)計(jì);
2. Mapping: 對(duì)文庫(kù)的比對(duì)結(jié)果進(jìn)行統(tǒng)計(jì);
3. Cell:對(duì)最終call cell得到的結(jié)果矩陣進(jìn)行統(tǒng)計(jì);
4. Targeting: 對(duì)應(yīng)fragments及peaks的注釋信息進(jìn)行統(tǒng)計(jì);
5. t-SNE Projection:使用LSA降維,t-SNE映射處理,Louvain聚類(lèi)。