支持中心
Tech Support
mobivision atac可以用于分析MobiNova平臺下機的單細胞表觀組ATAC數(shù)據(jù),關鍵分析步驟如下圖所示:

MobiNova平臺產(chǎn)生的ATAC文庫示意圖如下:

墨卓scATAC fastq數(shù)據(jù)為雙端測序,Read 1從5‘端到3’端分別為cell barcode,umi,MEC固定序列,insertDNA。mobivision atac在處理輸入的fastq數(shù)據(jù)時,首先會對Read1中的cell barcode進行矯正。若cell barcode存在于mobivision 內(nèi)置的whitelist中,則該read 含有有效的cell barcode,可進行下一步分析。若cell barcode不存在于whitelist中,則該read無效,丟棄。cell barcode在與whitelist中的barcode序列進行比對時,每個10個堿基,hamming距離<=1即可通過。在輸出的valid reads中,read 1序列對應的cell barcode為矯正后的cell barcode。cell barcode及UMI序列,存于read id,而非read sequence。
對于cell barcode通過糾正的reads,還需進一步去除adaptor。Read 1需要去除其3'端的MEB序列及其5‘端的MEC序列的反向互補序列,Read 2 需要去除其3’端的MEC序列,adaptor trimming允許的錯配率為0.1。經(jīng)過trimming處理后,得到valid and clean fastq,可用于后續(xù)比對。
mobivision atac比對使用了內(nèi)置的bowtie2軟件,為雙端比對,輸出.bam結果比對文件,即包含mapped reads,也包含unmapped reads。
對于比對得到的bam文件,作進一步過濾去重處理,僅保留雙端比對,且MapQ >= 30的
alignments,僅保留長度 <= 2000bp的alignments,根據(jù)比對信息中的cell barcode、染色體名、比對起點和比對終點,去除重復的片段,得到過濾去重后的filtered.bed文件,并利用該文件生成可視化的bw文件。若該樣本為雙物種樣本,則每個物種各生成一個對應的bw文件。
使用mobivision atac內(nèi)置的macs2軟件,以去重過濾處理后的filtered.bed進行peak calling。若不指定peaks類型,則默認使用narrow peak type,若需call broad peak,則需指定--peaktypebroad。若指定了--control,則call peak時,以IgG數(shù)據(jù)作為control,矯正背景噪音。最終輸出以.narrowPeak或.broadPeak為后綴的peaks文件。對于得到的peaks文件,進行注釋,注釋原則如下:
啟動子區(qū)(promoter region)是指轉錄起始位點(transcript start site)上游1000bp,到下游100bp的區(qū)間(-1kb,+100);
distal peak是指該peak距離離它最近的TSS不超過200kb,且其不位于啟動子區(qū)域;
distal peak又指peak與某一轉錄本有重合,但是,其既不屬于上述情況的promoter region,也不屬于上述情況的distal peak,這種peak也稱為distal peak;
除以上三種情況,其他peak均稱為intergenic peak。
Valid Fragments即fragments in peaks,定義為fragment有1個堿基落于peak內(nèi),即判定為fragmentsInPeaks。用該數(shù)據(jù)作為輸入,進行cell calling。

mobivision atac目前過濾細胞采用動態(tài)閾值策略進行細胞barcode篩選:首先將所有barcode按其落入peak區(qū)域的片段數(shù)降序排列,取期望細胞數(shù)N(默認3000)的95分位數(shù)位置(即第2850位當N=3000時)對應的片段數(shù)作為m值;然后將m/10設為判定閾值,所有片段數(shù)超過該閾值的barcode均被識別為有效細胞。例如當N=3000且m=20000時,閾值設為2000,此時所有片段數(shù)超過2000的barcode將被保留(圖示案例篩選得到9000個細胞)。該方法的優(yōu)勢在于能根據(jù)數(shù)據(jù)特征自動調(diào)整篩選標準,確保不同規(guī)模數(shù)據(jù)集都能獲得可靠的細胞識別結果。
根據(jù)上述分析結果及中間數(shù)據(jù),對本次樣本分析進行匯總,包括sequencing、mapping、cell、targeting、t-SNE Projection五個板塊。
1. Sequencing: 主要對輸入文庫的測序質(zhì)量進行統(tǒng)計;
2. Mapping: 對文庫的比對結果進行統(tǒng)計;
3. Cell:對最終call cell得到的結果矩陣進行統(tǒng)計;
4. Targeting: 對應fragments及peaks的注釋信息進行統(tǒng)計;
5. t-SNE Projection:使用LSA降維,t-SNE映射處理,Louvain聚類。