成品视频91久久,亚洲黄色一本久道中文字幕,青草伊人久久综合,女同精品区视频,精品久日韩一区高清.,色天使久久,欧美日本美女在线一区二区,久久久久色网在线,日韩精品亚视频国产无破

MobiVision表觀組算法介紹-ATAC

算法概覽

mobivision atac可以用于分析MobiNova平臺下機的單細胞表觀組ATAC數(shù)據(jù),關鍵分析步驟如下圖所示:


image.png

Barcode矯正

MobiNova平臺產(chǎn)生的ATAC文庫示意圖如下:

 

image.png

 

墨卓scATAC fastq數(shù)據(jù)為雙端測序,Read 1從5‘端到3’端分別為cell barcode,umi,MEC固定序列,insertDNA。mobivision atac在處理輸入的fastq數(shù)據(jù)時,首先會對Read1中的cell barcode進行矯正。若cell barcode存在于mobivision 內(nèi)置的whitelist中,則該read 含有有效的cell barcode,可進行下一步分析。若cell barcode不存在于whitelist中,則該read無效,丟棄。cell barcode在與whitelist中的barcode序列進行比對時,每個10個堿基,hamming距離<=1即可通過。在輸出的valid reads中,read 1序列對應的cell barcode為矯正后的cell barcode。cell barcode及UMI序列,存于read id,而非read sequence。

對于cell barcode通過糾正的reads,還需進一步去除adaptor。Read 1需要去除其3'端的MEB序列及其5‘端的MEC序列的反向互補序列,Read 2 需要去除其3’端的MEC序列,adaptor trimming允許的錯配率為0.1。經(jīng)過trimming處理后,得到valid and clean fastq,可用于后續(xù)比對。

 

Alignment

mobivision atac比對使用了內(nèi)置的bowtie2軟件,為雙端比對,輸出.bam結果比對文件,即包含mapped reads,也包含unmapped reads。

對于比對得到的bam文件,作進一步過濾去重處理,僅保留雙端比對,且MapQ >= 30的

alignments,僅保留長度 <= 2000bp的alignments,根據(jù)比對信息中的cell barcode、染色體名、比對起點和比對終點,去除重復的片段,得到過濾去重后的filtered.bed文件,并利用該文件生成可視化的bw文件。若該樣本為雙物種樣本,則每個物種各生成一個對應的bw文件。

Peaks Calling and Annotation

使用mobivision atac內(nèi)置的macs2軟件,以去重過濾處理后的filtered.bed進行peak calling。若不指定peaks類型,則默認使用narrow peak type,若需call broad peak,則需指定--peaktypebroad。若指定了--control,則call peak時,以IgG數(shù)據(jù)作為control,矯正背景噪音。最終輸出以.narrowPeak或.broadPeak為后綴的peaks文件。對于得到的peaks文件,進行注釋,注釋原則如下:

啟動子區(qū)(promoter region)是指轉錄起始位點(transcript start site)上游1000bp,到下游100bp的區(qū)間(-1kb,+100);

distal peak是指該peak距離離它最近的TSS不超過200kb,且其不位于啟動子區(qū)域;

distal peak又指peak與某一轉錄本有重合,但是,其既不屬于上述情況的promoter region,也不屬于上述情況的distal peak,這種peak也稱為distal peak;

除以上三種情況,其他peak均稱為intergenic peak。

Valid Fragments

Valid Fragments即fragments in peaks,定義為fragment有1個堿基落于peak內(nèi),即判定為fragmentsInPeaks。用該數(shù)據(jù)作為輸入,進行cell calling。

Cell Calling

image.png

mobivision atac目前過濾細胞采用動態(tài)閾值策略進行細胞barcode篩選:首先將所有barcode按其落入peak區(qū)域的片段數(shù)降序排列,取期望細胞數(shù)N(默認3000)的95分位數(shù)位置(即第2850位當N=3000時)對應的片段數(shù)作為m值;然后將m/10設為判定閾值,所有片段數(shù)超過該閾值的barcode均被識別為有效細胞。例如當N=3000且m=20000時,閾值設為2000,此時所有片段數(shù)超過2000的barcode將被保留(圖示案例篩選得到9000個細胞)。該方法的優(yōu)勢在于能根據(jù)數(shù)據(jù)特征自動調(diào)整篩選標準,確保不同規(guī)模數(shù)據(jù)集都能獲得可靠的細胞識別結果。

Report Generation

根據(jù)上述分析結果及中間數(shù)據(jù),對本次樣本分析進行匯總,包括sequencing、mapping、cell、targeting、t-SNE Projection五個板塊。

1. Sequencing: 主要對輸入文庫的測序質(zhì)量進行統(tǒng)計;

2. Mapping: 對文庫的比對結果進行統(tǒng)計;

3. Cell:對最終call cell得到的結果矩陣進行統(tǒng)計;

4. Targeting: 對應fragments及peaks的注釋信息進行統(tǒng)計;

5. t-SNE Projection:使用LSA降維,t-SNE映射處理,Louvain聚類。

东宁县| 丰镇市| 常熟市| 徐水县| 揭西县| 重庆市| 泰安市| 全州县| 汤原县| 青海省| 济源市| 博爱县| 寿宁县| 保靖县| 景宁| 醴陵市| 南部县| 彭阳县| 临夏市| 德格县| 扶绥县| 义乌市| 巴楚县| 遵义市| 屏东市| 洛阳市| 永胜县| 永嘉县| 伽师县| 黄大仙区| 勃利县| 固阳县| 安义县| 长乐市| 班玛县| 唐山市| 太仓市| 双鸭山市| 和政县| 泗洪县| 杭州市|