支持中心
Tech Support
1. fastq數(shù)據(jù)不可直接合并,墨卓數(shù)據(jù)與10x數(shù)據(jù)的reads結(jié)構(gòu)并不一致,barcode白名單也不相同;
2. 細(xì)胞-基因表達(dá)矩陣(filtered-cell-gene-matrix)可進(jìn)行合并,推薦使用Seurat、liger、Harmony、Scanorama等軟件進(jìn)行去批次處理。可以被分為兩種情況:
1. 使用--intron excluede參數(shù)時(shí),一條read只有比對(duì)到一個(gè)基因的外顯子區(qū)域(read有超過(guò)50%的長(zhǎng)度比對(duì)到了外顯子區(qū)域),才會(huì)進(jìn)入計(jì)數(shù),如果比對(duì)到內(nèi)含子區(qū)域或基因間區(qū),則不進(jìn)入計(jì)數(shù);
2. 使用--intron included參數(shù)(此為默認(rèn)參數(shù))時(shí),一條read只有比對(duì)到一個(gè)基因的外顯子或內(nèi)含子區(qū)域(read有超過(guò)50%的長(zhǎng)度比對(duì)到內(nèi)含子和/或外顯子區(qū)域),才會(huì)進(jìn)入計(jì)數(shù),如果比對(duì)到基因間區(qū),則不進(jìn)入計(jì)數(shù)。針對(duì)不同的服務(wù)器配置及參數(shù)設(shè)置,100G數(shù)據(jù)運(yùn)行時(shí)長(zhǎng)并不完全相同。以Hygon C86 7285H 32-core Processor (2.5GHz)處理器為例:
1. 針對(duì)10G測(cè)序量的樣本,增加線程數(shù)并不能顯著降低分析時(shí)間,但會(huì)大大增加內(nèi)存的使用量,因此10GB左右的文庫(kù)推薦2-8線程;
2. 針對(duì)100G測(cè)序量的樣本,當(dāng)線程在24以下時(shí),并不會(huì)顯著增加內(nèi)存的使用量,但可以顯著減少分析時(shí)間;當(dāng)線程設(shè)置在24以上時(shí),內(nèi)存使用量開始明顯增加,因此100GB左右的文庫(kù)推薦16-24線程;
3. 運(yùn)行的時(shí)間和內(nèi)存消耗與文庫(kù)本身大小及設(shè)置的線程數(shù)有關(guān),當(dāng)文庫(kù)大小達(dá)300GB時(shí),我們建議分析時(shí)的內(nèi)存不少于64GB。

1. 過(guò)去試劑版本的墨卓單細(xì)胞3'轉(zhuǎn)錄組試劑盒制備的文庫(kù),都可以使用MobiVision-v3.2進(jìn)行分析。
2. MobiVision-v3.2與過(guò)去版本的MobiVision的分析結(jié)果并不完全一致。MobiVision v3.2版本在v3.0版本的基礎(chǔ)上,優(yōu)化了接頭過(guò)濾策略,從而提升比對(duì)率,分析結(jié)果會(huì)更好。1. 新增命令integrate,擴(kuò)展了命令集。
2. 加入了新的cutadapt序列剪切步驟,并改進(jìn)了過(guò)濾方法以確保更干凈的polyA切除。
3. 結(jié)果文件中的bam文件內(nèi)容調(diào)整,增加unmapped reads信息和新的tag,改進(jìn)了mapping info及seq saturation計(jì)算。
4. 更新了h5ad文件,改為包含完整矩陣信息。
5. 增加了cell_metrics文件及total genes detected信息,并寫出于summary.csv文件中。
6. 改進(jìn)了HTML報(bào)告的物種信息讀取及mapping information參數(shù)調(diào)整,使其更接近c(diǎn)ellranger的設(shè)置。
7. 比對(duì)率更高,分析結(jié)果更好。測(cè)序飽和度反映了全部測(cè)序片段整體的復(fù)雜性和測(cè)序深度,可通過(guò)計(jì)算含有有效條形碼和UMI、且能對(duì)比至基因組唯一區(qū)域的測(cè)序片段的冗余度來(lái)獲得。Sequencing Saturation = 1 - non-duplicated_unique_mapped_reads / total_unique_mapped_reads。對(duì)于通過(guò)mobivision quantify獲得的bam文件而言, MAPQ=255代表能比對(duì)至基因組唯一比區(qū)域的測(cè)序片段。所以,total_unique_mapped_reads可通過(guò)計(jì)算MAPQ=255的測(cè)序片段中,UMI和Barcode通過(guò)糾正的測(cè)序片段數(shù)獲得; non-duplicated_unique_mapped_reads可通過(guò)計(jì)算MAPQ=255的測(cè)序片段中,UMI和Barcode不重復(fù)的測(cè)序片段數(shù)獲得; 代碼如下:
samtools view -q 255 Aligned.bam | gawk '{if (NF==16) {total_reads+=1; !umi[$19,$20]++}} END {printf("%%s,%%s\\n", total_reads, length(umi))}'mobivision mkindex命令可用于構(gòu)建reference參考基因組,且指定不同的-m參數(shù),使用不同來(lái)源的參考基因組,均會(huì)導(dǎo)致構(gòu)建的reference參考基因組大小并不一致,-m指定值越大,構(gòu)建的參考基因組也越大,且分析速度也會(huì)更快。-m默認(rèn)值為16,若使用默認(rèn)參數(shù)構(gòu)建人的reference,其參考基因組文件夾大小約為19G,構(gòu)建reference代碼如下:
mobivision mkindex -n GRCh38\mobivision quantify目前提供兩種細(xì)胞過(guò)濾的算法,分別是CR2.2和EmptyDrops (Lun等人于2019年發(fā)表在Genome biology中的算法)。如果用戶需要指定細(xì)胞數(shù)目,也可通過(guò)--cellnumber INT 來(lái)選擇含有UMI數(shù)目排列前INT個(gè)的細(xì)胞標(biāo)簽作為有效細(xì)胞。

CR2.2算法(見上圖左Panel):首先將barcode按UMI數(shù)從大到小排序,設(shè)N為期望細(xì)胞數(shù),該值默認(rèn)為3000, m 為期望細(xì)胞數(shù)的99分位barcode所對(duì)應(yīng)的 UMI 數(shù)。所有 UMI 值超過(guò) m/10 的barcode都被稱識(shí)別為細(xì)胞。(例如,當(dāng)N=3000時(shí),99分位的barcode為第30個(gè)barcode,其UMI值記為m,當(dāng)m=20000時(shí),m/10=2000,那么所有UMI值超過(guò)2000的barcode會(huì)被識(shí)別為細(xì)胞,圖示細(xì)胞數(shù)為9000)。
EmptyDrops算法(見上圖右Panel): 參考Lun等人于2019年發(fā)表在Genome biology中的算法(EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data)。該算法是在 CR 2.2 的基礎(chǔ)上進(jìn)一步識(shí)別低RNA含量的細(xì)胞,步驟如下:
1. 初步細(xì)胞鑒定:與 CR 2.2 一致,使用基于每個(gè)barcode的總UMI數(shù)量的閾值來(lái)確定高RNA含量的細(xì)胞。
- 根據(jù)墨卓單細(xì)胞3'/5RNA的細(xì)胞捕獲率,預(yù)估細(xì)胞數(shù)量N
- 根據(jù)每個(gè)barcode的UMI數(shù)量降序排列,計(jì)算前N個(gè)barcode的UI數(shù)量的99分位數(shù),記為m。
- 如果barcode的UMI總數(shù)超過(guò)m的10%,則該barcode被視為含有細(xì)胞。
2. 細(xì)胞鑒定的細(xì)化:
- 選擇具有低UMI計(jì)數(shù)的barcode,即第一步未被鑒定為細(xì)胞的barcodes。
- 針對(duì)這些barcodes的RNA圖譜,基于采用基于基因的多項(xiàng)式分布,創(chuàng)建背景模型,并通過(guò)Simple Good-Turing平滑技術(shù)為未觀察到的基因提供非零的模型估計(jì)。
- 將每個(gè)未在第一步鑒定中被識(shí)別為細(xì)胞的barcode的RNA圖譜與背景模型進(jìn)行比較,那些與背景模型明顯不符的barcode被識(shí)別為細(xì)胞。
V(D)J分析的主要目的是從原始測(cè)序數(shù)據(jù)中提取B細(xì)胞或T細(xì)胞的V(D)J基因序列與克隆型。這個(gè)過(guò)程通??梢赃m應(yīng)不同的測(cè)序平臺(tái)和數(shù)據(jù)格式。因此,V(D)J分析流程支持多個(gè)測(cè)序平臺(tái)的FASTQ文件。
例如,在數(shù)據(jù)分析層面,V(D)J分析軟件IgBlast可以處理來(lái)自多個(gè)測(cè)序平臺(tái)的FASTQ文件,包括Illumina、華大和Ion Torrent。當(dāng)然,MobiVision分析軟件也可以處理來(lái)自不同測(cè)序平臺(tái)的FASTQ文件。然而,由于每種測(cè)序平臺(tái)的讀長(zhǎng)和質(zhì)量特征都不同,因此在進(jìn)行V(D)J分析時(shí)可能需要考慮這些因素的影響。V(D)J分析流程通??梢灾С謫味说膔eads,包括只有一端reads包含有V(D)J基因信息的情況。不過(guò),這取決于所使用的V(D)J分析軟件和具體的實(shí)驗(yàn)設(shè)計(jì)。
對(duì)于單端的reads,V(D)J分析軟件通常會(huì)對(duì)reads進(jìn)行一些額外的預(yù)處理和過(guò)濾,以提高V(D)J重排和克隆型識(shí)別的準(zhǔn)確性。MobiVision可以處理單端或雙端的FASTQ文件,指定V(D)J基因在reads的哪個(gè)位置上,并且可以識(shí)別測(cè)序的reads來(lái)自哪些Barcodes,并確定V(D)J基因的重鏈與輕鏈,從而進(jìn)行有效的V(D)J分析。
需要注意的是,對(duì)于只包含V(D)J基因信息的單端reads,由于缺少一些其他的序列信息如UMI,可能會(huì)影響單細(xì)胞V(D)J分析的準(zhǔn)確性和可靠性。因此,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì)時(shí),應(yīng)該盡量選擇適當(dāng)?shù)臏y(cè)序方案,以保證能夠獲取充分的序列信息來(lái)支持VDJ分析。對(duì)于特別不常見的物種,構(gòu)建一個(gè)參考基因組序列文件可能是一個(gè)具有挑戰(zhàn)性的任務(wù),因?yàn)槿狈捎玫膮⒖蓟蚪M或基因組注釋數(shù)據(jù)。以下是一些可能有用的方法:
在進(jìn)行原始FASTQ文件的分析之前,通常需要對(duì)文件進(jìn)行命名。雖然不同的實(shí)驗(yàn)室和分析流程可能有不同的命名規(guī)則,但通常應(yīng)該滿足以下一些基本要求:
單細(xì)胞VDJ測(cè)序數(shù)據(jù)量的合適大小取決于多種因素,包括樣本復(fù)雜度、測(cè)序深度、實(shí)驗(yàn)設(shè)計(jì)等。
一般來(lái)說(shuō),單細(xì)胞V(D)J測(cè)序的目的是獲得盡可能完整的克隆型信息,因此需要足夠的測(cè)序深度來(lái)支持高質(zhì)量的重排和克隆型識(shí)別。根據(jù)經(jīng)驗(yàn),每個(gè)單細(xì)胞至少需要測(cè)序到4000條reads,以保證高質(zhì)量的VDJ分析結(jié)果。
需要注意的是,對(duì)于不同的實(shí)驗(yàn)設(shè)計(jì)和研究問(wèn)題,需要根據(jù)實(shí)際情況來(lái)選擇合適的測(cè)序數(shù)據(jù)量。對(duì)于一些研究問(wèn)題,可能需要更深的測(cè)序深度,而對(duì)于一些其他問(wèn)題,可能只需要較少的測(cè)序數(shù)據(jù)量。因此,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析時(shí),應(yīng)該綜合考慮多種因素,并根據(jù)實(shí)際需要來(lái)選擇合適的測(cè)序數(shù)據(jù)量。Fraction Reads in Cells是單細(xì)胞測(cè)序數(shù)據(jù)分析中的一個(gè)關(guān)鍵指標(biāo),用于評(píng)估測(cè)序數(shù)據(jù)的質(zhì)量和單細(xì)胞捕獲的效率。它表示在所有測(cè)序數(shù)據(jù)中,能夠被分配到單個(gè)細(xì)胞的reads所占的比例。通常來(lái)說(shuō),F(xiàn)raction Reads in Cells越高,代表單細(xì)胞測(cè)序的效果越好,樣本中的單個(gè)細(xì)胞被捕獲的概率越高。
當(dāng)Fraction Reads in Cells比例比較低時(shí),可能意味著以下一些情況:
值得注意的是,F(xiàn)raction Reads in Cells的理想值是依賴于實(shí)驗(yàn)設(shè)計(jì)和測(cè)序技術(shù)等因素,并不存在一個(gè)固定的閾值。在進(jìn)行單細(xì)胞測(cè)序數(shù)據(jù)分析時(shí),需要結(jié)合其他指標(biāo)和分析結(jié)果來(lái)綜合評(píng)估數(shù)據(jù)質(zhì)量和單細(xì)胞捕獲效率。
Paired Clonotype Diversity是單細(xì)胞VDJ測(cè)序數(shù)據(jù)中用來(lái)評(píng)估克隆型多樣性的一個(gè)指標(biāo)。它基于同一細(xì)胞中的配對(duì)的重鏈和輕鏈VDJ重排信息,計(jì)算出同一細(xì)胞中的克隆型數(shù)量,并對(duì)不同細(xì)胞的克隆型進(jìn)行聚類,得到每個(gè)聚類中包含的不同克隆型數(shù)量。Paired Clonotype Diversity指標(biāo)即為不同聚類中克隆型數(shù)量的平均值,通常用來(lái)描述單個(gè)細(xì)胞內(nèi)的克隆型多樣性。
Paired Clonotype Diversity計(jì)算的具體過(guò)程如下:

MobiVisoion vdj的命名無(wú)需固定一種方式命名。從上述的命名規(guī)則中,我們可以看到其ReadType有四種命名形式,Suffix也有4種命名形式,目前MobiVision可以支持16種命名形式。用戶在二代測(cè)序結(jié)束下機(jī)后獲取的的fastq文件,只要命名合理,一定程度可以直接進(jìn)行MobiVision vdj分析,無(wú)需對(duì)樣本名改名。