Nanopore全長轉錄組測序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測序平臺進行全長轉錄組測序,無需打斷,可直接讀取從5’端到3’端polyA尾的高質量單個RNA分子全長序列,準確辨別二代測序無法準確識別的可變剪接(AS)、可選擇性多聚腺苷酸化(APA)、融合基因、lncRNA及其靶基因,且可同時對基因和轉錄本進行定量分析。ONT全長轉錄組已廣泛應用于生長發育、環境適應、免疫互作、突變表型、腫瘤的發生、臨床診斷和藥物研發等領域。
數據質控
Nanopore測序通過對納米孔的DNA/RNA單分子實時電信號進行檢測及對應,即可計算獲得相應堿基的類型,完成序列的實時測定。為確保Reads有足夠高的質量,將下機原始測序數據(raw reads)過濾短片段和低質量的reads,得到clean reads,保證后續分析的準確性。
將reads按照長度從短到長排序,平均分成10份,每一份統計reads的平均質量值,平均質量值Q10以上,即為合格。
可變剪切鑒定
基因轉錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外顯子,產生不同的成熟mRNA,從而翻譯為不同的蛋白質,構成生物性狀的多樣性。這種轉錄后的mRNA加工過程稱為可變剪接或選擇性剪接(Alternative splicing)。可變剪接類型包括:(A) 外顯子跳躍;(B) 可變轉錄終止位點;(C) 可變外顯子;(D)可變轉錄起始位點;(E) 內含子保留。
轉錄因子預測
轉錄因子(Transcription factor)是指能夠結合在某基因上游特異核苷酸序列上的蛋白質,這些蛋白質可以調控RNA聚合酶與DNA模板的結合,從而調控基因的轉錄。
可選擇性多聚腺苷酸化分析-APA
多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價鏈結。在蛋白質生物合成的過程中,這是產生準備作翻譯的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機制,令mRNA分子于它們的3’端中斷。多聚腺苷酸尾(或聚A尾)保護mRNA,免受核酸外切酶攻擊,并且對轉錄終結、將mRNA從細胞核輸出及進行翻譯都十分重要。前體mRNA的可變多聚腺苷酸化(alternative polyadenylation, APA)可能貢獻于轉錄組多樣性,基因組的編碼能力以及基因的調控機制。
差異表達基因/轉錄本KEGG通路富集
KEGG Pathway富集可以系統分析基因產物在細胞中的代謝途徑以及這些基因產物功能,把基因/轉錄本及表達信息作為一個整體的網絡進行研究。
差異表達基因/轉錄本GO注釋
GO注釋分類統計圖,直觀的反映出在生物過程(biological process)、細胞組分(cellular component)和分子功能(molecular function),可深入挖掘差異基因和轉錄本的功能及所在的信號通路,篩選關注差異基因和轉錄本注釋情況。
nanopore全長轉錄組測序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測序平臺進行全長轉錄組測序。全長轉錄組測序,無需打斷,基于三代測序平臺直接獲取轉錄本的5ˊ到3ˊ高質量全長序列,可準確識別可變剪接、基因融合、可選擇性多聚腺苷酸化APA、等位基因特異性表達等轉錄本結構方面變異。基于nanopore三代測序平臺進行全長轉錄組測序,除了可準確鑒別上述轉錄本結構變異,還可實現轉錄本(mRNA或polyA+ lncRNA)表達水平準確定量。
主要在于測序平臺不同。Illumina平臺主要是PE150測序,構建小片段文庫,為邊合成邊測序,在建庫以及測序過程中均需要PCR擴增,主要用于基因水平表達定量及差異表達分析。nanopre全長轉錄組測序無需打斷RNA,可獲得5’到3’全長轉錄本序列及其表達信息,對片段大小無偏好,直接檢測電信號無需邊合成邊測序其GC偏好性遠低于二代平臺;同時由于無需拼接其在轉錄本層面的結構變異檢測方面,比如可變剪接、融合基因、APA、新基因預測等具有絕對優勢。
nanopore測序是獨一無二的基于電信號識別堿基序列的三代測序技術。DNA/RNA上不同堿基或帶不同修飾時化學性質存在差異,當單鏈分子通過納米孔通道時,堿基造成的阻礙大小不一,因此會形成特征性離子電流變化信號。通過對這些信號進行實時檢測,即可獲得相應堿基類型,完成測序。目前通過“遞歸神經網絡(Recurrent Neural Network)”的復雜算法對堿基進行判讀。
其特點為:
1)讀長長:最長讀長能達到2 Mb以上級別[ref1],有利于可變剪接、基因融合等結構變異檢測;
2)低成本:相比其他三代測序技術,ONT測序樣本處理極其簡單,無需DNA聚合酶、連接酶和dNTPs,測序價格低;
3)測序過程不涉及PCR擴增:避免二代測序中PCR擴增可能引入的錯誤或豐度變化;
4)direct-RNA/DNA方式建庫,可直接獲取堿基修飾信息,如甲基化修飾5mC、6mA等,無須像二代測序需要經過重硫酸鹽轉化或者免疫沉淀富集實驗;
5)低GC含量和堿基偏好性,針對RNA測序無需打斷,轉錄本水平表達定量更準確。
二代轉錄組測序一般基于邊合成邊測序二代短讀長的Illumina等平臺,由于讀長短(通常PE 150bp),需要進行片斷化,打斷到200-300bp,測序過程需要DNA聚合酶和dNTPs以及進行橋式PCR形成clusters放大熒光信號。
從二代轉錄組到nanopore三代全長轉錄組,平臺升級,技術革新,解決二代不能解決的問題!
樣品類型:PolyA RNA;樣品濃度:≥50 ng/ul(Qubit HS RNA定量); 樣品總量:cDNA-direct方式:>250ng(單次);總量>750 ng;(若提供總RNA,動物樣品總量需按照PolyA RNA要求的100倍以上準備); cDNA-PCR方式:>1μg(單次);總量>3μg 樣品純度:OD260/280 ~2.0,OD260/230在2.0-2.2 之間,260nm處有正常峰值;樣品無基因組DNA污染; 總RNA完整性: RIN值≥8.0,28S/18S≥1.0;圖譜基線無上抬;5S峰正常。
研究表明,生物學重復可提高所有基因表達水平鑒定的準確性,而增加測序深度主要提高低表達基因表達量鑒定準確性。每種處理條件下至少3個生物學重復,當研究樣本的生物學差異比較高,或者想研究更多的微小表達差異/fold change時,需要更多生物學重復。也就是,比如對于個體差異較大的臨床樣本可以5-10個/組以上,而生物學差異較小的細胞系樣本則每組3個生物學重復以上即可。
使用三種納米孔建庫方式(PCR-cDNA、direct-cDNA和direct-RNA)數據和典型的短讀長cDNA技術制備酵母轉錄組文庫進行比較:
a)在所有情況下,納米孔長讀長數據集的GC偏好都比短讀長數據集低。
b)與短讀長測序數據相比,納米孔長讀長測序數據的長度偏倚都較小。
綜上,nanopore全長轉錄組測序受基因的GC含量和長度偏好更小。
——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。
ONT平臺目前我司下機數據堿基質量Q值平均約在10左右,即堿基平均錯誤率為10^(-1)=10%左右,但這是單堿基錯誤率;
比對時用的是全長序列和參考基因組或參考轉錄組進行比對,序列越長比對時對于堿基錯配度容忍越高,因此不會對表達定量有影響;
當然由于比二代單堿基錯誤率高,故而百邁客將SNP和InDel檢測分析內容去除了,因此想從RNA水平檢測snp/indel的客戶可能考慮做二代轉錄組測序。其實目前不乏使用nanopore測序數據檢測snp的文章,如NC|nanopore全基因組重測序鑒定人類基因組非同義新生SNP。
下面列舉了2個百邁客真實項目的數據質量表,大家可以參考。
ONT全長轉錄組測序一條reads即代表該轉錄本表達一次,而二代短reads需要非常多條才能覆蓋一個轉錄本;oxford nanopore公司官方白皮書中數據顯示:當相同數量的轉錄本被覆蓋達95%時,ONT所需要的reads數比Illumina約少50倍,所需要堿基數約少7倍。
故而2G ONT數據能達到6G Illumina檢測效果;
——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。
針對同一樣本進行的飽和度分析顯示,2G ONT全長除表達量極低的(CPM<1)其他轉錄本都達到飽和了,和二代Illumina 6G除表達量極低FPKM<1外的基因檢測也飽和了,且前者更早趨向飽和;
目前已發表的人鼠文獻中ONT全長測序的數據量大多也不到2G,比如文獻精讀|nanopore全長轉錄組測序揭示B細胞表面受體廣泛的轉錄變異。
應用于慢性淋巴細胞白血病
英文題目:Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns
發表雜志:Nature Communications
發表時間:2020.03
影響因子:11.878
使用Nanopore分別對慢性淋巴細胞白血病(CLL)分離的SF3B1野生型,突變株和正常組B細胞樣本進行全長轉錄組測序。基于Nanopore的全長cDNA測序可以檢測轉錄本全長,通過算法優化,相對于短序列,可以更準確的檢測3′末端剪切,內含子保留,分辨生產性異構體和非生產性異構體。該研究證明了Nanopore測序在癌癥和可變剪切中的潛在使用價值。
應用于精神疾病
英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
發表雜志:Mol. Psychiatry
發表時間:2020.03
影響因子:11.973
在人腦中,與精神分裂癥相關的基因組區域富集了在神經發育過程中表現出不同異構體使用的基因,本文通過ONT全長轉錄組技術研究疾病相關的CACNA1C亞型,有可能提供既有效又無外周副作用的新型精神藥物。
應用于阿爾茨海默病
英文題目:Deleterious ABCA7 mutations and transcript rescue mechanisms in early onset Alzheimer’s disease
發表雜志:Acta Neuropathol
發表時間:2017.09
影響因子:14.251
阿爾茨海默病(AD)是一種起病隱匿的進行性發展的神經系統退行性疾病。本文研究了ABCA7 PTC突變在一個大型早發性AD對照隊列中的患病率和疾病外顯性,并用ONT全長轉錄組檢查了其對轉錄水平的影響。揭示了不同程度的NMD和轉錄修飾事件,可能影響ABCA7的劑量、疾病的嚴重程度,并可能為AD的治療干預創造機會。
應用于多囊腎病
英文題目:Human-Specific Abnormal Alternative Splicing of Wild-Type PKD1 Induces Premature Termination of Polycystin-1
發表雜志:Journal of The American Society of Nephrology
發表時間:2018.10
影響因子:9.274
常染色體顯性遺傳性多囊腎病的主要形式是由編碼多囊蛋白-1(PC1)的基因雜合突變引起的,通過ONT全長轉錄組測序等方法確認存在多種剪接形式。研究發現,在雜合子個體中,低水平的全長PC1可能會將多囊蛋白信號降低到臨界的“成囊”閾值以下。
應用于乳腺癌
英文題目:Nanopore sequencing of full-length BRCA1 mRNA transcripts reveals co-occurrence of known exon skipping events
發表雜志:Breast Cancer Res
發表時間:2017.11
影響因子:4.988
本研究探索了納米孔測序技術在檢測整個BRCA1 mRNA轉錄本以及對框內和框外剪接事件進行準確分類方面的應用。研究鑒定了32個完整的BRCA1亞型,其中包括18個新的亞型,還發現已知的BRCA1外顯子跳躍事件,如Δ(9,10)和Δ21。這些發現對預測剪接轉錄本的翻譯框架具有重要意義,對解釋剪接變異體的臨床意義也很重要。
應用于肺癌
英文題目:Long read sequencing reveals a novel class of structural aberrations in cancers:identification and characterization of cancerous local amplifications
bioRxiv
本研究中利用ONT全長轉錄組和ONT重測序技術在肺癌基因組中識別和表征結構畸變,揭示了由局部重復、倒位和微缺失的復雜組合組成的獨特結構畸變CLCL,進一步分析并發現,即使在關鍵的癌癥相關基因中,這些突變也發生在體內,這些突變可能闡明了致癌性事件和治療策略仍然難以捉摸的患者的分子病因。
應用于細胞表面受體
英文題目:Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells
發表雜志:Nature Communications
發表時間:2017.07
影響因子:12.121
短reads RNAseq解析復雜isoform的能力有限,因為它無法測序RNA分子的全長cDNA拷貝。作者研究了使用長讀取單分子Oxford Nanopore測序儀的RNAseq是否能夠在不犧牲準確的基因表達定量的情況下,鑒定和定量復雜的isoform。在小鼠B1a細胞中鑒定了數千個未注釋的轉錄起始和終止位點,以及數百個可變剪接事件,鑒定了在B1a細胞中表達的數百種基因,這些基因顯示出多種復雜的isoform,包括幾種B細胞特異性表面受體。本研究表明,可以在單細胞水平上識別和定量復雜的isoform。