Nanopore全長轉錄組測序

產品介紹

Nanopore全長轉錄組測序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測序平臺進行全長轉錄組測序,無需打斷,可直接讀取從5’端到3’端polyA尾的高質量單個RNA分子全長序列,準確辨別二代測序無法準確識別的可變剪接(AS)、可選擇性多聚腺苷酸化(APA)、融合基因、lncRNA及其靶基因,且可同時對基因和轉錄本進行定量分析。ONT全長轉錄組已廣泛應用于生長發育、環境適應、免疫互作、突變表型、腫瘤的發生、臨床診斷和藥物研發等領域。

 

技術路線

 

 

應用方向

 

 

結果展示

數據質控

Nanopore測序通過對納米孔的DNA/RNA單分子實時電信號進行檢測及對應,即可計算獲得相應堿基的類型,完成序列的實時測定。為確保Reads有足夠高的質量,將下機原始測序數據(raw reads)過濾短片段和低質量的reads,得到clean reads,保證后續分析的準確性。

將reads按照長度從短到長排序,平均分成10份,每一份統計reads的平均質量值,平均質量值Q10以上,即為合格。

可變剪切鑒定

基因轉錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外顯子,產生不同的成熟mRNA,從而翻譯為不同的蛋白質,構成生物性狀的多樣性。這種轉錄后的mRNA加工過程稱為可變剪接或選擇性剪接(Alternative splicing)。可變剪接類型包括:(A) 外顯子跳躍;(B) 可變轉錄終止位點;(C) 可變外顯子;(D)可變轉錄起始位點;(E) 內含子保留。

轉錄因子預測

轉錄因子(Transcription factor)是指能夠結合在某基因上游特異核苷酸序列上的蛋白質,這些蛋白質可以調控RNA聚合酶與DNA模板的結合,從而調控基因的轉錄。

可選擇性多聚腺苷酸化分析-APA

多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價鏈結。在蛋白質生物合成的過程中,這是產生準備作翻譯的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機制,令mRNA分子于它們的3’端中斷。多聚腺苷酸尾(或聚A尾)保護mRNA,免受核酸外切酶攻擊,并且對轉錄終結、將mRNA從細胞核輸出及進行翻譯都十分重要。前體mRNA的可變多聚腺苷酸化(alternative polyadenylation, APA)可能貢獻于轉錄組多樣性,基因組的編碼能力以及基因的調控機制。

差異表達基因/轉錄本KEGG通路富集

KEGG Pathway富集可以系統分析基因產物在細胞中的代謝途徑以及這些基因產物功能,把基因/轉錄本及表達信息作為一個整體的網絡進行研究。

差異表達基因/轉錄本GO注釋

GO注釋分類統計圖,直觀的反映出在生物過程(biological process)、細胞組分(cellular component)和分子功能(molecular function),可深入挖掘差異基因和轉錄本的功能及所在的信號通路,篩選關注差異基因和轉錄本注釋情況。

?常見問題

什么是nanopore全長轉錄組測序?

nanopore全長轉錄組測序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測序平臺進行全長轉錄組測序。全長轉錄組測序,無需打斷,基于三代測序平臺直接獲取轉錄本的5ˊ到3ˊ高質量全長序列,可準確識別可變剪接、基因融合、可選擇性多聚腺苷酸化APA、等位基因特異性表達等轉錄本結構方面變異。基于nanopore三代測序平臺進行全長轉錄組測序,除了可準確鑒別上述轉錄本結構變異,還可實現轉錄本(mRNA或polyA+ lncRNA)表達水平準確定量。

nanopore全長轉錄組測序與二代Illumina平臺普通轉錄組的區別?

主要在于測序平臺不同。Illumina平臺主要是PE150測序,構建小片段文庫,為邊合成邊測序,在建庫以及測序過程中均需要PCR擴增,主要用于基因水平表達定量及差異表達分析。nanopre全長轉錄組測序無需打斷RNA,可獲得5’到3’全長轉錄本序列及其表達信息,對片段大小無偏好,直接檢測電信號無需邊合成邊測序其GC偏好性遠低于二代平臺;同時由于無需拼接其在轉錄本層面的結構變異檢測方面,比如可變剪接、融合基因、APA、新基因預測等具有絕對優勢。

nanopore全長轉錄組測序和二代轉錄組測序平臺有何差異?

nanopore測序是獨一無二的基于電信號識別堿基序列的三代測序技術。DNA/RNA上不同堿基或帶不同修飾時化學性質存在差異,當單鏈分子通過納米孔通道時,堿基造成的阻礙大小不一,因此會形成特征性離子電流變化信號。通過對這些信號進行實時檢測,即可獲得相應堿基類型,完成測序。目前通過“遞歸神經網絡(Recurrent Neural Network)”的復雜算法對堿基進行判讀。

其特點為:

1)讀長長:最長讀長能達到2 Mb以上級別[ref1],有利于可變剪接、基因融合等結構變異檢測;
2)低成本:相比其他三代測序技術,ONT測序樣本處理極其簡單,無需DNA聚合酶、連接酶和dNTPs,測序價格低;
3)測序過程不涉及PCR擴增:避免二代測序中PCR擴增可能引入的錯誤或豐度變化;
4)direct-RNA/DNA方式建庫,可直接獲取堿基修飾信息,如甲基化修飾5mC、6mA等,無須像二代測序需要經過重硫酸鹽轉化或者免疫沉淀富集實驗;
5)低GC含量和堿基偏好性,針對RNA測序無需打斷,轉錄本水平表達定量更準確。

二代轉錄組測序一般基于邊合成邊測序二代短讀長的Illumina等平臺,由于讀長短(通常PE 150bp),需要進行片斷化,打斷到200-300bp,測序過程需要DNA聚合酶和dNTPs以及進行橋式PCR形成clusters放大熒光信號。
從二代轉錄組到nanopore三代全長轉錄組,平臺升級,技術革新,解決二代不能解決的問題!

nanopore全長轉錄組測序送樣要求?

樣品類型:PolyA RNA;樣品濃度:≥50 ng/ul(Qubit HS RNA定量); 樣品總量:cDNA-direct方式:>250ng(單次);總量>750 ng;(若提供總RNA,動物樣品總量需按照PolyA RNA要求的100倍以上準備); cDNA-PCR方式:>1μg(單次);總量>3μg 樣品純度:OD260/280 ~2.0,OD260/230在2.0-2.2 之間,260nm處有正常峰值;樣品無基因組DNA污染; 總RNA完整性: RIN值≥8.0,28S/18S≥1.0;圖譜基線無上抬;5S峰正常。

nanopore全長轉錄組測序一般建議多少個生物學重復?

研究表明,生物學重復可提高所有基因表達水平鑒定的準確性,而增加測序深度主要提高低表達基因表達量鑒定準確性。每種處理條件下至少3個生物學重復,當研究樣本的生物學差異比較高,或者想研究更多的微小表達差異/fold change時,需要更多生物學重復。也就是,比如對于個體差異較大的臨床樣本可以5-10個/組以上,而生物學差異較小的細胞系樣本則每組3個生物學重復以上即可。

為什么說nanopore全長轉錄組測序比二代轉錄組測序在轉錄本表達水平定量更準確?

  • 首先,轉錄本表達定量,是指針對一個基因的多個不同轉錄本(transcript)分別進行表達定量。而基因水平定量,可以理解為一個基因所有轉錄本表達定量的加和。
  • 多數公司二代轉錄組測序不提供一個基因的多個轉錄本分別定量的結果,原因在于二代轉錄組測序并適用于這種情況。二代短測序單條read無法跨越全長轉錄本,其表達定量在reads比對完成后需要用諸如StringTie等軟件進行短reads組裝拼接得到轉錄本再進行其表達量評估。
  • 那么,二代轉錄組測序可能會存在拼接錯誤或者是拼接不完整,不能準確獲得完整轉錄本,導致各個轉錄本水平表達定量不準確。
  • 尤為重要的是,二代測序對于一個基因的多個轉錄本得到的reads,尤其是多個轉錄本共享的外顯子區對應reads無法區分其來源轉錄本,導致轉錄本水平定量不準確。
  • 還有一些情況,當不同基因具有比較相似的高度保守區時,這些區域的短reads也無法準確區分其來源基因/轉錄本,即存在多比對的現象,這也導致轉錄本甚至基因水平表達定量存在偏倚。
  • nanopore三代全長測序無需對各轉錄本打斷和拼接,一條read即可跨越全長轉錄本,多比對率也比較低,因此能夠準確獲取一個基因的多個全長轉錄本各自的表達信息。
注:上圖中藍色方塊表示測到RNA序列中能夠比對到基因組序列的區域,即屬于某個轉錄本外顯子區的reads;灰色線條表示我們測到的reads回比基因組序列時中間沒有比對上的,則用灰色線條連接,即reads不連續比對,中間被剪接掉的內含子區。從圖中明顯看出,二代短reads比較短,多數短read單條連一個外顯子區都跨越不了,nanopore長讀長測序可以直接得到3種全長轉錄本。其中,Exon2和Exon6以及Exon9是三個轉錄本間共享的,那么對于完全比對到這3個外顯子區的短reads無法區分其來源轉錄本。而三代測序則直接跨越三個全長轉錄本,因此對于轉錄本水平表達定量更準確。
注:上圖中2個不同基因間存在高度相似的保守區域(藍色方塊),當進行二代測序時會有完全屬于該保守區域的reads出現,這些reads在比對時可以同時比對到2個基因組區域,而三代測序由于直接測到2個基因的全長轉錄本,因此未出現這種情況。
——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。
  • 來自同一基因的多個轉錄本可能行使不同功能,二代測序由于片段化測序導致對轉錄本水平定量不準確,對于轉錄本水平表達定量存在固有缺陷,nanopore三代測序彌補了此方面不足,尤其是對于基因水平不顯著差異表達的基因,該基因的某些轉錄本可能顯著差異表達,這些轉錄本可能具有重要生物學作用。比如有些基因的某些轉錄本只在特定條件下才表達。如果不能對轉錄本水平進行準確定量,則可能遺漏這些可能具有重要生物學功能的轉錄本。
注:上圖列舉了2種情況下鑒定到的差異表達基因A和B,以及這2個基因鑒定到的各轉錄本差異表達情況。DGE表示差異表達基因,DTE表示差異表達轉錄本。可見,對于B基因,雖然基因水平不顯著差異表達,但是轉錄本水平,B.1和B.2都顯著差異表達。–[ref2]

為什么說nanopore全長轉錄組測序比二代轉錄組測序在AS、APA、基因fusion等結構變異以及復雜轉錄本鑒定方面更準確?

  • 人類中約95%基因存在可變剪接AS事件、70%以上基因存在APA現象[ref3]。AS、APA和fusion等是轉錄本多樣性以及蛋白多樣性的來源,多樣性轉錄本或蛋白發揮不同功能。
  • 由于全長轉錄本序列的獲得,使得nanopore全長轉錄組測序在鑒定可變剪接(alternative splicing, AS)、可選擇性多聚腺苷酸化(APA)以及融合轉錄本(fusion transcripts)等轉錄本層面的結構變異更準確,這是之前三代長讀長測序廣為熟知的應用。
  • 目前利用二代Illumina高通量測序方法進行可變剪切的檢測與分析非常普遍,但由于二代測序的讀長短,在準確預測完整的isoform全長序列方面存在問題,同時存在難以判斷轉錄起始位點(TSS)和轉錄終止位點(TTS)的位置、難以判斷哪些外顯子是連接在一起的問題。
  • 針對同時發生多個外顯子跳躍和內含保留等復雜轉錄本鑒定更是無能為力。
注:上圖列舉了由于復雜剪接模式形成的復雜轉錄本。–[ref4]
  • 利用二代短序列測序來檢測融合基因存在一些問題:基因組重復序列以及多比對率比較高使得檢測結果不準確。
  • 二代測序技術中為了研究APA已經開發了不下于10種實驗技術方法,比如polyA-seq,雖然其可以提取準確的polyA位置,但oligo(dT)引物可能結合到轉錄本內部的連續A序列,導致假陽性率高,后續需要RNA Pol II結合等額外實驗驗證這些連續A序列確實是由APA引起的;而如果不進行專門的polyA-seq,普通的二代轉錄組測序對APA檢測效能低下,只能鑒定到約0.003%含有polyA的reads,并且短3’UTR通常嵌在長的UTR中,因此具有短3’UTR的isoform通常被轉錄組裝工具忽視。[ref5]
  • nanopore三代全長測序無需對各轉錄本打斷和拼接,poly(A)會出現在測序結果中,并且可以得到從5’到3’的完整全長轉錄本,其多比對率也比較低,因此能夠準確鑒定轉錄本水平各結構變異。
注:由于篇幅所限,本次不重點展開針對AS、APA以及fusion的詳細闡述、應用以及介紹。

基因的GC含量和長度偏好影響基因表達定量結果,那么nanopore全長轉錄組測序比二代轉錄組測序在GC含量和長度偏好方面如何?

使用三種納米孔建庫方式(PCR-cDNA、direct-cDNA和direct-RNA)數據和典型的短讀長cDNA技術制備酵母轉錄組文庫進行比較:

a)在所有情況下,納米孔長讀長數據集的GC偏好都比短讀長數據集低。

b)與短讀長測序數據相比,納米孔長讀長測序數據的長度偏倚都較小。

綜上,nanopore全長轉錄組測序受基因的GC含量和長度偏好更小。

——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。

nanopore平臺相比二代平臺測序錯誤率高,那么ONT全長轉錄本的定量是否可靠?

ONT平臺目前我司下機數據堿基質量Q值平均約在10左右,即堿基平均錯誤率為10^(-1)=10%左右,但這是單堿基錯誤率;

比對時用的是全長序列和參考基因組或參考轉錄組進行比對,序列越長比對時對于堿基錯配度容忍越高,因此不會對表達定量有影響;

當然由于比二代單堿基錯誤率高,故而百邁客將SNP和InDel檢測分析內容去除了,因此想從RNA水平檢測snp/indel的客戶可能考慮做二代轉錄組測序。其實目前不乏使用nanopore測序數據檢測snp的文章,如NC|nanopore全基因組重測序鑒定人類基因組非同義新生SNP。

下面列舉了2個百邁客真實項目的數據質量表,大家可以參考。

為什么ONT全長轉錄組測序數據量推薦2G,而二代RNA-seq推薦6G?

ONT全長轉錄組測序一條reads即代表該轉錄本表達一次,而二代短reads需要非常多條才能覆蓋一個轉錄本;oxford nanopore公司官方白皮書中數據顯示:當相同數量的轉錄本被覆蓋達95%時,ONT所需要的reads數比Illumina約少50倍,所需要堿基數約少7倍。

故而2G ONT數據能達到6G Illumina檢測效果;


——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。

針對同一樣本進行的飽和度分析顯示,2G ONT全長除表達量極低的(CPM<1)其他轉錄本都達到飽和了,和二代Illumina 6G除表達量極低FPKM<1外的基因檢測也飽和了,且前者更早趨向飽和;

目前已發表的人鼠文獻中ONT全長測序的數據量大多也不到2G,比如文獻精讀|nanopore全長轉錄組測序揭示B細胞表面受體廣泛的轉錄變異。

ONT全長轉錄組在可變剪切方向有哪些文章?

應用于慢性淋巴細胞白血病

英文題目:Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns
發表雜志:Nature Communications
發表時間:2020.03
影響因子:11.878
使用Nanopore分別對慢性淋巴細胞白血病(CLL)分離的SF3B1野生型,突變株和正常組B細胞樣本進行全長轉錄組測序。基于Nanopore的全長cDNA測序可以檢測轉錄本全長,通過算法優化,相對于短序列,可以更準確的檢測3′末端剪切,內含子保留,分辨生產性異構體和非生產性異構體。該研究證明了Nanopore測序在癌癥和可變剪切中的潛在使用價值。

應用于精神疾病

英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
發表雜志:Mol. Psychiatry
發表時間:2020.03
影響因子:11.973
在人腦中,與精神分裂癥相關的基因組區域富集了在神經發育過程中表現出不同異構體使用的基因,本文通過ONT全長轉錄組技術研究疾病相關的CACNA1C亞型,有可能提供既有效又無外周副作用的新型精神藥物。

應用于阿爾茨海默病

英文題目:Deleterious ABCA7 mutations and transcript rescue mechanisms in early onset Alzheimer’s disease
發表雜志:Acta Neuropathol
發表時間:2017.09
影響因子:14.251
阿爾茨海默病(AD)是一種起病隱匿的進行性發展的神經系統退行性疾病。本文研究了ABCA7 PTC突變在一個大型早發性AD對照隊列中的患病率和疾病外顯性,并用ONT全長轉錄組檢查了其對轉錄水平的影響。揭示了不同程度的NMD和轉錄修飾事件,可能影響ABCA7的劑量、疾病的嚴重程度,并可能為AD的治療干預創造機會。

應用于多囊腎病

英文題目:Human-Specific Abnormal Alternative Splicing of Wild-Type PKD1 Induces Premature Termination of Polycystin-1
發表雜志:Journal of The American Society of Nephrology
發表時間:2018.10
影響因子:9.274
常染色體顯性遺傳性多囊腎病的主要形式是由編碼多囊蛋白-1(PC1)的基因雜合突變引起的,通過ONT全長轉錄組測序等方法確認存在多種剪接形式。研究發現,在雜合子個體中,低水平的全長PC1可能會將多囊蛋白信號降低到臨界的“成囊”閾值以下。

應用于乳腺癌

英文題目:Nanopore sequencing of full-length BRCA1 mRNA transcripts reveals co-occurrence of known exon skipping events
發表雜志:Breast Cancer Res
發表時間:2017.11
影響因子:4.988
本研究探索了納米孔測序技術在檢測整個BRCA1 mRNA轉錄本以及對框內和框外剪接事件進行準確分類方面的應用。研究鑒定了32個完整的BRCA1亞型,其中包括18個新的亞型,還發現已知的BRCA1外顯子跳躍事件,如Δ(9,10)和Δ21。這些發現對預測剪接轉錄本的翻譯框架具有重要意義,對解釋剪接變異體的臨床意義也很重要。

應用于肺癌

英文題目:Long read sequencing reveals a novel class of structural aberrations in cancers:identification and characterization of cancerous local amplifications
bioRxiv
本研究中利用ONT全長轉錄組和ONT重測序技術在肺癌基因組中識別和表征結構畸變,揭示了由局部重復、倒位和微缺失的復雜組合組成的獨特結構畸變CLCL,進一步分析并發現,即使在關鍵的癌癥相關基因中,這些突變也發生在體內,這些突變可能闡明了致癌性事件和治療策略仍然難以捉摸的患者的分子病因。

應用于細胞表面受體

英文題目:Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells
發表雜志:Nature Communications
發表時間:2017.07
影響因子:12.121
短reads RNAseq解析復雜isoform的能力有限,因為它無法測序RNA分子的全長cDNA拷貝。作者研究了使用長讀取單分子Oxford Nanopore測序儀的RNAseq是否能夠在不犧牲準確的基因表達定量的情況下,鑒定和定量復雜的isoform。在小鼠B1a細胞中鑒定了數千個未注釋的轉錄起始和終止位點,以及數百個可變剪接事件,鑒定了在B1a細胞中表達的數百種基因,這些基因顯示出多種復雜的isoform,包括幾種B細胞特異性表面受體。本研究表明,可以在單細胞水平上識別和定量復雜的isoform。

案例展示

相關解讀

a片在线观看网站不卡,A级婬片120秒免费,激情五月综合,欧美一级做a爱高清免费观看