全長轉錄組研究是理解生物機體功能的一個重要途徑。傳統二代轉錄組測序無法直接獲得單個RNA分子由5ˊ到3ˊ的全部序列。基于PacBio三代測序平臺的轉錄組研究,無需打斷,直接讀取反轉錄的全長cDNA,能夠有效的獲取高質量的單個RNA分子的全部序列,準確辨別二代測序無法識別的同源異構體(isoform)、同源基因、超家族基因或等位基因表達的轉錄本。
CCS數據展示
PacBio測序儀每個cell含有ZMWs,reads進入ZMW孔中被測序,一個ZMW中含一條的reads(P1)為有效數據。通過有效數據的子序列獲得一致序列即為每個單分子測序反應器ZMW的CCS序列。CCS序列是每個單分子測序反應器ZMW里插入序列的最高質量序列。CCS序列可以從一定程度上評估建庫質量和SMRT? Cell上樣時序列的長度。
全長轉錄本數目統計
通過檢測CCS序列中是否包含正確的5’引物,3’引物及polyA尾,將序列分成全長序列(包含5’引物,3’引物及polyA尾)和非全長序列。去除CCS序列中cDNA 引物序列及polyA序列獲得建庫時的插入序列,同時根據建庫時兩端引物的差別確定鏈合成方向,將序列分為全長序列和非全長序列、嵌合序列和非嵌合序列。全長序列長度反映了建庫時cDNA序列長度,可通過統計全長序列的長度評估建庫質量。
轉錄本GO注釋
GO數據庫是GO組織(Gene Ontology Consortium)于2000年構建的一個結構化的標準生物學注釋系統,旨在建立基因及其產物知識的標準詞匯體系,適用于各個物種。GO注釋系統是一個有向無環圖,包含三個主要分支,即:生物學過程(Biological Process),分子功能(Molecular Function)和細胞組分(Cellular Component)。
可變剪接分析
基因轉錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外顯子,產生不同的成熟mRNA,從而翻譯為不同的蛋白質,構成生物性狀的多樣性。這種轉錄后的mRNA加工過程稱為可變剪接或選擇性剪接(Alternative splicing)。可變剪接類型包括:(A) 外顯子跳躍;(B) 可變轉錄終止位點;(C) 可變外顯子;(D) 可變轉錄起始位點;(E) 內含子保留。百邁客使用Astalavista軟件獲取每個樣品存在的可變剪接類型。結合RNA-Seq數據可以使用rMATS進行不同分組間的差異可變剪接分析。
轉錄本NR注釋
Nr數據庫是NCBI中的非冗余蛋白質數據庫,包含了Swissprot、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白質數據庫及從GenBank和RefSeq的CDS數據翻譯過來的蛋白質數據信息。通過序列比對尋找同源物種,并進行注釋。
轉錄本KEGG注釋
在生物體內,不同的基因產物相互協調來行使生物學功能,對表達基因的通路(Pathway)注釋分析有助于進一步解讀基因的功能。KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統分析基因功能、基因組信息數據庫,它有助于研究者把基因及表達信息作為一個整體網絡進行研究。
可變多聚腺苷酸化
多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價鏈結。在蛋白質生物合成的過程中,這是產生準備作翻譯的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機制,令mRNA分子于它們的3’端中斷。多聚腺苷酸尾(或聚A尾)保護mRNA,免受核酸外切酶攻擊,并且對轉錄終結、將mRNA從細胞核輸出及進行翻譯都十分重要。在原核生物中,前體mRNA的可變多聚腺苷酸化(alternative polyadenylation,APA)可能貢獻于轉錄組多樣性,基因組的編碼能力以及基因的調控機制。百邁客采用TAPIS pipeline來對全長非嵌合序列(FLNC)進一步分析以識別APA。
成功案例
答:1)Polymerase Read:酶聚合序列,DNA聚合酶以SMRTbell?環狀模板鏈合成的核酸序列,可用于測序過程中每輪(run)的質控。Polymerase reads經過濾后僅剩余高質量片段,包含接頭序列和通過環狀模板鏈合成的含多個序列的拷貝。
(2)Subread:每個聚合酶序列(polymerase read)可以分割成一個或多個子序列(Subread),subread是聚合酶以SMRTbell? 一條模板鏈經過一輪(passes)合成的,不包括接頭序列。每個subread包含質量值和相關酶活參數。
(3)number of full passes:指原始序列中存在兩端均含有SMRTbell? 接頭(adapter,圖中黑色區域)的子序列(接頭間的序列)個數。
(4)Circular Consensus (CCS) Read:根據需求篩選原始序列中滿足最小full pass數為 1,最低序列準確度為 0.9 的原始序列,通過子序列獲得一致序列即為每個單分子測序反應器ZMW的CCS序列。CCS序列是每個單分子測序反應器ZMW里插入序列的最高質量序列。CCS序列可以從一定程度上評估建庫質量和SMRT? Cell上樣時序列的長度。
(5)Full-Length (FL) Read versus Non-Full-Length (nFL) Read:定義兩端同時含有3’引物和5’引物,及3’引物前含有polyA尾(可選)的序列稱為全長序列(Full-Length(FL) Read)。 5’或3′ primer 可以是Clontech或其他全長cDNA建庫引物,或基因特異性的RT-PCR引物。反之,則為非全長序列(non-full-lengthread)。
(6)Full-Length non-chimericRead (FLNC):建庫過程中因接頭濃度或SMRTbell濃度過低造成兩個cDNA模板鏈直接相連而生成的嵌合序列稱為人工嵌合序列,如下圖所示。全長序列中的非嵌合序列稱為全長非嵌合序列。
答:PacBio全長轉錄組由于單cell產出有限,所以無法完成基因定量,需要結合二代轉錄組(RNA-seq)的數據聯合分析,才可以進行基因水平和轉錄本水平的定量,通常可以選擇全長轉錄組2+3的聯合分析產品進行分析。
答:
1、無需打斷,可直接獲得從5’端到3’端的全長轉錄本序列
2、轉錄本序列準確性高,連續性、完整性更好
3、準確鑒定轉錄本水平的結構變異,如可變剪接、融合基因等
4、結合二代轉錄組測序,同時完成基因水平和轉錄本水平的準確定量
5、物種適應性高,有無參考基因組均可以進行分析