RT-qPCR,轉錄組或蛋白質組是實驗室常用的表徵基因的表達水平的方法,而你知不知道其實不做實驗也可以預測目標基因的表達水平呢?
DNA序列大量增加,基於這些海量的數據,科學家們進行了一些與DNA組成的相關的統計分析,如密碼子的使用情況。很快科學家就發現了物種的基因之間存在相當大的密碼子使用異質性,和密碼子偏好性的程度與基因的表達量成正相關。
CAI由Sharp等人提出,它測量目標核酸序列和密碼子適應性指數(CAI)進行轉化轉化,密碼子替代的程度呈正相關。已知高度表達參考基因集之間的同義密碼子使用近似性的差異程度。
CAI值的計算也十分適合,那接下來就一起跟著我來用CAIcal工具預測一下您感興趣的基因表達水平如何吧。
CAIcal使用說明:
- CAIcal服務器主頁,點擊Enter進入CAI計算界面。
- 計算CAI要輸入查詢序列(查詢序列),參考集及翻譯的密碼子規則。查詢序列必須是fasta格式的DNA或RNA序列。CAIcal服務器會首先檢查查詢序列是否是編碼蛋白質的DNA或RNA區域,以及序列是否包含內部終止密碼子(通常表示基因發生了移碼突變),是否存在非標準字符,以及序列是否編碼氨基酸。
- 計算CAI所需的參考集可以從密碼子使用數據庫中引入,可以同時使用兩個參考集,比較關於兩個不同生物的密碼子使用,並檢查它是否更適合其中一種。CAIcal界面中提供了此數據庫的鏈接。該數據庫包含來自GenBank中獲取並按物種的密碼子使用表。
- 選擇翻譯的遺傳密碼規則(替代為細菌的遺傳密碼)。然後提交任務。
- 運行結束後,該服務器會提供許多有用的計算結果。服務器會生成幾個表格和圖形以及文本框,其中包含以製表符分隔格式的結果,可以很容易地將其複制並粘貼到電子上表格中:
輸出結果:
- DNA序列或參考序列組的CAI值。該指數可測量由用戶選擇的同義密碼子使用參考集基因序列集的適用性。
- 輸入DNA序列的同義密碼子的使用情況,以及其他有用的參數,如長度,總G + C含量,三個密碼子位置的G + C含量,以及有效密碼子的數量和密碼子權重。
- CAI的預期值:通過計算查詢序列的氨基酸組成和G + C含量從查詢序列中隨機產生500個序列來確定CAI的預期值(eCAI)。因此,該預期CAI提供了,用於辨別CAI值的差異是否具有統計學意義的直接閾值,可以使用判斷這種差異是源於密碼子替代或可以由G + C組合物和/或氨基酸組成的內部偏差引起的假象。
- 計算出的每個密碼子的權重,即密碼子使用的頻率與參考集中的該氨基酸的最佳密碼子的使用頻率之比,可以使用滑動窗口來排列DNA序列可視化CAI的變化。
其他功能:
在CAIcal服務器主頁面的上方,還提供了幾個訪問其他相關程序或數據庫的鏈接,包括HEG-DB(高表達基因數據庫),HGT-DB(交叉轉移基因數據庫),NCBI,Swiss-Prot和SGDB數據庫,基因預測,翻譯,OPTIMIZER密碼子優化程序等,非常方便。
- HEG-DB數據庫收集了模式微生物的基因組中的高表達基因,併計算了它們的CAI值。
- 在線程序OPTIMIZER可用於預測和優化異源基因表達中基因的水平表達。具體來說,它可以優化DNA序列的密碼子使用,以提高其表達水平。用戶可以在優化過程中使用自己的密碼子偏好表,或者在選擇來自150多個原核種類的密碼子偏好表。有一些優化方法,包括:氨基酸-密碼子對應法,隨機方法或中間法。還有一些選擇,例如選擇避開改變特定的限制位點等。
- 此外,還可以將CAIcal中包含的工具(圖形界面)下載並本地化,並且可以輕鬆地在全基因組範圍內計算上千條序列的CAI和eCAI值。
- 最後,放上自己整理CAIcal服務器的數據做的CAI值箱線圖:某某全基因組範圍內基因序列的CAI值範圍的可視化(基於COG功能分類)。
參考文獻:
[1] Puigbo P,Bravo IG和Garcia-Vallve S.(2008)CAIcal:一套評估密碼子使用適應性的組合工具。生物學直接,3:38。 [2] Puigbo P.,Guzmen E.Romeu A.和Garcia-Vallve S. 2007 OPTIMIZER:用於優化DNA序列密碼子使用的Web服務器。核酸研究,35:W126-W131。 [3] Puigbo P.,Romeu A.和Garcia-Vallve S.2008。HEG-DB:在翻譯選擇下預測原核完整基因組中高表達基因的數據集。核酸研究。 36:D524-7。CAIcal主頁:
封面來源:站酷海洛Plus
圖片來源:作者提供