一種建立蛋白樣品swath離子庫的方法
【專利摘要】本發明提供一種新的離子庫建立方法,該方法可以整合多針DDA質譜鑒定的結果,通過非標定量的肽段保留時間(SWATH?RT)反矯正多針DDA中肽段保留時間的技術可以得到保留時間歸一化后的多針DDA鑒定的數據,然后將這些多針DDA數據的肽段信息整合并建立新的離子庫。在通過DDA鑒定可信度對離子庫容量進行優化,最終可得到最優的庫容量的離子庫。
【專利說明】—種建立蛋白樣品SWATH離子庫的方法
【技術領域】
[0001]本發明涉及蛋白質組學研究中的質譜方法領域,更具體地涉及在蛋白質組學研究的質譜方法中的一種建立蛋白樣品SWATH離子庫的方法。
【背景技術】
[0002]定量蛋白質組學研究可從蛋白質組層面闡釋某種生物現象的發生發展原因與規律,對生命科學以及人類自身疾病診療有重大意義。如對于抗旱性好的作物與抗旱性差的作物的定量蛋白質組研究,可能發現潛在利于作物抗旱的關鍵蛋白或蛋白組,用以指導分子育種。對于腫瘤組織與非腫瘤組織的定量蛋白質組研究,則可能發現某種腫瘤特異的蛋白質作為疾病的標志物,用以腫瘤的早期診斷、確診與分型,知道臨床治療方案的確定。
[0003]目前,有多種成熟的定量蛋白質組技術被廣泛應用,如基于標記的定量蛋白質組技術(iTRAQ,SILAC等),基于非標記的定量蛋白質組技術。這些技術主要基于數據依賴性采集質譜技術(Data dependent acquisition, DDA)。近些年,數據非依賴性采集(Dataindependent acquisition, DIA)技術逐漸得以在蛋白質組研究領域應用。由于其可以對所有質譜檢測到信號的離子進行二級碎裂與信息捕捉,獲得更全面的樣本電子化信息,所以基于DIA的定量蛋白質研究技術也得到了進一步發展。連續窗口采集所有理論碎片離子(sequential window acquisition of all the theoretical fragment-1on spectra,SWATH)技術是ABSCIEX公司針對5600質譜儀發展的一種新的基于DIA的定量蛋白質組技術。該技術需要首先建立目標蛋白的離子庫(Spectra library, 1n library,也稱為“譜圖庫”、“參考譜圖庫”等),然后運用目標蛋白離子庫對SWATH所采集的數據進行信息提取,結合定量軟件進行定量蛋白質組的分析。所以說,SWATH技術中,離子庫的建立是非常重要的一步,其容量、質量直接影響到SWATH技術定量蛋白質的數量與質量。
[0004]瑞士分子系統生物學研究所的如德教授(Ruedi Aebersold)研究團隊利用DDA鑒定化學合成的目標蛋白的肽段,然后通過搜索引擎搜索之后,從中提取肽段的離子信息與保留時間用以構建離子庫。加州大學舊金山分校的博拉特福德教授(Bradford ff.Gibson)團隊用DDA鑒定與SWATH分析完全一樣的樣本,然后根據DDA數據搜索結果,構建目標蛋白的離子庫。這些方法的共同特點及只有一種SWATH的離子庫的建立方法:對一個真實樣品或者合成肽段進行一針DDA質譜分析,之后用搜索軟件(如mascot、protein pilot等)搜索,對鑒定到的肽段的電荷數,m/z,碎片離子強度,保留時間等信息進行提取生成離子庫。對于一個SWATH數據挖掘而言,使用僅來自于I針DDA鑒定的數據所建立的離子庫。
[0005]然而僅來自于一針DDA所建立的離子庫庫容量有限,對SWATH質譜數據挖掘的能力有限。因此本領域中需要可以整合多針DDA離子庫的離子庫建庫方法。
【發明內容】
[0006]本發明的目的在于通過構建SWATH RT,用一定質量的SWATH RT反矯正多個來源DDA結果的肽段RT,最后歸一化多個DDA結果的RT,從而可以整合多個DDA數據,建立庫容量更大的離子庫。再通過離子庫大小優化得到最佳離子庫。
[0007]為了實現本發明的目的,
[0008]在一個方面中,本發明提供了一種建立蛋白樣品SWATH離子庫的方法,其特征在于,所述方法包括:
[0009](a)獲取所述蛋白樣品的SWATH RT和所述蛋白樣品的η個DDA數據;
[0010](b)將所述η個DDA數據進行檢索以獲取η種來源的DDA數據的保留時間(DDART-n);
[0011](C)將所述SWATH RT與每個所述DDA RT_n進行回歸分析,得到η個不同的回歸公式yl=f (xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并獲得矯正后的DDA RT,記錄為)DDA RT-C-1,......,DDA RT-C-n ;
[0012](d)用所述DDA RT-C構建得到η個矯正后的離子庫:離子庫_1,......,離子庫_η ;
和
[0013](e)將所獲得η個矯正后的離子庫合并,并且用鑒定得分標準優化擴容后離子庫,得到不同容量的子庫;
[0014]其中η為大于等于I的整數,
[0015]其中任選地,步驟(b)中的檢索獲得碎片離子質荷比、保留時間、可信度和或相對強度信息,并且將這些信息包含在所述步驟(d)中所獲得的矯正后的離子庫中。
[0016]在本發明的建立蛋白樣品SWATH離子庫的方法中,所述步驟(e)中將離子庫合并后過濾擴容前對合并后的離子庫進行去冗余處理。
[0017]在本發明的建立蛋白樣品SWATH離子庫的方法中,通過對所述蛋白樣品進行η次DDA分析來獲取所述蛋白樣品的η個DDA數據。
[0018]在本發明的建立蛋白樣品SWATH離子庫的方法中,η在范圍內。
[0019]在本發明的建立蛋白樣品SWATH離子庫的方法中,所述回歸分析為線性回歸分析或非線性回歸分析。
[0020]在本發明的建立蛋白樣品SWATH離子庫的方法中,所述去冗余處理包括對于具有m行記錄肽段計算m行記錄中所述肽段保留時間的中位數作為最終保留的肽段保留時間,并刪除其余記錄,以使得最終得到離子庫中每條肽段只有一行記錄。
[0021]在本發明的建立蛋白樣品SWATH離子庫的方法中,步驟(e)中可通過去除離子庫-expanded中搜索引擎鑒定的可信度小于X分的所有肽段來過濾擴容后離子庫,其中X可以為 90、80、70、60 或 50。
[0022]在第二方面,本發明提供了根據第一方面所述的方法在蛋白質組學相關研究中的
定量應用。
[0023]在第三方面,本發明提供了一種校對蛋白樣品SWATH離子庫的方法,其特征在于,所述方法包括:
[0024](a)建立待測蛋白樣品的SWATH RT ;
[0025](b)將步驟(a)所述SWATH RT與已有SWATH離子庫的每個DDA RT-η進行回歸 分析,得到η個不同的回歸公式yl=f (xl),......,yn=f (xn),其中y代表DDA RT_n, x代表
SWATH RT,并獲得矯正后的 DDA RT,記錄為)DDA RT-C-1,......,DDA RT-C-n ;
[0026](c)將所述SWATH RT與每個所述DDA RT_n進行回歸分析,得到η個不同的回歸公式yl=f (xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并獲得矯正后的DDA RT,記錄為 DDA RT-C-1,......,DDA RT-C-n ;
[0027](d)用所述DDA RT-C構建得到η個矯正后的離子庫:離子庫_1,......,離子庫_η ;
和
[0028](e)將所獲得η個矯正后的離子庫合并,并且用鑒定得分標準優化擴容后離子庫,得到不同容量的子庫;
[0029]其中η為大于等于I的整數,
[0030]其中任選地,步驟(b)中的檢索獲得碎片離子質荷比、保留時間、可信度和或相對強度信息,并且將這些信息包含在所述步驟(d)中所獲得的矯正后的離子庫中。
[0031]本文中,“相同來源的蛋白樣品”是指蛋白質組研究分析過程中所用蛋白樣品為同一初始樣品的等份。
[0032]本文中,“不同來源的蛋白樣品”是指蛋白質組研究分析過程中所用蛋白樣品來自于同一物種的不同個體、同一個體的不同發育階段、同一個體的不同器官、以及初始相同但經過不同處理方法處理的蛋白樣品等。
[0033]在本發明的實施方案中,SWATH RT的提取可以為:首先使用ABSCIEX公司四級桿串聯TOF類質譜儀(如5600,4600等)對擬定量樣品用SWATH模式和DDA模式各做一次完全相同液相梯度串聯質譜的 數據采集,得到一個DDA的數據與一個SWATH數據。利用ABSCIEX的ProteinPi lot軟件處理DDA數據,得到搜索結果的GROUP文件。利用ABSCIEX的PeakView軟件的SWATH插件,導入GROUP文件與SWATH采集的數據文件,運用默認參數進行分析處理,得到結果文件SWATH-R。解壓該文件,從其中的1nlibrary文件中提取肽段與對應保留時間信息作為SWATH RT (如圖1所示)。
[0034]在本發明的實施方案中,多種來源的樣品的DDA數據的保留時間(DDART)提取可以為:用DDA-1到DDA-n代表η種不同來源的DDA數據。首先用任意一種蛋白質搜索引擎軟件(如Mascot, ProteinPilot等)分別搜索DDA-1到DDA-η的每一個數據,得到η個DDA數據的鑒定結果,從鑒定結果中提取肽段以及與肽段對應的保留時間信息,可以得到η個DDA數據各自的保留時間列表,用DDA RT-1到DDA RT-n代表第I個到第η個DDA RT (如圖2所示)。
[0035]在本發明的實施方案中,SWATH RT矯正多種來源的DDA RT:如上所述,該發明首先建立一個SWATH RT,然后建立η種來源數據各自的DDA RT。用SWATH RT與每個DDA RT做
回歸分析(可以是線性或非線性),得到η個不同的回歸公式yl=f (xl),......,yn=f (xn),其
中I代表DDA RT, X代表SWATH RT。根據回歸公式計算經過SWATH RT矯正后的DDA RT,記錄為 DDA RT-C0 η 個矯正后 DDA RT 記錄為 DDA RT-C-1,......,DDA RT-C-n ?
[0036]在本發明的實施方案中,建立多種DDA來源RT矯正后擴增的離子庫可以為:從上述多種來源的DDA數據的保留時間(DDA RT)提取中的每個DDA搜索結果中提取肽段的碎片離子強度等信息,結合SWATH RT矯正多種來源的DDA RT中得到的對應DDA數據的肽段RT共同構建得到η個矯正后的離子庫,用離子庫-1,……,離子庫-η代表。將η個離子庫用文本編輯器合并到一個文件中,遇到重復肽段的情況只保留一個離子庫中的記錄,其他記錄均刪除,其中肽段RT取所有共有離子庫中RT的中位數即可。這樣得到的離子庫記錄為離子庫-expanded。[0037]在本發明的實施方案中,擴增后離子庫優化可以為:用若干種不同的鑒定得分的標準(例如ProteinPilot軟件的可信度,Mascot軟件的肽段得分等本領域技術人員所熟知的各種參數)過濾擴容后離子庫,可以得到不同容量的子庫。如去除離子庫-expanded中搜索引擎鑒定的可信度小于90分的所有肽段得到子庫1,去除離子庫-expanded中搜索引擎鑒定的可信度小于80分的所有肽段得到子庫2,……子庫η。然后運用PeakView軟件的SWATH插件,分別用各種子庫對要定量的SWATH數據進行肽段的提取(提取設定SWATHFDR〈0.01),η種子庫會得到η個提取肽段的數目,最高數目所對應的子庫即為優化后的離子庫。
[0038]3、有益效果
[0039]I)本發明的方法提取SWATH RT與多個來源DDA數據各自的RT,然后運用SWATHRT矯正DDA RT使得原本無法整合的多種來源的DDA數據可以得到整合,用于擴增離子庫的
庫容量;
[0040]2)通過鑒定不同可信度的肽段可以(或得分)得到多個子庫,進而對子庫的比較優化,有效規避了庫容量增加帶來的冗余信息的增加,進而提高了擴增后離子庫的利用率以及軟件處理時間。
[0041]附圖簡述
[0042]圖1為SWATH RT提取流程;
[0043]圖2為多種來源DDA RT提取流程;
[0044]圖3為本發明方法和傳統方法所建離子庫在SWATH數據中挖掘蛋白數、肽段數的比較圖;
[0045]圖4為使用本發明方法與傳統方法所建離子庫挖掘肽段的SWATH得分比較
[0046]圖5為使用本發明方法與傳統方法所建離子庫的定量重復性比較
【具體實施方式】
[0047]實施例1:利用SDS-PAGE分離騰沖嗜熱菌蛋白擴增離子庫
[0048]1.1材料樣本準備
[0049]根據王敬強等人報道(Wang,J.; Zhao, C.;Meng, B.;Xie, J.; Zhou, C.; Chen,X.; Zhao, K.; Shao,J.; Xue,Y.; Xuj N.; Maj Y.; Liu,S.,The proteomic alterationsof Thermoanaerobacter tengcongensis cultured at different temperatures.Proteomics2007, 7(9), 1409-19.),用MB培養基培養騰沖嗜熱菌MB4T品系。根據陳真報道方法分別提取細菌的蛋白質2,使用ImM巰基乙醇56攝氏度還原蛋白質45分鐘,之后加入45mM碘代乙酰胺避光室溫孵育I小時,得到巰基被封閉的蛋白樣品。用Bradford蛋白定量方法定量蛋白質,100微克每管分裝凍于零下八十度冰箱保存。
[0050]取100微克蛋白,加入2微克胰酶(Promega,質譜級)37攝氏度孵育12小時后,加入終濃度為0.1%三氟乙酸終止反應,稱為樣品I。
[0051]再取100微克蛋白使用SDS-PAGE分離技術電泳分離,之后凝膠切為15份,分別做膠內酶解,稱為樣品2。此部分肽段用以擴增離子庫的構建。
[0052]1.2利用SDS-PAGE分離蛋白質結合質譜多針DDA鑒定分析擴增離子庫:
[0053]質譜儀分析樣品:[0054]取5微克樣品1,用ABSCIEX Triple-T0F5600的IDA模式進行掃描得到數據,記為IDA-U ;再取5微克樣品I用5600的SWATH模式掃描得到數據,記為SWATH-U ;樣品2的15個肽段組分分別用5600的IDA模式進行掃描,得到數據分別記為IDA-1,……,IDA_15。質譜儀主要參數如下:
[0055]IDA模式:先進行250毫秒一級掃描,之后選取一級譜中最高的、多電荷的30個離子分別進行隔離與二級碎裂得到二級譜。SWATH模式:先進行250毫秒的一級掃描,之后以25道爾頓為窗口從400到1200荷質比范圍依次隔離并碎裂32次得到32張混合二級譜。二級分辨率設為一萬五千。
[0056]用ProteinPilot (默認參數)軟件分別搜索IDA-1到IDA-15的數據,得到數據分別記為GR0UP-1到GR0UP-15。同“SWATH RT提取”一節的操作一樣,可以得到15個IDA數據對應的15個離子庫(記為離子庫-1到離子庫-15),以及對應的保留時間列表,記為DDART-1 到 DDA RT-15。
[0057]SWATH RT 提取
[0058]用ProteinPilot的默認參數軟件搜索IDA-U,得到數據記為GR0UP-U。將數據GROUP-U與SWATH-U先后導入PeakView,選取可信度參數大于99,SWATH FDR小于0.01,其他參數使用默認參數,然后點擊處理按鈕(Process),得到結果文件記為SWATH-R。使用Excel打開SWATH-R中的離子庫(1nlibrary),該離子庫記為離子庫-U。根據離子庫-U中的可信度(Confidence)信息,將可信度小于99的所有行全部刪除。之后刪除除肽段(Peptide)與保留時間(Updated RT)兩列外所有列的信息。保存剩余兩列為Excel格式文件,命名SWATH RT。
[0059]SWATH RT矯正15針DDA RT得到矯正后離子庫:
[0060]以DDA RT-1為例,將SWATH RT與DDA RT-1拷貝到一個excel中,找到兩個文件中共有的肽段,以及這些肽段對應的SWATH RT與DDA RT。選取SWATH RT與DDA RT兩列數據做散點圖,并得到兩列數據的擬合公式(如y=ax+b, y=ax2+bx+c等各種擬合方程)。將離子庫-1中所有肽段的保留時間代入公式中,可以得到每個肽段對應的新的保留時間,用每個肽段新的保留時間替代原來的保留時間,并加入GR0UP-1數據中的碎片離子強度等信息,即得到矯正后的離子庫-1,記錄為離子庫-1-矯正。同法可以得到其他14個離子庫對應的矯正后的離子庫。
[0061]用記事本打開15個矯正后離子庫,并合并到一起,成為一個大的離子庫,記錄為“離子庫-合并”。將離子庫-合并用Excel打開,按照肽段序列排序,如出現某個肽段有η行記錄,則計算η行記錄中該肽段保留時間的中位數,填寫到第一行,其他行刪除。同法可以將所有重復肽段進行去冗余,最終得到離子庫中每條肽段只有一行記錄,記為“離子庫-expanded,,。
[0062]離子庫容量優化
[0063]用Excel打開離子庫-去冗余文件,根據可信度排序,刪除其中可信度小于99的所有肽段,剩余部分文件保存為一個字離子庫,命名為離子庫-99。同法可以得到離子庫80,離子庫30與離子庫-O。用PeakView軟件分別這四個離子庫與SWATH-U進行肽段挖掘,結果表一所示。表一顯示離子庫-99所得到的肽段最多,所以該離子庫即為該發明最終建立并優化得到的離子庫。[0064]1.3擴增離子庫質量評估
[0065]本發明擴增后離子庫記為離子庫-99。目前已知公開的離子庫建立僅限于I針DDA數據,與本發明建立過程中的離子庫-U相同。所以比較離子庫-99與離子庫-U,可以實現比較本發明方法與傳統方法的目的。
[0066]運用1.2中所述的質譜儀的SWATH模式(以及相同的參數)對5微克樣品I再次進行掃描,共做四次重復上機。使用PeakView軟件,分別用傳統方法與本發明方法的離子庫對這四次重復上機的SWATH數據進行質譜信號的挖掘與解析,我們從鑒定肽段數目、鑒定肽段質量、鑒定質譜信號重復性三個角度進行本發明方法與傳統方法的比較。
[0067]肽段數目比較:
[0068]如圖3所示,運用本發明方法在四次SWATH數據中進行肽段和蛋白的挖掘提取,不論肽段數還是蛋白數,本發明方法均顯著高于傳統方法。所以本發明可以鑒定到更多肽段和的蛋白質。
[0069]鑒定肽段質量
[0070]上述結果表明,本發明所建立的離子庫可以提取到更多的肽段與蛋白質。此外,我們比較了本發明個所建離子庫挖掘到肽段的鑒定質量與傳統方法的離子庫挖掘得到肽段的鑒定質量。SWATH得分代表了離子庫中的信息與SWATH數據譜圖的匹配程度,所以在此用SWATH得分代表鑒定肽段的質量。如圖4所示,本發明所建立離子庫提取得到肽段的得分分布(實擬合曲線)比傳統方法提取得到肽段的得分分布(虛擬合曲線)偏高。即表明,與傳統的離子庫建立方法向比較,本發明所建立離子庫,可以提取到不但更多,而且肽段質量仍然很好的肽段。
[0071]鑒定質譜信號重復性比較:
[0072]SWATH采集數據的肽段碎片離子的色譜峰面積是用于蛋白定量的基本信息來源,所以我們用傳統方法與本發明方法離子庫對SWATH數據的肽段的碎片離子的面積進行提取,統計所提取到碎片離子在四次SWATH重復后的變異系數(Coefficient Varies, CV)0此變異系數的高低直接關系到所建立離子庫用于定量分析的重復性。如圖5所示,可以看出本發明方法與傳統方法所建立離子庫提取到的質譜信號的變異系數分布趨勢基本一致,沒有明顯差異。表明兩種方法提取得到的質譜信號都可以較好用于定量蛋白質組研究。
【權利要求】
1.一種建立蛋白樣品SWATH離子庫的方法,其特征在于,所述方法包括: Ca)獲取所述蛋白樣品的SWATH RT和所述蛋白樣品的η個DDA數據; (b)將所述η個DDA數據進行檢索以獲取η種來源的DDA數據的保留時間(DDART-n); (c)將所述SWATHRT與每個所述DDA RT_n進行回歸分析,得到η個不同的回歸公式yl=f(xl),……,yn=f(xn),其中y代表DDA RT_n,x代表SWATH RT,并獲得矯正后的DDART,記錄為 DDA RT-C-1,......,DDA RT_C_n ; (d)用所述DDART-C構建得到η個矯正后的離子庫:離子庫-1,……,離子庫-η;和 Ce)將所獲得η個矯正后的離子庫合并,并且用鑒定得分標準優化擴容后離子庫,得到不同容量的子庫; 其中η為大于等于I的整數, 其中任選地,步驟(b)中的檢索獲得碎片離子質荷比、保留時間、可信度和或相對強度信息,并且將這些信息包含在所述步驟(d)中所獲得的矯正后的離子庫中。
2.根據權利要求1所述的方法,其特征在于,所述步驟(e)中將離子庫合并后優化擴容前對合并后的離子庫進行去冗余處理。
3.根據權利要求1或2所述的方法,其特征在于,其中通過對所述蛋白樣品進行η次DDA分析來獲取所述蛋白樣品的η個DDA數據。
4.根據權利要求1至3中任一項所述的方法,其特征在于,其中η在1-100之間。
5.根據權利要求1至4中任一項所述的方法,其特征在于,其中用于獲取SWATHRT和每一個DDA數據的所述蛋白樣品是相同或不同來源的蛋白樣品。
6.根據權利要求1至5中任一項所述的方法,其特征在于,其中所述回歸分析為線性回歸分析或非線性回歸分析。
7.根據權利要求2所述的方法,其特征在于,其中所述去冗余處理包括對于具有m行記錄肽段計算m行記錄中所述肽段保留時間的中位數作為最終保留的肽段保留時間,并刪除其余記錄,以使得最終得到離子庫中每條肽段只有一行記錄,其中0〈m ( η。
8.根據權利要求1至7中任一項所述的方法,其中步驟(e)中通過去除離子庫-expanded中搜索引擎鑒定的可信度小于X分的所有肽段來過濾擴容后離子庫,其中X為 90、80、70、60 或 50。
9.根據權利要求1至7中任一項所述的方法在蛋白質組學相關研究中的定量應用。
10.一種蛋白樣品離子庫,其特征在于采用如權利要求1至7中任一項所述的方法建立。
11.一種校對蛋白樣品SWATH離子庫的方法,其特征在于,所述方法包括: Ca)建立待測蛋白樣品的SWATH RT ; (b)將步驟(a)所述SWATHRT與已有SWATH離子庫的每個DDA RT-n進行回歸分析,得到η個不同的回歸公式yl=f (xl),......,yn=f (xn),其中y代表DDA RT-n, x代表SWATHRT,并獲得矯正后的DDA RT,記錄為)DDA RT-C-1,……,DDA RT-C-n ; (c)將所述SWATHRT與每個所述DDA RT_n進行回歸分析,得到η個不同的回歸公式yl=f(xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并獲得矯正后的DDART,記錄為 DDA RT-C-1,......,DDA RT-C-n ; (d)用所述DDART-C構建得到η個矯正后的離子庫:離子庫-1,……,離子庫-η;和(e)將所獲得η個矯正后的離子庫合并,并且用鑒定得分標準優化擴容后離子庫,得到不同容量的子庫; 其中η為大于等于I的整數, 其中任選地,步驟(b)中的檢索獲得碎片離子質荷比、保留時間、可信度和或相對強度信息,并且將這些 信息包含在所述步驟(d)中所獲得的矯正后的離子庫中。
【文檔編號】G01N27/62GK103995042SQ201410121349
【公開日】2014年8月20日 申請日期:2014年3月28日 優先權日:2014年3月28日
【發明者】訾金, 林梁, 劉斯奇, 章申燕 申請人:深圳華大基因研究院