一種可見-近紅外光譜無損判別的方法
【專利摘要】本發明公開一種可見-近紅外光譜無損判別的方法。本發明提出的基于光譜預處理模型篩選、波長模型篩選、光譜判別分析參數篩選的集成算法,綜合了去噪、數據降維、特征提取、分類識別等方面的功能。經過隨機抽樣檢驗,取得了高精度的光譜識別效果,顯示了可見-近紅外漫反射光譜應用于轉基因甘蔗育種篩查的可行性。為研發轉基因甘蔗葉無損判別技術和相關專用光譜儀器設計提出有效的解決方案。本發明的方法無需試劑、無損、準確;且方便、快捷,節約成本;是一種有潛力的便于應用的檢測工具。
【專利說明】一種可見-近紅外光譜無損判別的方法
【技術領域】
[0001] 本發明屬于農作物育種篩查的無損檢測【技術領域】,具體涉及一種可見-近紅外光 譜無損判別的方法。
【背景技術】
[0002] 我國是甘蔗制糖大國,蔗糖產量居世界第三位。甘蔗的附加值較高,除制糖外,還 用于造紙及燃料乙醇的生產等。甘蔗多生長在高溫高濕地區,容易受到多種有害生物的威 脅,其中蟲害尤為嚴重。隨著現代農業生物技術的發展,轉基因技術在甘蔗研究上的應用逐 漸開展,甘蔗轉基因育種日益受到重視。目前,將含有抗蟲基因(Bt)和抗除草劑基因(Bar) 導入甘蔗中以對現有甘蔗優良品種進行遺傳改良,可有效提高甘蔗抗蟲和抗除草劑能力。 在轉基因甘蔗育種時,必須判定所導入的外源基因是否在甘蔗植株成功表達。目前的基因 篩查方法主要是分子生物學的檢測技術,其方法復雜,需要使用多種生化試劑,并要求較高 的專業操作技能,不能滿足現代大規模生產的需要。
[0003] 近紅外(NIR)是介于可見(Vis)和中紅外之間的電磁波,主要反映的含氫基團 X-H(如C-H、N_H、〇-H等)振動的倍頻和合頻吸收,在快速、實時、無損檢測方面具有明顯優 勢,已成功應用于農業、食品、石油化工、生物醫學等領域。轉基因與非轉基因甘蔗葉的蛋白 質分子存在差異,含有大量的氫基團X-H,因此,NIR光譜具有分析甘蔗基因變異信息的方 法基礎,可望用于無損檢測。農作物植株的無損檢測具有明顯的應用優勢,同時是方法學的 難點所在。因為農作物(如甘蔗葉片)具有復雜組分,它的光譜包含有多種噪音干擾,要求 采用先進的化學計量學、計算機模式識別方法進行光譜分析。目前還未見有相關應用研究 成果報道。
【發明內容】
[0004] 為了克服現有技術的缺點與不足,本發明的目的在于提供一種可見-近紅外光譜 無損判別的方法。
[0005] 本發明的另一目的在于提供一種可見-近紅外光譜無損判別具Bt和Bar基 因甘蔗葉的方法。建立一種基于可見-近紅外(Vis-NIR)光譜的對于具Bt和Bar基 因甘蔗葉的無損判別方法。首先,采用適當的光譜預處理方法消除光譜噪音,如采用 Savitzky-G〇lay(SG)模型的篩選;其次,對光譜波長模型進行優化,達到提取信息的目的, 如采用移動窗口(MW)方式的連續型篩選方法;然后,采用光譜判別分析方法(如有監督的 PLS-DA,PCA-LDA方法、無監督的PCA-HCA方法等)進行判別分析,根據判別效果優選模型參 數。通過上述三方面的方法集成,建立高效識別轉基因與非轉基因甘蔗葉樣品的方法。為 研發轉基因甘蔗葉無損判別技術和相關專用光譜儀器設計提出有效的解決方案。
[0006] 本發明的目的通過下述技術方案實現:一種可見-近紅外光譜無損判別的方法, 包括如下步驟:
[0007] (1)測試樣品,得到光譜數據和樣品類別的測定結果;把全部樣品隨機分為建模 集和檢驗集;
[0008] (2)光譜預處理模型的篩選:在所測得的光譜波段中,對所有光譜分別進行不同 模式的SG平滑預處理,得到SG平滑光譜;
[0009] (3)在所得的SG平滑光譜基礎上,建立基于主成分分析(PCA)和線性判別分析 (LDA)的定標預測模型,計算預測樣品的識別準確率?_1?(:;
[0010] (4)根據P_REC的值篩選最優SG平滑模式;
[0011] (5)用最優SG平滑模式對所有樣品光譜進行預處理,進行波長模型篩選,進一步 建立優化波長模型,然后采用光譜判別分析方法,計算識別準確率P_REC ;根據最大P_REC 值獲得全局最優模型,建立可見-近紅外光譜無損判別的方法。
[0012] 步驟(1)中所述的建模集包括定標集和預測集;
[0013] 步驟⑵中所述的光譜波段為400?2498nm ;
[0014] 步驟(2)中所述的SG平滑的參數包括導數階數d、多項式次數p和平滑點數m;
[0015] 所述的d優選為0、1、2、3、4或5 ;
[0016] 所述的p優選為2、3、4、5或6 ;
[0017] 所述的m優選為5?51之間的奇數;
[0018] 步驟(5)中所述的波長模型篩選的方法包括連續型波長模型,準連續型波長模型 和離散型波長模型;
[0019] 所述的連續型波長模型優選用移動窗口(MW)方式的連續型篩選方法;
[0020] 步驟(5)中所述的波長模型的參數包括起點波長I和波長個數N ;
[0021] 所述的 I 為 I e {400,402, · · ·,2498};
[0022] 所述的 N 為 N e {1,2, · · ·,50} U {60,70, · · ·,200} U {220,240, · · ·, 860} U {1050};
[0023] 步驟(5)中所述的光譜判別分析方法,包括有監督的光譜判別分析方法和無監督 的光譜判別分析方法;
[0024] 所述的有監督的光譜判別分析方法包括PLS-DA,PCA-LDA等;
[0025] 所述的無監督的光譜判別分析方法包括PCA-HCA等;
[0026] 具體地,一種可見-近紅外光譜無損判別具Bt和Bar基因甘蔗葉的方法,包括如 下步驟:
[0027] (1)測試樣品,得到可見-近紅外漫反射光譜數據和樣品類別的測定結果;把全部 樣品隨機分為建|吳集和檢驗集;
[0028] (2)光譜預處理模型的篩選:在所測得的光譜波段中,對所有光譜分別進行不同 模式的SG平滑預處理,得到SG平滑光譜;
[0029] (3)在所得的SG平滑光譜基礎上,建立基于主成分分析(PCA)和線性判別分析 (LDA)的定標預測模型,計算預測樣品的識別準確率?_1?(:;
[0030] (4)根據P_REC的值篩選最優SG平滑模式;
[0031] (5)用最優SG平滑模式對所有樣品光譜進行預處理,進行波長模型篩選,進一步 建立優化波長模型,然后采用光譜判別分析方法,計算識別準確率P_REC ;根據最大P_REC 值獲得全局最優模型,建立高效識別轉基因與非轉基因甘蔗葉樣品的方法。
[0032] 步驟(1)中所述的建模集包括定標集和預測集;
[0033] 步驟⑵中所述的光譜波段為400?2498nm ;
[0034] 步驟(2)中所述的SG平滑的參數包括導數階數d、多項式次數p和平滑點數m ;
[0035] 所述的d優選為0、1、2、3、4或5 ;
[0036] 所述的p優選為2、3、4、5或6 ;
[0037] 所述的m優選為5?51之間的奇數;
[0038] 步驟⑷中所述的最優SG平滑模式的參數為d = 1,p = 3, m = 25 ;
[0039] 步驟(5)中所述的波長模型篩選的方法包括連續型波長模型,準連續型波長模型 和離散型波長模型;
[0040] 所述的連續型波長模型優選用移動窗口(MW)方式的連續型篩選方法;
[0041] 步驟(5)中所述的波長模型的參數包括起點波長I和波長個數N ;
[0042] 所述的 I 為 I e {400,402, · · ·,2498};
[0043] 所述的 N 為 N e {1,2, · · ·,50} U {60,70, · · ·,200} U {220,240, · · ·, 860} U {1050};
[0044] 步驟(5)中所述的光譜判別方法,包括有監督的光譜判別分析方法和無監督的光 譜判別分析方法;
[0045] 所述的有監督的光譜判別分析方法包括PLS-DA,PCA-LDA等;
[0046] 所述的無監督的光譜判別分析方法包括PCA-HCA等;
[0047] 步驟(5)中所述的全局最優模型的參數為d = 1,p = 3, m = 25, I = 768nm,N = 28〇
[0048] 本發明相對于現有技術具有如下的優點及效果:
[0049] (1)本發明提出的基于光譜預處理模型篩選、波長模型篩選、光譜判別分析參數篩 選的集成算法,綜合了去噪、數據降維、特征提取、分類識別等方面的功能。經過隨機抽樣檢 驗,取得了高精度的光譜識別效果,顯示了可見-近紅外(Vis-NIR)漫反射光譜應用于轉基 因甘蔗育種篩查的可行性。
[0050] (2)本發明的方法無需試齊?、無損、準確;且方便、快捷,節約成本;是一種有潛力 的便于應用的檢測工具。
【專利附圖】
【附圖說明】
[0051] 圖1是456個甘蔗葉樣品的光譜圖。
[0052] 圖2是對應于不同起點波長I和波長個數Ν的預測識別準確率P_REC的結果圖; 其中,圖2(a)是不同起點波長I的預測識別準確率P_REC的結果圖;圖2(b)是不同波長個 數N的預測識別準確率P_REC的結果圖。
[0053] 圖 3 是最優模型(d = l,p = 3,m = 25,1 = 768,Ν = 28,Ρ(^-Ρ(:3)的檢驗效果的 結果圖。
【具體實施方式】
[0054] 下面結合實施例及附圖對本發明作進一步詳細的描述,但本發明的實施方式不限 于此。
[0055] 以下材料在文獻"臺灣省新臺糖(R0C)甘蔗品種介紹.廣西農業科 學.1998,5:229-233"中公開:新臺糖1號〇?0(:1)、新臺糖2號〇?(0)、新臺糖3號〇?(0)、 新臺糖4號(R0C4)、新臺糖20號(R0C20)和新臺糖22號(R0C22)。
[0056] 以下材料在文獻"甘蔗新品種粵糖00-236配套栽培技術研究.甘蔗糖 業· 2006, 01:1-5, 40" 中公開:粵糖 00-236 號。
[0057] 實施例1
[0058] 本實施例以甘蔗葉的可見-近紅外(Vis-NIR)光譜漫反射光譜為例,說明本發明 所提出的基于可見-近紅外光譜無損判別具Bt和Bar基因甘蔗葉的方法,包括如下步驟:
[0059] 1.實驗材料、儀器和測量方法
[0060] (1)材料:
[0061] 轉基因甘蔗材料:以新臺糖20號(R0C20)、新臺糖22號(R0C22)和粵糖00-236號 為受體的三個品種含有Bt基因和Bar基因的轉基因甘蔗株系,共306個(陽性)。
[0062] 非轉基因甘蔗材料:新臺糖1號(R0C1)、新臺糖2號(R0C2)、新臺糖3號(R0C3)、 新臺糖4號(R0C4)、新臺糖20號(R0C20)、新臺糖22號(R0C22)和粵糖00-236號共7個 品種的非轉基因甘蔗株系,共150個(陰性)。在轉基因甘蔗葉樣品育種時,采用ELISA方 法對其蛋白質表達進行檢測確認,所用試劑盒為美國Agdia公司的BT-CrylAb/lAc試劑盒, 操作按說明書,測試用美國Bio-rad公司的iMark酶標儀。
[0063] 所述的以新臺糖20號、新臺糖22號和粵糖00-236號為受體的三個品種含有Bt 基因和Bar基因的轉基因甘蔗株系的獲得方法,參照文獻"基因槍法獲得轉crylAc基因甘 蔗的研究.熱帶亞熱帶植物學報.1998, 19(2) : 142-148"中的轉基因方法。
[0064] 其中,Bt基因為crylAc基因,植物表達載體pGreen II 0229質粒源自John Innes Centre,該質粒中帶有可表達抗膦絲菌素(PPT)和除草劑Basta活性的bar基因。從而,獲 得以新臺糖20號、新臺糖22號和粵糖00-236號為受體的三個品種含有Bt基因和Bar基 因的轉基因甘蔗株系。
[0065] (2)樣品:
[0066] 取田間種植,處于伸長期甘蔗的+1葉樣品共456個,其中具有Bt基因和Bar基因 的轉基因甘蔗葉樣品(陽性)306個,非轉基因甘蔗葉樣品(陰性)150個。將樣品洗凈晾 干,去除葉脈,剪為3?4cm的段,取同一樣品的4?6片葉片用于光譜檢測。
[0067] (3)儀器與測量方法:
[0068] 光譜儀器為XDS Rapid Content?型近紅外光柵光譜分析儀(丹麥F0SS公司)和 圓形漫反射樣品附件。光譜掃描范圍400?2498nm(包含全近紅外區和部分可見光區); 波長間隔2nm ;400?1100U100?2498(nm)波段分別用硅(Si)、硫化鉛(PbS)探測器。 [0069] 將樣品平鋪于圓形漫反射附件中,使葉片完全覆蓋光譜儀的探測區域(光斑區)。 每個樣品測量三次,三次光譜的均值作為樣品光譜數據。實驗溫度、濕度分別為25土1°C、 46±1% RH。
[0070] 2.定標、預測、檢驗框架和樣品劃分體系
[0071] 采用一種嚴謹的定標、預測、檢驗框架和樣品劃分體系。擬從全體樣品中隨機抽取 部分作為檢驗樣品,它們不參與建模過程;其余的作為建模樣品,進一步被劃分為定標、預 測集。最后,采用隨機選取的不參與建模的檢驗樣品對優選的模型進行檢驗。
[0072] 本實驗采用國際上著名的Kennard-Stone(K-S)劃分方法,來劃分定標、預測集。 κ-s方法的優點是通過設計適當的算法從全部樣品中挑選出一個具有均勻性、能夠充分代 表整個樣品空間的樣品子集作為定標集,使得模型具有客觀性和代表性。
[0073] 為了使定標、預測和檢驗樣品集都應包含非轉基因(陰性)、轉基因(陽性)甘 蔗葉樣品,因此采用上述方法,分別將陰性、陽性樣品劃分到定標集(陽性100個,陰性50 個)、預測集(陽性100個,陰性50個)和檢驗集(陽性106個,陰性50個)。
[0074] 3.光譜預處理模型的篩選
[0075] 本實驗采用國際上著名的Savitzky-Golay (SG)平滑方法,進行光譜預處理。SG方 法能夠通過平滑、求導的方式克服光譜數據的基線漂移、傾斜以及高階噪音干擾,具有多參 數、多模式、適用范圍廣的優點。
[0076] SG平滑的參數包括導數階數d(d = 0, 1,2, 3, 4, 5)、多項式次數p(p = 2, 3, 4, 5, 6) 和平滑點數m (5?25之間奇數)。把光譜區間的m個連續點作為一個窗口,用多項式對 窗口內的光譜數據進行最小二乘擬合,確定多項式系數,然后計算窗口中心波長的SG平滑 值。通過窗口移動,得到原光譜的SG平滑譜。
[0077] 考慮到4階、5階導數的絕對值偏小,光譜信息損耗過大,故d = 4, 5的SG平滑模 式不作為本文篩選范圍。另一方面,考慮到有些實際測量體系可能需要更多的平滑點數,t匕 如測量數據波長間隔小的情形,相鄰波長點的數據過于相似,點數少的平滑效果往往不夠 好。為了拓寬應用范圍,本文將平滑點數m從原有的5?25之間奇數擴充為5?51之間 的奇數。計算所有平滑模式的平滑系數,共264個平滑模式用于本例的篩選。
[0078] 4.連續、準連續、離散型波長模型的篩選
[0079] 波長模型的篩選是光譜信息提取的關鍵,包括連續、準連續、離散型三大類。本實 驗采用國際上著名的移動窗口方式的連續型篩選方法。該方法以N個連續波長的光譜數據 作為一個窗口,通過移動窗口(改變起點波長I)和改變窗口的大小(波長個數N)的方式, 在整個光譜區域內,按照非轉基因(陰性)、轉基因(陽性)甘蔗葉樣品的光譜判別效果進 行篩選。
[0080] 本實施例中選取部分可見光區和全部近紅外區(400?2498nm)作為波長篩選范 圍,波長間隔2nm,波長個數(N)為1050個,光譜圖如圖1所示。
[0081] 本實驗的具體參數設置如下:I e {400,402, · · ·,2498},N e {1,2, · · ·, 50} U {60,70, · · · ,200} U {220,240, · · · ,860} U {1050}。
[0082] 5.光譜判別分析模型
[0083] 光譜判別分析方法主要分為有監督和無監督兩類,有監督的光譜判別方法如 PLS-DA、PCA-LDA等,無監督的光譜判別方法如PCA-HCA等。本實驗采用國際上著名的 PCA-LDA 方法。
[0084] (l)PCA
[0085] 選取主成分的個數取決于主成分的累計方差貢獻率,通常使用前三個主成分能夠 代表原始變量所能提供的絕大部分信息。為了便于模式識別,采用前三個主成分兩兩組 合的兩維主成分模型。具體過程如下:(1)基于定標集光譜的吸光度矩陣進行主成分分析 (PCA),計算相應的載荷矩陣和主成分得分矩陣;(2)選取貢獻率最大的前三個主成分(PCp PC 2、PC3),兩兩組合構成三個主成分平面(并作0-1歸一化),即PCi-PQ平面、PQ-PQ平面、 PC2-PC3平面;(3)基于預測集光譜的吸光度矩陣和得到的(定標)載荷矩陣,計算預測集樣 品的主成分得分矩陣,并投影到三個主成分平面。
[0086] (2) LDA
[0087] LDA是一種有監督的模式識別方法,它基于樣品的轉基因類型(陰性、陽性)進行 訓練,得到判別模型。本文在PCA分析的基礎上進行LDA判別分析,具體過程如下:(1)在每 個主成分平面上,基于定標樣品的轉基因類型進行線性判別分析,確定最優分類線;(2)基 于得到的預測樣品的主成分值和最優分類線,對預測樣品的類型(陰性、陽性)進行識別; (3)參照預測樣品的真實類型,計算識別率,再根據識別率大小確定最優的主成分組合。
[0088] 6.模型評價指標
[0089] (1)計算所有平滑模式對應的SG平滑譜,對于每個SG平滑譜,分別進行PCA分析, 進一步分別建立PCA-LDA判別模型。
[0090] 計算預測樣品的識別準確率(Recognition rate,記為P_REC)如下:
[0091]
【權利要求】
1. 一種可見-近紅外光譜無損判別的方法,其特征在于包括如下步驟: (1) 測試樣品,得到光譜數據和樣品類別的測定結果;把全部樣品隨機分為建模集和 檢驗集; (2) 光譜預處理模型的篩選:在所測得的光譜波段中,對所有光譜分別進行不同模式 的SG平滑預處理,得到SG平滑光譜; (3) 在所得的SG平滑光譜基礎上,建立基于PCA和LDA的定標預測模型,計算預測樣品 的識別準確率P_REC ; (4) 根據P_REC的值篩選最優SG平滑模式; (5) 用最優SG平滑模式對所有樣品光譜進行預處理,進行波長模型篩選,進一步建立 優化波長模型,然后采用光譜判別分析方法,計算識別準確率P_REC ;根據最大P_REC值獲 得全局最優模型,建立可見-近紅外光譜無損判別的方法。
2. 根據權利要求1所述的方法,其特征在于: 步驟(1)中所述的建模集包括定標集和預測集; 步驟(2)中所述的光譜波段為400?2498nm。
3. 根據權利要求1所述的方法,其特征在于:步驟(2)中所述的SG平滑的參數包括導 數階數d、多項式次數p和平滑點數m ; 所述的d為0、1、2、3、4或5 ; 所述的P為2、3、4、5或6 ; 所述的m為5?51之間的奇數。
4. 根據權利要求1所述的方法,其特征在于: 步驟(5)中所述的波長模型的參數包括起點波長I和波長個數N ; 所述的 I 為 I e {400,402, · · ·,2498}; 所述的 N 為 N e {1,2, · · ·,50} U {60,70, · · ·,200} U {220,240, · · ·, 860} U {1050}。
5. 根據權利要求1所述的方法,其特征在于:步驟(5)中所述的光譜判別分析方法,包 括有監督的光譜判別分析方法和無監督的光譜判別分析方法; 所述的有監督的光譜判別分析方法包括PLS-DA,PCA-LDA ; 所述的無監督的光譜判別分析方法包括PCA-HCA。
6. -種可見-近紅外光譜無損判別具Bt和Bar基因甘蔗葉的方法,包括如下步驟: (1) 測試樣品,得到可見-近紅外漫反射光譜數據和樣品類別的測定結果;把全部樣品 隨機分為建模集和檢驗集; (2) 光譜預處理模型的篩選:在所測得的光譜波段中,對所有光譜分別進行不同模式 的SG平滑預處理,得到SG平滑光譜; (3) 在所得的SG平滑光譜基礎上,建立基于PCA和LDA的定標預測模型,計算預測樣品 的識別準確率P_REC ; (4) 根據P_REC的值篩選最優SG平滑模式; (5) 用最優SG平滑模式對所有樣品光譜進行預處理,進行波長模型篩選,進一步建立 優化波長模型,然后采用光譜判別分析方法,計算識別準確率P_REC ;根據最大P_REC值獲 得全局最優模型,建立高效識別轉基因與非轉基因甘蔗葉樣品的方法。
7. 根據權利要求6所述的方法,其特征在于: 步驟(2)中所述的SG平滑的參數包括導數階數d、多項式次數p和平滑點數m ; 所述的d為0、1、2、3、4或5 ; 所述的P為2、3、4、5或6 ; 所述的m為5?51之間的奇數。
8. 根據權利要求6所述的方法,其特征在于:步驟(4)中所述的最優SG平滑模式的參 數為 d = 1,p = 3, m = 25。
9. 根據權利要求6所述的方法,其特征在于:步驟(5)中所述的波長模型的參數包括 起點波長I和波長個數N ; 所述的 I 為 I e {400,402, · · ·,2498}; 所述的 N 為 N e {1,2, · · ·,50} U {60,70, · · ·,200} U {220,240, · · ·, 860} U {1050}。
10. 根據權利要求6所述的方法,其特征在于:步驟(5)中所述的全局最優模型的參數 *d=l,p = 3,m=25,I = 768nm,N = 28。
【文檔編號】G01N21/31GK104215591SQ201410498422
【公開日】2014年12月17日 申請日期:2014年9月25日 優先權日:2014年9月25日
【發明者】潘濤, 肖青青, 郭昊淞, 陳潔梅, 史本山 申請人:暨南大學