專利名稱:基因測序儀和方法
技術領域:
本發明總地涉及基因測序領域。更具體地說,本發明涉及一種基因測序儀、和其一起使用的高密度生物致密(光)盤(bio-compact disk)、及其樣品制備方法。高密度生物致密盤以及樣品制備方法學通常可用于寡核苷酸測序和DNA測序與檢測領域。
發明概述一方面,本發明涉及一種從含有寡核苷酸片段的樣品獲得n聚體寡核苷酸的樣品制備方法,該方法包括(a)形成一個固體載體,所有可能的n聚體寡核苷酸與該載體表面相連;(b)在使樣品寡核苷酸和固體載體上的互補性n聚體寡核苷酸雜交的條件下,使步驟(a)所得固體載體與樣品接觸;(c)使步驟(b)所得固體載體與水解劑接觸;(d)使雜交的寡核苷酸與未結合的寡核苷酸分離;和(e)使雜交的n聚體寡核苷酸變性,以獲得樣品中的n聚體寡核苷酸;其中n是選自整數4-10,000之間的一個整數,最佳的為6-28。
另一方面,本發明涉及一種從含有寡核苷酸片段的樣品獲得n聚體寡核苷酸的方法,該方法包括(a)使固體載體與樣品的至少一部分接觸,該固體載體適合交聯樣品中的寡核苷酸;(b)使步驟(a)所得固體載體與n聚體寡核苷酸混合物接觸,接觸時間足以使n聚體寡核苷酸與固體載體上互補的n聚體寡核苷酸雜交;(c)使未雜交的寡核苷酸與雜交的n聚體寡核苷酸分離;(d)使雜交的n聚體寡核苷酸變性,以獲得與樣品中的寡核苷酸互補的n聚體寡核苷酸;其中n是選自整數4-10,000之間的一個整數,最佳的為6-28。
另一方面,樣品制備方法包括從含寡核苷酸片段的樣品中獲得n聚體寡核苷酸的方法,該方法包括(a)使固體載體與多個具有(k+m)個聚體的寡核苷酸的混合物接觸,該固體載體上結合了樣品中的寡核苷酸,其中k+m=n,混合物是多個第一寡核苷酸和多個第二寡核苷酸的混合物,所述各個第一寡核苷酸均是k聚體,其3′端沒有游離的羥基,所述各個第二寡核苷酸均是m聚體,其5′端沒有游離的磷酸基團;(b)連接步驟(a)所得固體載體上的寡核苷酸;(c)從固體載體上除去未連接的寡核苷酸;和(d)使殘留在固體載體上的雜交的n聚體寡核苷酸變性,以獲得與樣品中的寡核苷酸互補的n聚體寡核苷酸;其中m,k和n各自是選自6-10,000之間的整數,最佳的為12-40,條件是k+m=n。
在還有一方面,樣品制備方法包括從含寡核苷酸片段的樣品獲得n聚體寡核苷酸的方法,該方法包括(a)使固體載體與多個h聚體寡核苷酸、多個i聚體寡核苷酸和多個j聚體寡核苷酸的混合物接觸,該固體載體上連接了多個樣品中的寡核苷酸,所述h聚體寡核苷酸各自在3′和5′端有磷酸基團,所述i聚體寡核苷酸各自在3′端有羥基、氨基或巰基且沒有末端磷酸基團,所述j聚體寡核苷酸在5′端有羥基、氨基或巰基且沒有末端磷酸基團;(b)用化學或酶方法連接步驟(a)所得固體載體上的寡核苷酸;(c)從步驟(b)所得固體載體上除去未連接的寡核苷酸;和(d)使殘留在固體載體上的雜交的n聚體寡核苷酸變性,以獲得與樣品中核苷酸互補的n聚體核苷酸;其中h,i和j各為選自6-10,000的整數,最佳的為18-60,條件是h+i+j=n。
本發明還有一方面描述了一種測定元件,該元件包含一個基質,該基質具有一個表面,包括該表面上被改成適合(adapt)連接一個間隔物(spacer)分子的多個分開的區域;多個間隔物分子,各分子的第一末端與各個分開區域中的所述表面連接,所述各間隔物分子被改成以其第二末端與金屬表面或標記物連接,所述各個間隔物分子的第一末端和第二末端之間有一個能被斷裂的位點;具有第一序列的第一n聚體寡核苷酸,它在間隔物分子的斷裂位點和間隔物分子第一末端之間與基本上所有的間隔物分子相連,和具有第二序列的第二n聚體寡核苷酸,它與基本上所有的間隔物分子相連;其中基質表面上基本上沒有其它分開的區域含有具有n聚體寡核苷酸、其上連接了第一序列的間隔物分子,且n是選自4-10,000之間的整數,最佳的為6-28。
本發明還包括一種測定懷疑存在于樣品中的基因的(p+q+r)聚體節段序列的方法,該方法包括(a)形成樣品與q聚體寡核苷酸混合物的溶液,該混合物含有q聚體寡核苷酸所有可能的序列、或任選地含有所有這些可能序列的亞組;(b)使測定元件與步驟(a)的溶液的至少一部分接觸,該測定元件具有一個表面和結合在該表面上的多個間隔物分子,該間隔物分子的第一末端與該表面結合,第二末端與金屬表面或標記物結合,在第一和第二末端之間有一個斷裂位點,間隔物分子進一步還具有連接在其斷裂位點和第一末端之間的第一p聚體寡核苷酸和連接在其斷裂位點和第二末端之間的第二r聚體寡核苷酸,p聚體和r聚體的組合包括了 p聚體和r聚體寡核苷酸的所有寡核苷酸序列組合,或任選地包括了所有這些組合的亞組,p聚體和r聚體寡核苷酸的每個特定的序列組合都位于該表面預定位置上;(c)連接上述步驟(b)所得的與間隔物分子連接的所得雜交寡核苷酸;(d)檢測該表面上各預定位置處的雜交寡核苷酸的特定序列組合存在與否;和(e)對步驟(d)所得序列信息進行處理,以推導出樣品中存在的(p+q+r)聚體寡核苷酸的序列,其中P,q和r是選自4-10,000之間的整數,最佳的為6-26,且(p+q+r)不超過30,000,最佳是60。對一個基因的不同的、多個節段可平行地進行步驟(a)至(e)。
附圖簡述參看了下列附圖后會更好地了解本發明,其中
圖1表示固體載體上多個n聚體寡核苷酸的合成。
圖2表示用圖1的固體載體從含有不同n聚體長度的寡核苷酸混合物的樣品中選出n聚體寡核苷酸的方法。
圖3表示用固體載體通過線性擴增來獲得n聚體寡核苷酸的樣品。
圖4表示擴增來獲得標記過的寡核苷酸的樣品。
圖5表示用連接酶制備長度恒定的寡核苷酸的方法。
圖6表示用化學連接或脂肪酶(lipase)制備長度恒定的寡核苷酸的方法。
圖7表示用于制備表面上連接了寡核苷酸的生物致密盤的兩個互補的印模(stamp)。
圖8表示用圖7的印模來印制的一個實例,其中待連接到固體上的固定的(stationary)寡核苷酸位于印模中形成的凹槽(grove)壁上。
圖9表示用選擇性識別-(8,{10},8-識別)—來測定在染色體上出現兩次的16聚體周圍的序列。
圖10表示疏水表面有親水性腔穴的印模。
圖11表示圖10的印模,其中乳膠球用化學方法結合在腔穴內。
圖12描述了用來測定一個基因片段有關序列信息的(4,4)聚體識別。
圖13描述了用來測定一個基因片段有關序列信息的(4,{5},4)聚體識別。
圖14A表示一個分級(fractionation)盤。第一次分級可在中央16個區室的區域內進行。級分可在螺旋形通道或毛細管中進一步分級。圖14B表示在另一個盤置于圖14A所示盤上后,可進行進一步的分級。圖14C表示毛細管和一類寡核苷酸區域的交叉情況(intersection)的頂視圖。
圖15表示中央分級區域。樣品可圍繞該區域循環,在此具體實例中,該區域含有16個區室。每個區室含有一種特異性寡核苷酸亞類探針。
圖16描述了寡核苷酸可通過變性后轉動盤來洗脫到毛細管中。
發明詳述用來實施所附權利要求范圍內的本發明特定實例的重要的技術背景信息和其它指導可在PCT/US97/11826中找到,該申請目前已經公開,其公開內容立刻被結合入本文作參考。
樣品制備寡核苷酸陣列在基因測序中有很廣闊的前景。目前這些方法大多數局限于基因核查,其中除一些具體點外,基因序列是已知的,故在該陣列中只需有限系列的寡核苷酸。從頭測序較為困難,因為很難產生含有恒定長度所有可能的寡核苷酸的非常大的陣列。另外,隨機長度的樣品寡核苷酸也使得測序復雜化。它們會以比探針寡核苷酸更強的結合相互雜交。與過分長的寡核苷酸相比,最適長度的寡核苷酸的雜交更迅速,保真性更高。本發明描述了可用來從任何DNA樣品制備長度均一的寡核苷酸的四種方法。另外,采用這些方法后,經加工的樣品含有所有必需的長度均一的,在混合物中沒有互補的寡核苷酸(即它們不能形成雙鏈體)。這在以樣品和探針寡核苷酸之間的雜交為基礎的寡核苷酸陣列方法中是非常有利的。通過(例如)限制所有長度均一的樣品寡核苷酸的中央核苷酸為腺苷或胞嘧啶(AC限制)來防止雜交。因此,兩個樣品寡核苷酸不能相互雜交,相反只能與陣列中的探針寡核苷酸完全雜交。
聚合酶鏈反應(PCR)是一種高效的DNA擴增方法。然而,當用于寡核苷酸陣列方法和大量從頭測序(例如一次性對全部染色體測序)時,PCR卻有嚴重的缺陷。為了使用PCR,需要用短的引物來引發反應。為了用引物完全覆蓋染色體,就必須確切地知道大部分序列。另外,PCR每次循環會產生比前一次更短的寡核苷酸。這些特征結合起來就意味著,在對未知樣品進行PCR擴增后,會不平衡地出現染色體的不同節段,而一些部分則不能出現。
當序列已知時,連接酶鏈反應(LCR)提供了長度均一的寡核苷酸。本申請中描述的一種方法是LCR的延伸,它可用于無需預先知道序列的一般場合。
從頭測序需要高密度陣列。以前,這些陣列已經用石印(lithographic)法產生。不管其用途如何,這種方法需要復雜的儀器,并會形成大量雜質。在本申請中,描述了兩種簡單的印制方法,它們允許準確度達到微米級。如圖10和11所述,第一種方法采用了固定在疏水性表面上的多孔乳膠球。該乳膠球可用一種化學溶液(如在水中的寡核苷酸)潤濕,并壓在能結合一種組分(寡核苷酸)的另一個表面上。該方法通常需要多個印制步驟,但是它可用來制造用于互補印制的主印模(master stamp)。互補的印模經過化學方法構模(pattern),這樣它能使某組分從復雜的混合物中結合到特定部位。印模可含有幾百萬個不同部位供不同組分結合。在清洗后,除去所有未結合的組分,使印模與能化學結合所需組分的表面接觸。使組分脫離印模,擴散到通道中并與活性表面反應。因此,在一個印制步驟中,幾百萬個化學組分(如寡核苷酸)可以微米的準確度轉移。通過重復該過程,就可產生數十億寡核苷酸對的組合。沒有其它方法(石印法、噴墨法(ink-jet)或常規印制方法)能在僅僅兩個步驟內產生如此高密度的模式。而且,也不需要復雜的儀器。
一次性高分辨印制一種化學物質的方法是眾所周知的。另外,將各種化學物質沿通道加到表面上的化學印制也是眾所周知的。后一種方法實際上能產生陣列,只是密度不是很高。由于流動的需要,毛細管不能太細。盡管在一個印模上可以有數千個這樣的毛細管,但是不可想象的是,數百萬個流動毛細管能夠置于一個大小合理的表面上。另一方面,數百萬個微米級通道可以印模到塑料上。這些通道可被賦予親水性,它們每一個可用光刻法,或最好用本申請中另有描述的一組乳膠球印模法來涂覆某種寡核苷酸。
很難制造出能對人染色體明確測序的寡核苷酸陣列。迄今為止,寡核苷酸陣列已經能從頭測序大約2000個堿基對(bps)。對更長得多的序列(例如20,000bps)可進行序列檢查。一個染色體可含2億5千萬個bps,這比用目前的寡核苷酸陣列可常規測序的數量高大約100,000倍。本申請描述的樣品制備方法和高密度生物致密盤大大改進了測序。然而,合適的測序方案對于獲得可靠的結果同時最大程度地減少必須使用的生物致密盤數量是非常重要的。
該申請中采用的方法如下1)測定作為染色體一部分的所有16聚體寡核苷酸;和2)測定所有27聚體寡核苷酸的兩個8聚體末端,而無需知道這些27聚體中間的11聚體序列。實際數字只是作為例子,對該方法可作一些變化。這兩組數據可用相似的一組生物致密盤(即采用(8,8)識別的盤)來獲得。數據組1(均為16聚體)允許測定數據組2中各27聚體的中央11聚體序列。因此,可以知道作為整個序列一部分的所有27聚體序列。這樣就能大致上明確地推導出原始序列。只有一些長的重復序列在該方法的能力范圍之外。即使在這些情況下,也可知道其它可選序列。可能需要按客戶需要定制的寡核苷酸陣列來明確地推導出長的重復序列。
在所有生物芯片陣列的DNA試驗中,固定的(stationary)寡核苷酸都具有確定的長度,即它們在給定生物芯片陣列中是m聚體,其中m是8-30之間的固定數值。樣品用化學或酶法隨機水解制得。樣品含有不同長度的寡核苷酸。然而,為了避免過度水解,靶向長度約為50堿基(50聚體)。過長和變化不定的長度減慢了雜交,并可能導致不希望的相互反應。理想的樣品含有恒定長度的寡核苷酸n聚體,其中n等于或稍稍大于固定的寡核苷酸(m聚體)的長度(n≥m)。下面描述提供具有恒定的所需長度的樣品寡核苷酸的四種程序。
方法1.(核酸酶S。圖1n聚體完全混合物的合成;圖2從可變長度的寡聚體制備n聚體;和圖3線性擴增)。
首先,在固體載體上合成所有可能的寡核苷酸n聚體。在每次偶聯步驟中,用腺苷、胞嘧啶、鳥苷和胸苷亞磷酰胺或這些核苷酸的其它衍生物的等摩爾混合物很容易完成合成。圖1示出了兩步合成步驟。在n步偶聯步驟后,所有的n聚體在所選固體載體上。在實踐中可用該方法合成高達26聚體的寡核苷酸的完全混合物。表1說明了某一寡核苷酸n聚體在10毫克(載體重量未包括在內)混合物中的分子數。
混合物中各種n聚體的量有一定的統計學波動(范圍)。對于28聚體,預計可能有幾種寡核苷酸根本不存在于10毫克混合物中,而其它一些則超過20個拷貝(拷貝平均值為11)。對于24聚體,此波動并不明顯,因為所有可能的24聚體在10毫克混合物中都有2×103個以上的拷貝,因此,這是一種完全混合物。
使樣品寡核苷酸片段與結合在固體載體上的n聚體的完全混合物雜交(圖2)。加入水解劑(例如核酸酶S),該水解劑使單鏈DNA水解。只有雜交的寡核苷酸節段可免受水解。寡核苷酸樣品的突出端大部分被除去。固體載體上不與樣品中的寡核苷酸匹配的固定n聚體也被水解(圖2)。為了有用,水解不需要理想中的那樣完全。例如,如果n是16,則當采用生物致密盤時,樣品寡核苷酸的有用范圍在16-22聚體之間。類似地,如果固定的n聚體只有被部分水解,則殘余的n聚體可用于樣品擴增。
在水解(例如用核酸酶S處理)后,固體載體含有一組與樣品寡核苷酸互補的固定的n聚體。如圖2所示,通過使完全可溶的n聚體混合物與這組固定的n聚體雜交,就獲得了樣品n聚體的完全拷貝。該過程可重復數次,但是其效率較低,因為擴增與時間和精力成線性關系。可用PCR擴增或本領域熟知的類似方法將該過程修改成呈指數關系。
如果堿基選擇局限于n聚體的某一確定部位,則分子數相對更大。例如,如果在這些寡核苷酸的中央只允許有腺苷和胞苷(AC限制),則各個n聚體的拷貝數是表1給出數目的兩倍。通過在一指定的步驟中用合適的腺苷和胞苷衍生物的混合物,可達到這種堿基限制。AC限制的25聚體是允許實際的樣品制備和可靠地測序的一種折衷方案。
方法2。(只雜交;圖3和4標記的或可激活的n聚體寡核苷酸的擴增)可以不使寡核苷酸的完全混合物與固體載體相連,而是使寡核苷酸的片段化樣品與固體載體連接。固體載體可以是二氧化硅顆粒、磁性球或毛細管。用n聚體的完全混合物處理結合的樣品,該n聚體可任選地含有標記(如熒光素或酶)或反應性官能團(如巰基)。洗去未雜交的寡核苷酸n聚體。通過加熱,除下并收集雜交的n聚體,以提供一組與樣品中的n聚體寡核苷酸互補的n聚體寡核苷酸。該過程可根據需要多次重復。
方法3。(連接,圖5用連接酶制備長度恒定的寡核苷酸。)這是方法2的一種變通,它表示在圖5中。如果“n”是較大的數(例如大于30),則制備n聚體的完全混合物是不切實際的。而且,如果n很大,寡核苷酸之間的錯配也成問題。利用k聚體和m聚體的兩個完全混合物(其中k+m=n),就可避免這兩個問題。在該方法中,k聚體的3′端不含游離的羥基,m聚體的5′端不含游離的磷酸。這可通過使k聚體的3′端被雙脫氧終止、或使羥基磷酸化或含有標記(如熒光素)來實現。m聚體的5′端可有一個游離的羥基、標記或活性官能團。混合物在雜交后被連接。只有兩個寡核苷酸可通過連接被連在一起。通過升溫和洗滌,除去未連接的寡核苷酸。如果m聚體的游離羥基在5′端,則現在可使該羥基任選地磷酸化。此時,新的寡核苷酸可以連接到5′端。該過程可重復數次。脫雜交后,就收集到了與樣品中的n聚體寡核苷酸互補的n聚體寡核苷酸。
方法4。(化學連接,圖6用化學連接制備長度恒定的寡核苷酸。)如果三種樣品寡核苷酸(h聚體、k聚體和m聚體)在連接后一起形成了寡核苷酸n聚體,則可獲得優良的結果。化學連接是非常有效的方法,但是也可采用酶法。
如圖6所示,在這種情況下,再次用所有的寡核苷酸作為完全混合物。一組在兩端有磷酸基團,而另兩組至少在活性形式中沒有末端磷酸。一種完全混合物的3′端有羥基、氨基或巰基,而另一種在5′端有類似的基團。當這三種寡核苷酸雜交并相互處于合適的位置(頭對尾)時,它們能相互形成化學鍵。如果磷酸基團被激活,這就能最好地實現。它們可以是(例如)三酯,這樣兩個酯化基團是五氟苯基或類似的良好的離去基團。偶聯后,多余的五氟苯基可任選地水解除去。脫雜交后,就收集到了與樣品中的n聚體寡核苷酸互補的n聚體寡核苷酸。
將線性擴增轉變成指數型擴增用下述方法將上述所有四種線性擴增以及其它類似的線性擴增程序轉變成指數型擴增。
在線性擴增方法中,采用樣品寡核苷酸作為模板系列來產生互補的寡核苷酸系列。該過程可以重復數次,但是每次只獲得數目大約相同的互補寡核苷酸。當合并這些寡核苷酸時,寡核苷酸的總數與擴增步驟的數目呈線性相關。
為了將線性過程轉變成指數型過程,需設計第一步獲得的互補寡核苷酸,使它們含有受保護的巰基(例如巰基乙酸酯)或脂族氨基。變性后,將這些寡核苷酸轉移到第二根柱中,該柱含有能與脂族氨基或巰基結合的反應性基團(例如馬來酰亞氨基或異氰酸基)。在轉移時,加入去保護劑(如羥胺),使巰基外露。互補的寡核苷酸會立即與固體載體偶聯。此時該載體可用作線性擴增模板。擴增的寡核苷酸與該互補寡核苷酸互補,即與原來的樣品寡核苷酸相同,只是它含有受保護的脂族氨基或巰基。在除去受保護基團后,將該產物直接加入原先的柱中,該柱含有能與經氨基或巰基衍生的寡核苷酸結合的類似的活性固體載體。現在,第一柱含有兩倍于原先數量的與樣品相同的寡核苷酸。當這些寡核苷酸用作擴增模板時,就獲得了兩倍于原先數量的互補寡核苷酸。在將這些互補寡核苷酸結合到第二柱中后,該柱會含有第一輪循環的3倍數量的互補寡核苷酸。該過程可重復數次。n步后的擴增可大致從以下方程式獲得a=5×1.62n-4其中a是擴增系數,即與原來的樣品相比,寡核苷酸數量增加了多少倍。增加是指數型的,但是數量并不象PCR中那樣在每輪循環中倍增。其與PCR相比的明顯優點是在該程序中,樣品和互補寡核苷酸系列保持分開。在采用生物芯片陣列時,這是非常重要的,因為這些程序非常依賴于雜交。如果樣品中的每個寡核苷酸在混合物中有一個互補對應物,則與陣列雜交的效率會很低。
制備高密度生物致密盤在實際測序的第一步中,需設計生物致密盤(BCD),能識別樣品中的所有16聚體。這通過(8,{0},8)識別來實現,即間隔物有兩個8聚體側臂,且不用可溶的探針寡核苷酸。這種識別也稱為(8,8)識別。有大約64×103種不同的8聚體,兩個8聚體大約有4.3×109種不同配對(表4)。含有一個金球的某區域稱為一個生物比特(biobit)。每個生物比特的面積大約為100μm2。該面積被數以千計具有類似(8,8)配對的寡核苷酸作為側臂的間隔物覆蓋。每個生物比特應僅僅含有一種(8,8)配對的寡核苷酸,且每種可能的不同8聚體配對至少應有一個生物比特。目前可得到的CD-ROM讀頭能從一個致密盤(CD)讀取0.6×109個比特。因此,對于所有可能的8聚體組合需要大約8個BCD。當用藍色半導體激光代替IR-激光時,CD的密度可以增加許多倍,可能20倍。這反映了BCD性能幾乎呈線性地增加。
一旦制成互補印模(圖7),本文描述的互補印制方法就可用來在一步印制中制造出復雜的高分辨模型。需要用光刻法或相當高分辨的制模(patteming)方法來制備互補印模。用一個互補印模可在一步內印制所有下側臂寡核苷酸。同樣,所有上側臂寡核苷酸可在一步內印制。因此,需要用兩個印模來制造一個BCD。由于必須產生8種不同的BCD,因此不同印模的總數為16。
制造互補印模一個互補印模可使用數千次。然而,制造一個互補印模需要數十次光刻或印制步驟。本申請中的印制方法比石印法有利的基本優點在于,寡核苷酸在連接到表面上之前可被純化。
本文描述了可用于(8,8)和(8,{11},8)識別策略的互補印模的制造。必須產生總共四種不同的互補印模對,每一對在化學上是相同的,即它們含有相同的16,384種寡核苷酸(8聚體),但是螺旋通道的走勢相反(圖7)。由于有65,536種不同的8聚體寡核苷酸,因此需要有4個印模來含有一個完全的組(4×16,384=65,536)。順時針和逆時針螺旋印模的所有16種可能的組合提供了總共43億種不同的16聚體寡核苷酸,這些16聚體寡核苷酸由所有可能的8聚體寡核苷酸對構成(表4)。
首先,將螺旋通道(16,384)印制到軟的聚碳酸酯上。每個通道寬約4μm,深1-2μm。這與印制致密盤類似(在印制致密盤時,微米級分辨是標準)。做好的印模中最好有疏水性的脊,而通道是親水性的。脊的寬度也為4μm。為了這個目的,用抗蝕膜涂覆盤,并再次用印制螺旋通道的相同印模來使通道底部外露。用氧蝕刻法除去通道中任何殘余的抗蝕膜。用氨等離子體在表面上涂覆氨基。除去脊上的抗蝕層。使兩端有(例如)異硫氰酸基的聚乙二醇間隔物與氨基相連。采用過量的間隔物,只有一端會與表面結合,而另一端可用于結合有另一脂族氨基的寡核苷酸。
螺旋通道(16,348)最好為256組64通道(256×64=16,384)。這些組是分開的,這樣就可用噴墨法或等效方法用具有脂族氨基的某一4聚體寡核苷酸來覆蓋一組。因此,在64個不同的靠近的通道中有一種已知的4聚體寡核苷酸。4聚體的256種可能中的每一種在256個通道組的一組通道中出現一次,且僅出現一次。下一步是將64種不同的4聚體寡核苷酸分開置于一組中的64個通道的一個通道內,并使其與第一4聚體寡核苷酸化學結合。在一個盤中,所有這些第二4聚體寡核苷酸可以有相同的末端核苷酸,例如A。在制成四種化學上不同的盤后,所有的寡核苷酸(A、C、G和T)出現在一個盤的末端位置處。由于有256個不同的組,因此,每種第二4聚體寡核苷酸會在同一盤上出現256次。第二4聚體寡核苷酸可同時印制到所有這些位置上。為了避免污染,每種寡核苷酸應用專用的印模來印制。所有印模看上去完全相似。它們有256個間隔相同(約0.6mm)的螺旋通道。一個螺旋通道的寬度為5-8μm。通道可以是親水性的,但是其間的間隔區域是疏水性的。在用寡核苷酸溶液潤濕后,只有通道才保留溶液,溶液在接觸基質后被部分轉移。另一種方法是在通道底部蝕刻親水性的腔穴,在這種情況下通道是疏水性的(圖10)。這些腔穴宜用乳膠球涂覆,這些乳膠球是多孔的、親水性的和有彈性的(圖11)。通道本身是疏水性的,因此所有溶液保留在球內。這樣就能更好地控制溶液量以及溶液在印模中和基質上的位置。該球用常規結合化學物質以適用于乳膠球的方式化學結合到印模上,例如在間隔物和乳膠球之間采用酰胺鍵。任選地,乳膠球位于印模上的凹槽內以獲得更強的結合。
另外,寡核苷酸類似物也可代替上述寡核苷酸。這特別適用于互補印模,因為一些寡核苷酸類似物在水溶液中比寡核苷酸更容易偶聯。例如,采用水溶性碳化二亞胺,含有氨基的4聚體可以與含有羧基的另一4聚體偶聯。而且,一些寡核苷酸類似物提供了比寡核苷酸本身更強的雜交,它們可用于互補印模和最終的寡核苷酸陣列中。
制造生物致密盤在下列描述中,假定已經制得所有印模。首先印制下側臂寡核苷酸。制備8聚體的完全混合物。進行合成,使寡核苷酸的3′端與另一端為巰基的聚乙二醇(PEG)間隔物相連。(或者,巰基可以是基質上的固定間隔物,異氰酸基或馬來酰亞氨基可以在PEG間隔物上)。完全混合物的溶液用作墨水(ink)來潤濕印模(圖7上左圖)。在印模的一種構型中,固定的寡核苷酸在深1μm的凹槽的壁上(圖8凹處(concave)互補印制)。雜交后,洗去過量的寡核苷酸。將濕的印模牢牢地壓在BCD上,此BCD在間隔物的下部有馬來酰亞氨基。巰基會迅速和馬來酰亞氨基交聯。由于間隔距離相當長,因此在這一階段只發生少數結合。為了釋放寡核苷酸并推動反應完成,用微波或紅外輻照約1分鐘來加熱此薄水層。寡核苷酸從印模上釋放下來,然后自由擴散。寡核苷酸在1秒內可擴散1μm,在1分鐘內可擴散8μm。由于馬來酰亞氨基過量,因此所有經巰基衍生的寡核苷酸會有效地結合。印制步驟完成后可以除去印模。現在,可斷裂間隔物分子有完全的下側臂。從上側臂位置除去保護性基團,現在重復印制步驟,以插入上側臂寡核苷酸(圖7上右圖印模)。在這種情況下,寡核苷酸的5′端與聚乙二醇間隔物相連。BCD在清洗和干燥后待用。
測序策略可分離染色體,并使各染色體的兩條鏈分開,而不是試圖對全基因組一次性測序。每個染色體只有一條鏈需要測序;另一條鏈的測序是任選的,可作為復查。為了進行測序,知道已知的n聚體在染色體中出現第二次的可能性非常重要。經鑒定的寡核苷酸越長,它出現兩次的可能性就越小。為了完成可靠的測序,這一可能性應當非常小,使得經鑒定的寡核苷酸在染色體中僅出現一次,即該可能性應當小于4×10-9。仔細查看表2B,發現28聚體的這一可能性低于所需的極限值(1.7×10-9)。對于24聚體,其對應的可能性為4.4×10-7,這表明在染色體中約100個24聚體可能出現2次。因此,已知的28聚體可確保唯一的測序,而較短的寡核苷酸可能導致多義性。
不同的28聚體有大約65×1015種。即使一個寡核苷酸僅占10μm2,含有所有這些寡核苷酸的陣列的面積也將達130英畝。顯然,此類陣列在實踐中不能進行操作、加工和讀取。另一方面,表4表明所有14聚體生物比特可安置在單個BCD(BCD面積=4.2×104mm2)上。因此,單純從實用角度來看,(7,7)識別是理想的。從表2A可以看出,沒有發現給定的14聚體的可能性為0.393,而能發現兩次和三次的可能性分別為0.173和0.050。由于重復序列的產生,這些可能性較高,相應地,不同14聚體的數目較低;在一個染色體中可能發現的所有可能的14聚體不足半數。然而,該可能性對所用的測序方案來說太高了,且14聚體太短而不能用于對全染色體一次性測序。
16聚體可能是能為從頭測序給出足夠信息的最短寡核苷酸,它仍在BCD的實用限度內。測序策略依靠的是采用如上所述制備的BCD。首先用(8,{0},8)識別。這給出了作為染色體一部分的所有16聚體的信息。已經在一個染色體中的16聚體第二次出現的可能性為0.028。考慮到染色體的大小,該可能性表明有多達1百萬個16聚體可以在一條染色體中出現兩次。這些16聚體的每一個導致序列信息中產生分支點(branching point)。這顯示在圖9中,其中α和β表示某一16bp序列γ的到達序列(arriving sequence),δ和ε表示離去序列(leaving sequence)。在用這種方法獲得的序列中其它某點處產生了相同的分支。如果畫出所有的分支點,則獲得一個網狀圖形而不是一個序列。覆蓋在這些分支點上的可能的序列可以稱為α-γ-δ或α-γ-ε和β-γ-δ或β-γ-ε(圖9)。而實際的染色體中只有這些可能性中的兩種。當然,序列γ出現在這兩個序列中,而其它序列α、β、δ或ε僅出現一次。因此,這足以查明序列α-γ-δ或α-γ-ε是否在特定的染色體中。隨即可推導出另外二個中的哪一個也在該染色體中。所用的該方法可同時查出兩者,因此另一個可用作復查。
固定的寡核苷酸的全長應為26-28個核苷酸,以便獲得沒有分支點的唯一序列。由于這在實踐上是不可能的,因此必須采用其它策略。一種可能是采用(8,{11},8)識別作為一種替換方案,其中{11}代表11聚體的完全混合物。樣品如上文所述進行制備,只是靶長度為27聚體。將樣品寡核苷酸施加到上文所用的類似BCD系列上。在雜交后,加入11聚體的完全混合物。在一些情況下正好留有足夠的空間使11聚體也雜交。連接后,通過輕度加熱和洗滌除去其它所有序列。并不知道那一個11聚體利用了該空間,但是兩端的8聚體將會知道。在圖9中僅顯示了一種可能的雜交。觀察到所有可能的雜交,即偏移±1、±2、±3個核苷酸等。這些8聚體的組合攜帶的信息足以用幾乎明確的方式推導出序列(圖9B)。
(8,{11},8)識別基本上與27聚體的競爭性識別等價。盡管每個測定元件只識別16個核苷酸,即每個特定的間隔物分子有8聚體側臂,但是這種識別圖形提供了比識別DNA的16聚體鏈更多的信息。這在圖12和13中有所描述,為了簡便起見,用(4,4)和(4,{5},4)識別的比較作為例子。如果某一8聚體序列(例如圖12中的A8)在DNA中出現兩次,則可能有兩種可供選擇的全序列。然而,在一種類似的情況下,如圖13所述的(A4+A4),(4,{5},4)識別提供了明確的結果。這是因為簡并性之前和之后的子序列含有共同的信息(圖13中用下劃線表示)(即分別為TATT序列和GTGG序列)。因此,可以類似方式用(8,{11},8)識別來對27聚體節段進行測序而不用(8,8)識別,但是最好相伴采用這兩種方法來獲得可能的最確定的結果。
在實踐中,用幾種生物致密盤來對基因組完全測序。在一個較佳的實例中,間隔物分子用兩個8聚體寡核苷酸側臂來制成,在間隔物分子的兩個末端和斷裂位點之間各有一個。8聚體寡核苷酸的所有可能的序列都在側臂上。在生產過程中確定了與間隔物分子相連的每個可能的8聚體配對序列的位置,這樣就能檢測任何特定序列的存在或不存在。在實踐中,每個盤可能含有所有可能的序列的已知亞組,為了有一個大小合理、能和通常可獲得的儀器一起使用的生物致密盤。在接觸測定元件(即具有連接在預定位置上的上述間隔物分子的表面)前,將具有所有可能序列的可溶性11聚體寡核苷酸的混合物加入待測樣品中,將所得溶液施加到生物致密盤的表面上。樣品寡核苷酸片段的各序列與間隔物分子上的互補序列結合,并連接結合的節段。然后如上所述測定各序列。為了節省成本和時間,可對所有27聚體節段相似地重復上述方法。然后將從27聚體節段收集得到的信息,用已知方法測定基因組的全部序列。盡管上述描述指定用(8,{11},8)聚體識別,但是該方法總體上也適用于(p,{q},r)聚體識別,其中P,q和r是選自4-10,000的整數,最好在6-26之間,且(p+q+r)不超過30,000,最好是60。p=r和q>p通常是較佳的。由于可溶性寡核苷酸探針(q)應牢固結合使得其在與固定探針(p和r)雜交時不會從樣品寡核苷酸上脫離下來,因此需要使q>p。這也可通過采用一些雜交性極強的可溶性寡核苷酸類似物(如肽寡核苷酸)來實現。為了實現恒溫雜交,p和r應相等。然而,出于同樣的原因,應將含有很少胞苷或胍的寡核苷酸探針制得更長,以獲得更強的結合。
對于小的基因組和對個別人的基因或基因組進行測序,p=r=7、q=9就足夠了。在這種情況下,一張盤就足以進行測序。
為了測定包含大部分人基因組的重復序列,p,q和r可能非常大,大約為100-10,000。可用離心或電磁力來衡量結合強度。可任選地進行連接以檢查雙鏈螺旋中有無缺口的存在。
用此系統可測定基因的表達水平。通常較佳的是采用非常大的片段來識別。這樣就節省了空間。在基因表達的研究中,錯配并不是嚴重的問題,因此采用較小的探針寡核苷酸不會提供更大的好處。
樣品的分級含有寡核苷酸片段的樣品可直接施加到BCD的表面上。然而,較佳的是樣品被分級成至少一些亞類。如果適當地設計分級和BCD模型,可將給定亞類置于BCD表面上某一區域中,從而增加了雜交的可能性,減少了錯配的可能性。
在用寡核苷酸陣列時,錯配是最嚴重的問題之一。僅一個核苷酸不同的寡核苷酸之間發生錯配最為頻繁。盡管如此,制造了許多寡核苷酸陣列其鄰近的寡核苷酸部位只有一個核苷酸不同。下述程序可制造出含有一個寡核苷酸亞類(該亞類中所有寡核苷酸之間至少有兩個堿基對不同)的陣列和分級系統。該程序可以延伸產生一個亞陣列,其中每個寡核苷酸與該亞陣列的其它任何寡核苷酸相比至少有三個核苷酸不同。
為了保證在寡核苷酸n聚體的某一亞類中每個寡核苷酸與其它寡核苷酸至少有兩個核苷酸不同,應當選擇表5的二聚寡核苷酸四重組(quartet)的n/2來構建該亞類。假設n可被2整除。例如,通過選擇兩個(4/2=2)二聚體的四重組(例如四重組1和3),產生四聚體寡核苷酸(n=4)的亞類。通過四重組1的一個二聚體與四重組3的另一個二聚體組合,可產生16個四聚體寡核苷酸。這16個四聚體顯示在表16中。一行中的四聚體有兩個核苷酸不同,一列中的四聚體也是如此。從不同行和列中取出的兩個四聚體有四個核苷酸不同。用表5可產生四聚體寡核苷酸的所有總共16個亞類。每一亞類含有16個寡核苷酸,因此將產生總共256(16×16=256)個四聚體寡核苷酸,而且每一個是一個亞類且僅是一個亞類的一個成員。類似地,所有寡核苷酸n聚體(其中n是偶數)可分成亞類。亞類的數目為4n/2,每個亞類含有4n/2個寡核苷酸,即總共應該是4n個。
從二聚體構建寡核苷酸n聚體僅僅是概念上的,對于實際的合成沒有限制性,實際合成可用單體、二聚體等以及本文其它地方描述的核苷酸衍生物來進行。然而,二聚體為合成表5設計的陣列提供了最實用的方法。
最好用(8,8)或(8,{11},8)識別或這些方式的組合來進行測序。首先可根據各寡核苷酸的3′端中的8聚體序列將樣品寡核苷酸分成44(256)個亞類。再根據各寡核苷酸的5′端將這些亞類的每一類分成256個亞類。因此,總共獲得48(65,536)個亞類。這些亞類的每一類含有48個(8,8)-寡核苷酸對。一個亞類可覆蓋BCD上大約0.25mm×0.25mm的面積。
為了在盤上合適的位置上獲得48個亞類,必須將樣品分級。該任務也可通過下文用于(4,4)識別場合中關閉的BCD(Disklab)來進行。用短的寡核苷酸作為例子來簡化數字。現在,可將第一和第二識別寡核苷酸分成42(=16)個亞類,即有16×16(=256)種組合。該例子可以明顯的方式推廣到更長的寡核苷酸。
分級盤由兩個分開的盤組成,將它們夾在一起并在需要時拆開。另一半的總體結構顯示在圖14A中。從內部開始向外移動來描述此盤的結構。中心最小的圓圈是任選地用來操縱和轉動的一個洞。兩個圓圈之間無結構區域是洗脫緩沖液的容器。被部分雙層壁分成16個區室的區域是圓形的分級“柱”。第一次分級在該部分中進行。16個螺旋通道可用作第二分級步驟。最后,無結構的外周用來收集廢液。
在第一個盤的頂部放置第二個盤(圖14B),該盤用16類寡核苷酸亞類涂覆,因此它們形成了逆時針樣式的螺旋線。該盤稱為收集盤。收集盤可以是平的或經機械制模。當兩個盤夾在一起時,第一盤中的通道無論如何都必須密封以使被覆蓋的通道之間不交換洗脫緩沖液和DNA片段(該通道更合適地稱為毛細管)。圖14C顯示了操作盤的頂視圖。為了清楚起見,只顯示了一個亞類區域。該區域以及其它所有15個區域均與所有16個毛細管交叉。在本發明的這個實例中,總共有256個交叉。
圖15中更詳細地示出了含有圓形第一分級區的盤的中央部分。16個區室的每一個含有填充松散的固體載體,固體載體用8聚體寡核苷酸的某一亞類涂覆。根據表5,形成這些寡核苷酸的一個4聚體末端(例如3′端)。另一個4聚體末端(5′端)含有所有可能的4-聚體組合。16個4聚體3′端亞類的每一個均在一個區室且僅在一個區室中。樣品在最適溫度下通過泵送來循環。泵可以外置或內置。在達到平衡后,除去未結合的樣品,洗滌固體載體除去未結合的和結合松散的寡核苷酸。對盤加熱(例如用IR-輻射),使雜交的寡核苷酸變性,并非常快速地轉動(例如200-50,000rpm),使得閥門由于離心力而打開。分級單位也可以是可相對盤其余部分轉動的一個組件,這樣就所有32個閥門可同時打開。在這種情況下,閥門可以是簡單的孔洞,在一個位置上關閉,在另一個位置上打開。洗脫緩沖液會攜帶變性的寡核苷酸進入毛細管,每個毛細管在它們的一個壁上有16個8聚體寡核苷酸亞類存儲區方式(zonewise)。在這種情況下,完全形成了表5各個8-聚體亞類。如此,16份級分的每一份將被進一步分成16個級分。所有這些級分可以和與另一個盤分開的收集盤附著。
將收集盤置于以類似方式置于測序盤的頂部。測序盤中的分辨力通常(但不是必須)比收集盤高得多。
該分級方法的目的是濃縮與其互補性探針寡核苷酸接近的正確類型的序列。用長度恒定的寡核苷酸進一步改善該分級方法。在任何情況下,該方法均大大增加了正確類型的寡核苷酸的濃度,從而使它們可被檢測到。
盡管本發明已經參照一些具體的例子進行了描述,但是可以理解,本領域技術人員顯然能作各種改動及其等效和變化,這些變化均包括在本文所附權利要求的范圍內。
表1所有n聚體的重量(毫克) 10毫克中每個寡核苷酸的平均拷貝數16聚體 34.3×10-93×10824聚體 33.2×10-43×10326聚體 57×10-318028聚體 0.861131聚體 71.3
表2A在一條染色體中沒有發現給定n聚體(n=14,16,17,18或19)或發現一次、兩次或三次的可能性。
14聚體16聚體 17聚體 18聚體 19聚體P(0) 0.393 0.943 0.986 0.996 0.999P(1) 0.3665.5×10-21.4×10-23.6×10-39.1×10-4P(2) 0.1731.6×10-31.0×10-46.6×10-64.1×10-7P(3) 0.0503.1×10-55.1×10-78.0×10-91.3×10-10P(2.3) 0.3972.8×10-27.3×10-31.8×10-34.6×10-4P(1,3)頻率大于1的寡 60×1067.0×1061.8×1060.45×1060.11×106核苷酸的總數表2B在一條染色體中沒有發現給定n聚體(n=20,21,22,24或28)或發現一次、兩次或三次的可能性。
20聚體 21聚體 22聚體 24聚體 28聚體p(1) 2.3×10-45.7×10-51.4×10-58.9×10-73.5×10-9p(2) 2.6×10-81.6×10-91.0×10-103.9×10-136.0×10-18p(3) 2.0×10-123.1×10-144.8×10-161.2×10-197.0×10-27p(2.3) 1.1×10-42.8×10-57.1×10-64.4×10-71.7×10-9p(1,3)頻率大于1的寡 28×1037.1×1031.1×1031110.43核苷酸的總數表3重要的事實一個染色體含有最多250×106堿基對(染色體1)。
每個BCD的400.μm2點的數量為105。
BCD的面積為4.2×104mm2。
表4n聚體的數量以及生物比特的總面積n 4n含有占100μm2寡像素的 點/BCD(oligopixel)所有n聚體的點4 2565 10246 4096 0.4mm21.0×105716×1031.6mm22.5×104865×1036.5mm26.2×1039260×10326mm21.6×10310 1.0×106100mm211 4.2×106400mm212 16.8×1061.6×103mm213 67.1×1066.4×103mm214 268×10626×103mm215 1.1×10916 4.3×109表5可用作構建寡核苷酸亞類的二聚寡核苷酸的四個四重組1 2 3 4AA AC AG ATCC CG CT CAGG GT GA GCTT TA TC TG表6用表5的四重組1和3產生的16個四聚寡核苷酸的一個亞類AA-AG CC-AG GG-AG TT-AGAA-CT CC-CT GG-CT TT-CTAA-GA CC-GA GG-GA TT-GAAA-TC CC-TC GG-TC TT-TC
權利要求
1.一種從含寡核苷酸片段的樣品獲得n聚體寡核苷酸的方法,該方法包括(a)形成一個固體載體,所有可能的n聚體寡核苷酸與該載體表面相連;(b)在使樣品寡核苷酸和固體載體上的互補n聚體寡核苷酸雜交的條件下,使步驟(a)所得固體載體與樣品接觸;(c)使步驟(b)所得固體載體與水解劑接觸;(d)使雜交的寡核苷酸與未結合的寡核苷酸分離;和(e)使雜交的n聚體寡核苷酸變性,獲得樣品的n聚體寡核苷酸;其中n是選自整數4-10,000之間的一個整數,最佳的為6-28。
2.一種從含寡核苷酸片段的樣品獲得n聚體寡核苷酸的方法,該方法包括(a)使固體載體與樣品的至少一部分接觸,該固體載體被改成適合于交聯樣品中的寡核苷酸;(b)使步驟(a)所得固體載體與n聚體寡核苷酸混合物接觸,接觸時間足以使n聚體寡核苷酸與固體載體上的樣品寡核苷酸雜交;(c)使未雜交的寡核苷酸與雜交的n聚體寡核苷酸分離;(d)使雜交的n聚體寡核苷酸變性,獲得與樣品中的n聚體寡核苷酸互補的n聚體寡核苷酸;其中n是選自整數4-10,000之間的一個整數,最佳的為6-28。
3.一種從含寡核苷酸片段的樣品獲得n聚體寡核苷酸的方法,該方法包括(a)使固體載體與多個第一k聚體寡核苷酸和多個第二m聚體寡核苷酸的混合物接觸,該固體載體上結合了多個樣品寡核苷酸片段,所述第一寡核苷酸每一個的3′端沒有游離的羥基,所述第二寡核苷酸每一個的5′端沒有游離的磷酸基團;(b)連接步驟(a)所得的與固體載體上的樣品寡核苷酸雜交的第一和第二寡核苷酸;(c)從固體載體上除去未連接的寡核苷酸;和(d)使殘留在固體載體上的雜交的n聚體寡核苷酸變性,獲得與樣品中的n聚體寡核苷酸互補的n聚體寡核苷酸;其中m和k各為選自4-10,000之間的整數,最佳的為6-28,條件是k+m=n。
4.一種從含寡核苷酸片段的樣品獲得n聚體寡核苷酸的方法,該方法包括(a)使固體載體與多個h聚體寡核苷酸、多個i聚體寡核苷酸和多個j聚體寡核苷酸的混合物接觸,該固體載體上結合了多個樣品的寡核苷酸,所述h聚體寡核苷酸每一個的3′和5′端有磷酸基團,所述i聚體寡核苷酸每一個的3′端有羥基、氨基或巰基且沒有末端磷酸基團;所述j聚體寡核苷酸每一個的5′端有羥基、氨基或巰基且沒有末端磷酸基團;(b)用化學或酶方法連接步驟(a)所得的與固體載體上的樣品寡核苷酸雜交的寡核苷酸;(c)從步驟(b)所得固體載體上除去未連接的寡核苷酸;和(d)使殘留在固體載體上的雜交的n聚體寡核苷酸變性,獲得與樣品中的n聚體寡核苷酸互補的n聚體寡核苷酸;其中h,i和j各是選自4-10,000之間的整數,最佳的為6-28,條件是h+i+j=n。
5.一種測定元件,它包括一個基質,該基質具有一個表面,包括該表面上被改成適合連接一個間隔物分子的多個分開的區域;多個間隔物分子,各分子的第一末端與各個分開區域中的所述表面連接,所述各個間隔物分子被改成其第二末端與金屬表面或標記物連接,所述各個間隔物分子的第一末端和第二末端之間有一個能被斷裂的位點;具有第一序列的第一n聚體寡核苷酸,它在間隔物分子的斷裂位點和間隔物分子第一末端之間與基本上所有的間隔物分子連接,和具有第二序列的第二m聚體寡核苷酸,它與基本上所有的間隔物分子相連;其中n和m是選自4-10,000之間的整數,最佳的為2-28。
6.一種測定懷疑存在于樣品中的基因的(p+r)聚體節段序列的方法,該方法包括(a)使測定元件與含有基因的未知(p+r)聚體節段的樣品溶液的至少一部分接觸,該測定元件具有一個表面和結合在該表面上的多個間隔物分子,間隔物分子的第一末端與該表面結合,第二末端與金屬表面或標記物結合,在第一和第二末端之間有一個斷裂位點,間隔物分子進一步還具有連接在斷裂位點和第一末端之間的第一p聚體寡核苷酸以及連接在斷裂位點和第二末端之間的第二r聚體寡核苷酸,p聚體和r聚體的組合包括了p聚體和r聚體寡核苷酸的所有寡核苷酸序列組合,或任選地包括了所有這些組合的亞組,p聚體和r聚體寡核苷酸的每個特定的序列組合都位于該表面預定位置上;(b)檢測該表面上各預定位置處雜交的寡核苷酸特定序列的組合是否存在;和(c)對步驟(b)所得序列信息進行處理,以推導出樣品中存在的(p+r)聚體寡核苷酸的序列;其中p和r是選自4-10,000之間的整數,最佳的為6-28,且(p+r)不超過30,000,最佳是60。
7.根據權利要求6所述的方法,該方法包括如下步驟在檢測表面上各預定位置處雜交的寡核苷酸的特定序列的組合是否存在之前,使步驟(a)所得的與間隔物分子連接的所得雜交寡核苷酸連接。
8.根據權利要求6所述的方法,其中對于一個基因的不同的多個節段同時進行步驟(a)-(d)。
9.一種測定懷疑存在于樣品中的基因的(p+q+r)聚體節段序列的方法,該方法包括(a)形成樣品與q聚體寡核苷酸的混合物的溶液,所述混合物含有q聚體寡核苷酸所有可能的序列、或任選地含有所有這些可能序列的亞組;(b)使測定元件與步驟(a)的溶液的至少一部分接觸,該測定元件具有一個表面和結合于該表面的多個間隔物分子,間隔物分子的第一末端與該表面結合,第二末端與金屬表面或標記物結合,在第一和第二末端之間有一個斷裂位點,間隔物分子進一步還具有連接在斷裂位點和第一末端之間的第一p聚體寡核苷酸和連接在斷裂位點和第二末端之間的第二r聚體寡核苷酸,p聚體和r聚體的組合包括了p聚體和r聚體寡核苷酸的所有寡核苷酸序列組合,或任選地包括了所有這些組合的亞組,p聚體和r聚體寡核苷酸的每個特定的序列組合都位于該表面預定位置上;(c)檢測表面上各預定位置處的雜交寡核苷酸的特定序列組合是否存在;和(d)對步驟(c)所得序列信息進行處理,推導出樣品中存在的(p+q+r)聚體寡核苷酸的序列;其中p,q和r是選自4-10,000之間的整數,最佳的為6-28,且(p+q+r)不超過30,000,最佳的是60。
10.根據權利要求9所述的方法,該方法包括使步驟(b)所得的與間隔物分子連接的所得雜交寡核苷酸連接的步驟。
11.根據權利要求9所述的方法,其中對于一個基因的不同的多個節段平行地進行步驟(a)-(e)。
12.根據權利要求9所述的方法,其中p或r中的任一個或p和r兩者不等于q。
13.根據權利要求9所述的方法,其中p和r是7至9之間的整數,q是9至12之間的一個整數。
14.一種測定懷疑存在于樣品中的未知基因的序列的方法,該方法包括(a)進行權利要求6所述的方法,其中對一個基因的不同的多個(p+r)聚體節段平行地進行步驟(a)-(d);(b)進行權利要求9所述的方法,其中對一個基因的不同的多個(p+q+r)聚體節段平行地進行步驟(a)-(e);(c)對步驟(a)和(b)所得序列信息進行處理,推導出樣品中未知基因的序列;其中p和q是4-10,000之間的整數,最佳的為6-28,且(p+q+r)不超過30,000,最佳的是60。
15.根據權利要求14所述的方法,其中p或r中的任一個或p和r兩者不等于q。
16.根據權利要求14所述的方法,其中p和r均為7至9之間的整數,q為9至12之間的一個整數。
全文摘要
本發明描述了基因測序儀,生物致密盤和樣品制備的方法學。制備了長度恒定的寡核苷酸,并與所描述的生物致密盤和裝置結合用于基因測序和策略。
文檔編號G01N35/00GK1251617SQ98803767
公開日2000年4月26日 申請日期1998年2月20日 優先權日1997年2月21日
發明者J·弗塔嫩 申請人:伯斯坦恩實驗室股份有限公司