SNP全稱Single Nucleotide Polymorphisms,是指在基因組上單個核苷酸的變異,包括轉換、顛換、缺失和插入,形成的遺傳標記,其數量很多,多態性豐富。從理論上來看每一個SNP 位點都可以有4 種不同的變異形式,但實際上發生的只有兩種,即轉換和顛換,二者之比為2:1。SNP 在CG序列上出現最為頻繁,而且多是C轉換為T ,原因是CG中的胞嘧啶常被甲基化,而后自發地脫氨成為胸腺嘧啶。一般而言,SNP 是指變異頻率大于1 %的單核苷酸變異。在人類基因組中大概每1000 個堿基就有一個SNP ,人類基因組上的SNP 總量大概是3 ×10^6 個 。因此,SNP成為第三代遺傳標志,人體許多表型差異、對藥物或疾病的易感性等等都可能與SNP有關。
SNP研究是人類基因組計劃走向應用的重要步驟。這主要是因為SNP將提供一個強有力的工具,用于高危群體的發現、疾病相關基因的鑒定、藥物的設計和測試以及生物學的基礎研究等。SNP在基因組中分布相當廣泛,研究表明在人類基因組中每300堿基對就出現一次。大量存在的SNP位點,使人們有機會發現與各種疾病,包括腫瘤相關的基因組突變;從實驗操作來看,通過SNP發現疾病相關基因突變要比通過家系來得容易;有些SNP并不直接導致疾病基因的表達,但由于它與某些疾病基因相鄰,而成為重要的標記。SNP在基礎研究中也發揮了巨大的作用,通過對Y染色體SNP的分析,使得在人類進化、人類種群的演化和遷徙領域取得了一系列重要成果。
單核苷酸多態性(single nucleotide polymorphism,SNP),主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性。它是人類可遺傳的變異中最常見的一種。占所有已知多態性的90%以上。SNP在人類基因組中廣泛存在,平均每500~1000個堿基對中就有1個,估計其總數可達300萬個甚至更多。
SNP所表現的多態性只涉及到單個堿基的變異,這種變異可由單個堿基的轉換(transition)或顛換(transversion)所引起,也可由堿基的插入或缺失所致。但通常所說的SNP并不包括后兩種情況。
理論上講,SNP既可能是二等位多態性,也可能是3個或4個等位多態性,但實際上,后兩者非常少見,幾乎可以忽略。因此,通常所說的SNP都是二等位多態性的。這種變異可能是轉換(C T,在其互補鏈上則為G A),也可能是顛換(C A,G T,C G,A T)。轉換的發生率總是明顯高于其它幾種變異,具有轉換型變異的SNP約占2/3,其它幾種變異的發生幾率相似。Wang等的研究也證明了這一點。轉換的幾率之所以高,可能是因為CpG二核苷酸上的胞嘧啶殘基是人類基因組中最易發生突變的位點,其中大多數是甲基化的,可自發地脫去氨基而形成胸腺嘧啶。
在基因組DNA中,任何堿基均有可能發生變異,因此SNP既有可能在基因序列內,也有可能在基因以外的非編碼序列上??偟膩碚f,位于編碼區內的SNP(coding SNP,cSNP)比較少,因為在外顯子內,其變異率僅及周圍序列的1/5。但它在遺傳性疾病研究中卻具有重要意義,因此cSNP的研究更受關注。
從對生物的遺傳性狀的影響上來看,cSNP又可分為2種:一種是同義cSNP(synonymous cSNP),即SNP所致的編碼序列的改變并不影響其所翻譯的蛋白質的氨基酸序列,突變堿基與未突變堿基的含義相同;另一種是非同義cSNP(non-synonymous cSNP),指堿基序列的改變可使以其為藍本翻譯的蛋白質序列發生改變,從而影響了蛋白質的功能。這種改變常是導致生物性狀改變的直接原因。cSNP中約有一半為非同義cSNP。
先形成的SNP在人群中常有更高的頻率,后形成的SNP所占的比率較低。各地各民族人群中特定SNP并非一定都存在,其所占比率也不盡相同,但大約有85%應是共通的。
SNP自身的特性決定了它更適合于對復雜性狀與疾病的遺傳解剖以及基于群體的基因識別等方面的研究:
1、 SNP數量多,分布廣泛。據估計,人類基因組中每1000個核苷酸就有一個SNP,人類30億堿基中共有300萬以上的SNPs。SNP 遍布于整個人類基因組中,根據SNP在基因中的位置,可分為基因編碼區SNPs(Coding-region SNPs,cSNPs)、基因周邊SNPs(Perigenic SNPs,pSNPs)以及基因間SNPs(Intergenic SNPs,iSNPs)等三類。
2、 SNP適于快速、規?;Y查。組成DNA的堿基雖然有4種,但SNP一般只有兩種堿基組成,所以它是一種二態的標記,即二等位基因(biallelic)。 由于SNP的二態性,非此即彼,在基因組篩選中SNPs往往只需+/-的分析,而不用分析片段的長度,這就利于發展自動化技術篩選或檢測SNPs。
3、 SNP等位基因頻率的容易估計。采用混和樣本估算等位基因的頻率是種高效快速的策略。該策略的原理是:首先選擇參考樣本制作標準曲線,然后將待測的混和樣本與標準曲線進行比較,根據所得信號的比例確定混和樣本中各種等位基因的頻率。
4、 易于基因分型。SNPs 的二態性,也有利于對其進行基因分型。對SNP進行基因分型包括三方面的內容:(1)鑒別基因型所采用的化學反應,常用的技術手段包括:DNA分子雜交、引物延伸、等位基因特異的寡核苷酸連接反應、側翼探針切割反應以及基于這些方法的變通技術;(2)完成這些化學反應所采用的模式,包括液相反應、固相支持物上進行的反應以及二者皆有的反應。(3)化學反應結束后,需要應用生物技術系統檢測反應結果。
多重SNaPshot SNP由美國Life Technologies公司開發。以多重引物延伸為基礎可以針對1-12個SNP位點進行分型,SNaPshot又稱為小測序技術,與一代測序技術并稱為檢測SNP位點的金標準。甚至靈敏度高于標準測序,可檢測待測樣品中的極小量變異(如體突變)
SNP分型主要技術原理在一個含有測序酶,四種熒光標記的ddNTP,緊挨多態位點5’端的不同長度延伸引物和PCR產物模板的反應體系中,引物延伸一個堿基即終止,經ABI 3730 測序儀跑膠后,根據峰的顏色可知摻入的堿基種類,從而確定該樣本的基因型,根據峰移動的膠位置確定該延伸產物對應的SNP位點。
(1)適合全基因組SNP關聯研究獲得的初步陽性位點驗證研究
(2)適合全基因組測序得到的大量初篩突變位點大樣品驗證研究
(3)通過選擇與性狀相關的候選基因(如hapmap計劃的數據、5’UTR區、3’UTR區、外顯子、外顯子與內含子的剪切區、DNA百科全書中的序列),用該候選基因的已知或重測序分析得到標簽SNP,通過大樣本統計分析驗證該基因是否與該性狀相關
(4)候選生物通路或者候選染色體區域的基因SNP分型等
(1)提好的樣本DNA或者相關組織樣本DNA細胞(≥106)、組織(≥300mg)、血液(≥1ml)、基因組DNA(體積≥20μl,濃度≥50 ng/μl)
(2)需要檢測的SNP位點信息(也可以只是具體基因區域,位點由我們挑選或推薦)
(1)原始數據文件(.fsa)
(2)峰圖文件(.pdf)
(3) 擴增和反應體系所涉及的引物序列
(4)分型結果(.excel)
(5) 120個測序相互驗證質量評估報告
MassARRAY? 分子量陣列技術是Sequenom公司推出的世界上領先的基因分析工具,該技術是基于Sequenom質譜儀來實現的。首先通過PCR擴增出含有SNP位點的一段DNA序列,用SAP酶純化,單堿基延伸引物延伸,探針在SNP位點處僅延伸一個堿基。用基質輔助激光解析電離飛行時間質譜(MALDI-TOF MS) 檢測延伸產物與未延伸引物間的分子量差異,確定該點處堿基。Sequenom Mass Array飛行時間質譜生物芯片系統是為基因組學研究提供兼顧靈敏度和特異性服務的中高通量技術平臺,是目前唯一采用質譜法進行直接檢測的設備。Sequenom MassArray系統反應體系為非雜交依賴性,不需要各種標記物,實驗設計靈活,更可實現高達25-30重反應,是目前市場上擁有最高性價比的檢測系統。
◇高通量:一張芯片可對384個樣本進行多重檢測;每個體系最多可實現30重反應;
◇高性價比:每個SNP檢測成本僅需2-5元(依據SNP個數及樣本量而定);
◇高靈敏度:分析所需樣本量少(10ng),準確性>95%;檢出率>90%;
◇高靈活度:一張芯片上樣本數量和位置可隨意選擇、樣本和位點檢測匹配可隨意選擇。
(1)適合全基因組SNP關聯研究獲得的初步陽性位點及大量初篩突變位點大樣品驗證;
(2)群體遺傳學研究(生物進化、遺傳分析)
(3)疾病相關基因研究(復雜疾病的易感性基因分析與基因定位)
(4)環境因子易感基因的檢出與病原體基因分析
(5)藥物基因組學(藥物開發與個體用藥)
(6)個體識別與法醫鑒定
(7)生物醫藥研究(系統發育分析與病理分子遺傳機理闡明)候選生物通路或者候選染色體區域的基因SNP分型等;
(1)Hardy-Weinberg平衡檢驗;
(2) 等位基因型頻數分析;
(3) 基因型頻數分布分析;
(4)Major allele純合型與其他基因型頻數比較分析;
(5)Major allele純合及雜合型與其他基因型頻數比較分析;
(6) 單體型分析。
(7)以及向客戶提供Mass ARRAY的原始數據(Excel格式)。
(8)我們還協助客戶進行論文發表等工作