基因組關聯分析是一種在人類或動植物全基因組中尋找變異序列的方法,全英文名為Genome-wide association study,縮寫名為GWAS
2005年,Science雜志報道了第一篇GWAS研究——年齡相關性黃斑變性,之后陸續出現了有關冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂癥等的研究報道。截至2010年底,單是在人類上就有1212篇GWAS文章被發表,涉及210個性狀。GWAS主要基于共變法的思想,該方法是人類進行科學思維和實踐的最重要工具之一;統計學研究也表明,GWAS很長時期內都將處于蓬勃發展期。
全基因組關聯分析(Genome-wide association study;GWAS)是應用基因組中數以百萬計的單核苷酸多態性(single nucleotide ploymorphism,SNP)為分子遺傳標記,進行全基因組水平上的對照分析或相關性分析,通過比較發現影響復雜性狀的基因變異的一種新策略。
隨著基因組學研究以及基因芯片技術的發展,人們已通過GWAS方法發現并鑒定了大量與復雜性狀相關聯的遺傳變異。近年來,這種方法在農業動物重要經濟性狀主效基因的篩查和鑒定中得到了應用。
全基因組關聯方法首先在人類醫學領域的研究中得到了極大的重視和應用,尤其是其在復雜疾病研究領域中的應用,使許多重要的復雜疾病的研究取得了突破性進展,因而,全基因組關聯分析研究方法的設計原理得到重視。
人類的疾病分為單基因疾病和復雜性疾病。單基因疾病是指由于單個基因的突變導致的疾病,通過家系連鎖分析的定位克隆方法,人們已發現了囊性纖維化、亨廷頓病等大量單基因疾病的致病基因,這些單基因的突變改變了相應的編碼蛋白氨基酸序列或者產量,從而產生了符合孟德爾遺傳方式的疾病表型。復雜性疾病是指由于遺傳和環境因素的共同作用引起的疾病。目前已經鑒定出的與人類復雜性疾病相關聯的SNP位點有439個。全基因組關聯分析技術的重大革新及其應用,極大地推動了基因組醫學的發展。
動物重要經濟性狀即復雜性狀GWAS分析方法的原理是,借助于SNP分子遺傳標記,進行總體關聯分析,在全基因組范圍內選擇遺傳變異進行基因分型,比較異常和對照組之間每個遺傳變異及其頻率的差異,統計分析每個變異與目標性狀之間的關聯性大小,選出最相關的遺傳變異進行驗證,并根據驗證結果最終確認其與目標性狀之間的相關性。
GWAS的具體研究方法與傳統的候選基因法相類似。最早主要是用單階段方法,即選擇足夠多的樣本,一次性地在所有研究對象中對目標SNP進行基因分型,然后分析每個SNP與目標性狀的關聯,統計分析關聯強度。
目前GWAS研究主要采用兩階段或多階段方法。在第一階段用覆蓋全基因組范圍的SNP進行對照分析,統計分析后篩選出較少數量的陽性SNP進行第二階段或隨后的多階段中采用更大樣本的對照樣本群進行基因分型,然后結合兩階段或多階段的結果進行分析。這種設計需要保證第一階段篩選與目標性狀相關SNP的敏感性和特異性,盡量減少分析的假陽性或假陰性,并在第二階段應用大量樣本群進行基因分型驗證。雖然 GWAS結果在很大程度上增加了對復雜性狀分子遺傳機制的理解,但也顯現出很大的局限性。首先,通過統計分析遺傳因素和復雜性狀的關系,確定與特定復雜性狀關聯的功能性位點存在一定難度。通過GWAS發現的許多SNP位點并不影響蛋白質中的氨基酸,甚至許多SNP位點不在蛋白編碼開放閱讀框(open reading frame,ORF)內,這為解釋 SNP位點與復雜性狀之間的關系造成了困難。
但是,由于復雜性狀很大程度上是由數量性狀的微效多基因決定的,SNP位點可能通過影響基因表達量對這些數量性狀產生輕微的作用,它們在RNA的轉錄或翻譯效率上發揮作用,可能在基因表達上產生短暫的或依賴時空的多種影響,刺激調節基因的轉錄表達或影響其RNA剪接方式。因此,在找尋相關變異時應同時注意到編碼區和調控區位點變異的重要性。其次,等位基因結構 (數量、類型、作用大小和易感性變異頻率)在不同性狀中可能具有不同的特征。
在GWAS研究后要確定一個基因型-表型因果關系還有許多困難,由于連鎖不平衡的原因,相鄰的SNP之間會有連鎖現象發生。同樣,在測序時同樣存在連鎖不平衡現象,而且即使測序的費用降到非常低的水平,要想如GWAS研究一般地獲得大量樣本的基因組數據還是非常困難的。
但是,隨著基因組研究和基因芯片技術的不斷發展和完善,必將迎來GWAS的廣泛應用。