核桃具有極佳的經濟價值與保健效果,富含人體必需的營養(yǎng)物質和微量元素,在國內國際市場均具有極大的消費潛力。對核桃基因組進行研究,獲得遺傳序列信息,有助于核桃重要農藝性狀的定位與克隆,剖析復雜性狀的遺傳機制,對開發(fā)利用核桃優(yōu)質種質資源和培育、改良核桃品種具有重要意義。本文簡要統(tǒng)計了已進行全基因組測序的核桃屬物種,并對核桃基因組學在測序技術上的更新和基因組學在核桃中的分子標記開發(fā)、農藝性狀定位、物種起源分化和多組學聯合等研究內容進行概述,對開發(fā)利用核桃優(yōu)質種質資源和培育、改良核桃品種具有重要意義。
測序
核桃屬物種基因組測序研究 核桃第1個參考基因組是美國加州大學測序組裝獲得,選擇物種為Chandler,使用了SOAP denovo 2和MaSuRCA兩種組裝技術,獲得667Mbp長的基因組序列,注釋到32498個基因。伴隨著核桃參考基因組的發(fā)布,對核桃的研究可以在全基因組范圍內進行,在該基因組數據的支持下對核桃的多酚合成途徑進行分析,發(fā)現了第2個多酚氧化酶基因(JrPPO2),基因組序列的研究為核桃加速育種和促進復雜性狀的遺傳剖析提供了重要的工具和方法。 Ning等對云南鐵核桃進行了染色體水平的測序組裝,使用Illumina測序平臺和Nanopore測序平臺分別獲得了38.0Gb的短reads和66.31Gb的長reads,構建Hi-C文庫獲得可組裝到染色體的數據,獲得的基因組大小為536.50Mbp,從基因組中預測了30387個蛋白編碼基因,其中99.8%已實現功能注釋。Huang等對山核桃進行基因組測序,選用品種為美國的Pawnee和中國的ZAFU-1,測序深度為288 x和248 x,分別獲得187.22Gb和178.87Gb長的序列,基因組組裝長度為651.31Mbp和706.43Mbp,基因組測序后續(xù)分析可以為山核桃的氣候適應性和抗逆性研究提供數據支持。 近年來,隨著結構基因組學的發(fā)展,許多新的技術(如Hi-C、Chicago和光學圖譜等)被開發(fā)應用于基因組的輔助組裝。Marrano等在核桃參考基因組Chandler v 1.0基礎上,使用納米孔長讀測序(Oxford Nanopore long-read sequencing)進行深度序列覆蓋測序,結合染色體構象捕獲技術(chromosome conformation capture)Hi-C和Illumina測序技術,組裝完成染色體級別的高度連續(xù)核桃基因組Chandler v 2.0,新基因組的組裝N50大小增加了84.4倍,與轉錄組結合挖掘到37554個基因,新的基因組極大地提高了基因預測的準確性,平均基因長度高于之前基因注釋。Zhang等選擇雜合度低的西藏品種Zhongmucha-1進行基因組測序,結合Hi-C、遺傳、物理圖譜獲得了核桃染色體水平的基因組序列,基因組大小為540Mbp,注釋了39432個基因,基于核桃的高質量基因組圖譜,對黑核桃、野核桃和核桃楸等5個種的contig序列進行排序和定向,得到了5個種的假染色體級別基因組序列(http: //xhhuanglab. cn/data/juglans. html)。基因組學數據獲取越來越快,而對基因組組裝序列的評估是復雜的,有研究發(fā)現約95%的RNA-seq讀數和97.25%的Illumina測序讀數可以排列到最終的裝配上,以此提出了一種基于基因含量進化信息預期的方法,用于評估基因組組裝和注釋完整性——BUSCO。Zhang等使用BUSCO評估基因組組裝的完整性發(fā)現,大約94%的核心基因能夠被檢索到。 核桃的基因組高度雜合,組裝復雜,而種間雜種的基因組通常由親本中的單倍體基因組組成。Zhu等利用種間雜種的這一特性來避免雜合性,對親本為小黑核桃×核桃(J. microcarpa×J. regia)的雜交種進行基因組測序,使用光學圖譜技術對雜交種構建2個光學圖譜,再將光學圖譜上的排列序列重疊群填充到骨架(MS1-56_v0)中,填充后將雜交種的基因組組裝體分配到親本中,結合高密度遺傳連鎖圖譜填充親本的基因組間隙,生成了親本的基因組數據集JrSerr_v1.0和Jm31.01_v1.0。 對于核桃類的風傳媒物種,對子代的研究使用來自母系遺傳的細胞器DNA會更加準確,植物母系遺傳葉綠體基因組沒有重組和基因轉換的現象,廣泛用于系統(tǒng)發(fā)育研究。核桃的葉綠體基因組具有被子植物典型的四分體結構,由大單拷貝區(qū)(LSC)和小單拷貝區(qū)(SSC)以及分隔的一對反向重復區(qū)(IRa與IRb)組成。Peng等使用高通量測序技術對核桃葉綠體基因組進行全核苷酸序列測序發(fā)現,葉綠體基因組長度為160537bp,大拷貝區(qū)長度為90095bp,小拷貝區(qū)為18412bp,2對反向重復序列長26033bp,共編碼113個基因。Hu等對中國的5種核桃(核桃、鐵核桃、山核桃、麻核桃和核桃楸)的葉綠體基因組進行測序,葉綠體基因組長度介于159714~160367bp之間,繪制了5種核桃的基因組變異圖譜,包括SNP、InDel和SV、SSR、重復序列等結構變異的差異。根據5種核桃的葉綠體基因組數據,將這5種核桃資源劃分為2個已知區(qū)段核桃(胡桃)組和核桃楸組,為中國地區(qū)的核桃分類、系統(tǒng)發(fā)育提供了信息。Song等對美國核桃和中國核桃雜交的砧木進行葉綠體測序,系統(tǒng)發(fā)育結果分析顯示雜交獲得的砧木與美國核桃的親緣關系較近。Yang等對胡桃科楓楊(Pterocarya stenoptera)的葉綠體基因組測序并分析其與核桃種之間的系統(tǒng)發(fā)育關系,與包括核桃在內的14種近緣種蛋白序列分析,確定楓楊與核桃關系較近。 截至目前,已進行全基因組測序的核桃屬物種共13個。隨著測序技術的快速發(fā)展,核桃種的測序深度逐漸加深,組裝數據也更加精準,結合二代、三代測序平臺,組裝水平達到染色體級別(表1)。 應用 基因組學在核桃上的應用研究
分子標記的開發(fā) 基因組中含有大量的非編碼重復DNA,包括轉座子、反轉錄因子、串聯重復序列以及微衛(wèi)星位點等。微衛(wèi)星標記(simple sequence repeat, SSR)共顯性好、多態(tài)性高,適用于高通量制圖、群體遺傳分析以及標記輔助育種。Aziz等評估了12個核桃種中的SSR位點,通過鑒定核SSR(nuSSR)、葉綠體SSR(cpSSR)、線粒體SSR(mtSSR),比較它們在不同基因組中的頻率與分布,共驗證了39000個SSR位點,顯示其他物種的末端序列在核桃種內保持了90%~95%的一致性。Xu等利用泡核桃基因組數據開發(fā)了32個微衛(wèi)星位點,將這些位點用于3個自然群體的60個個體進行檢測,檢測到這些位點具有高度的多態(tài)性,平均每個種群有4個等位基因,在核桃、山核桃、核桃楸等近緣種中有30個位點擴增成功。 全基因組分子標記的開發(fā)和基因分型是向分子育種過渡的第一步。單核苷酸多態(tài)性(SNPs)是個體間的單堿基差異,是基因組中最豐富的遺傳變異來源,具有數量大、分布廣、突變率低的特點。Liao等用第二代測序技術中的Roche 454測序技術對核桃進行測序,總共檢測到49202個核苷酸變異,包括48165個SNPs和1037個InDels,這些SNPs和InDels將為核桃的遺傳研究提供有價值的標記資源。Marrano等開發(fā)了一種高密度Axiom J. regia 700K SNP基因分型陣列,應用這種基因分型工具,可以對核桃的關鍵性狀進行遺傳剖析,使用這種SNP陣列從一組9.6Mbp的全基因組變異中獲得609k的高質量SNP,數據表明獲得的SNP是先前重測序確定的,使用獲得的數據對超過1000株核桃進行基因分型驗證,55.7%的SNPs屬于多態(tài)性高的類型,親代與子代關系進行鑒定也符合孟德爾遺傳定律。Arab等使用Axiom J. regia 700K SNP基因分型技術對伊朗地區(qū)的8個不同氣候區(qū)的95個核桃樣本進行基因分型,其中53%的SNP屬于高分辨率的多態(tài)性。Ciarmiello等對18個地理來源不同的核桃品種的內部轉錄間隔區(qū)(核糖體的ITS1和ITS2)中的一些SNPs進行分析,對18個品種的ITS1-5.8s-ITS2的序列進行比對發(fā)現序列分為2類,種間存在多態(tài)性,證明ITS1和ITS2區(qū)域進行SNP標記可用于核桃品種的鑒別。 重要農藝性狀的定位 隨著基因組測序技術的發(fā)展,與性狀基因相連的遺傳標記逐漸被挖掘,具有豐富序列信息的標記可以提高育種效率,使用這些標記構建遺傳圖譜,繪制高密度遺傳連鎖圖譜可以清晰目的基因與染色體之間的位置。Zhu等使用特異性長度擴增片段測序(Specific Length Amplified Fragment sequencing,SLAF-seq)技術獲得153820個SLAF標記,使用其中2577個多態(tài)性標記,對F1群體構建了含有16個連鎖群(linkage Group,LG)的高密度遺傳圖譜,總圖譜標記覆蓋2457.82cM;根據區(qū)間映射(LOD>3.0)檢測數量性狀,在LG14區(qū)間上的165.51~176.33cM檢測到1個炭疽病抗性QTL。 基于基因組對數量性狀進行進一步分析是數量性狀基因座定位(Quantitative Trait Loci,QTL)和全基因組關聯分析(Genome Wide Association Study,GWAS)手段對核桃基因組功能基因的注釋研究,QTL與GWAS結合使核桃從傳統(tǒng)育種走向基因組輔助育種。Marrano等使用QTL定位和GWAS關聯分析的方法探究影響核桃產量、果仁表皮顏色、物候期等5個性狀的因素,表型性狀數據結合SNP標記構建的遺傳圖譜,確認相關性狀的基因座,分別在Chr1、Chr11染色體上發(fā)現了與核桃成熟期、產量與結果相關的基因組區(qū)域,在Chr6和Chr7上2個標記關聯糖基轉化和氧化反應。 Sideli等以核桃的果殼縫合強度為切入點,對核桃內果皮縫合線進行研究,使用700K SNP Array技術對464株核桃進行SNP多態(tài)性分析,QTL作圖和GWAS結合分析,確定導致性狀變異的特定位點,控制核桃果殼縫合強度的主要QTL在LG05,該QTL的基因功能是切割和降解木葡聚糖聚合物,另在LG01和LG11上分別有1個次要QTL,也可能對核桃縫合線起調控作用。 對核桃的物候期和結果習性進行研究有助于選育高產品種,Bernard等對全球各地的170份核桃材料進行GWAS分析,并對與物候期相關的78個F1子代個體進行基因組分型,結果發(fā)現在核桃第1條染色體上的SNP位點與核桃發(fā)育過程中的芽裂和雌花開花有很強的關聯性,該位點得到在該區(qū)域的QTL證實。果個大、出仁率高、易取仁是核桃商品出售的主要標準,Bernard等對核桃的果實特性包括性狀、大小、營養(yǎng)成分等品質相關的25個性狀進行全基因組關聯分析,結果發(fā)現60多個標記與性狀關聯,包含2個與核桃果仁體積與重量關聯的SNP位點。 核桃仁澀皮顏色越淺越受到消費者青睞,核桃仁的澀皮顏色在不同品種、不同發(fā)育階段表現不同。Sideli等對Chandler×Ldaho雙親后代的168株后代和本地的528株核桃進行GWAS分析,發(fā)現與核桃仁澀皮顏色的表型在Chandler遺傳圖譜上有重疊區(qū)域,在Chr01等多個染色體上小效應QTL位點,QTL與標記錨定染色體定位于Chr01、Chr10、Chr14和Chr16上,包括轉錄因子MYB113在內的12個基因被認定為可能與核桃仁澀皮顏色色素沉著有關。 在核桃生產栽培中,與開花、落葉相關的性狀是植物生命周期的關鍵因素,也是決定核桃生產力的重要因素。Bükücü等對土耳其的188份核桃材料,通過全基因組關聯分析進行基因型變異分析,結合3年與葉芽萌發(fā)、開花等13個開花、落葉相關的表型性狀數據,發(fā)現了與花序數量和果實結實等性狀相關的標記,關聯分析結果顯示16個QTL位點至少與2個表型性狀相關,其中QTL05關聯數量最多,與7個性狀相關(開花期、萌芽期、雄花始花期、雌花始花期、雄花終花期、雌花終花期以及堅果果形),這些鑒定出來的與開花、落葉相關的標記位點與顯著性QTL為以后童期選擇提供了數據。 利用全基因組測序研究物種起源與演化 核桃的基因組測序長度在640M~990Mbp之間,測序結果的連續(xù)性和準確性支持對基因組變異的注釋,基因組注釋得清晰對于了解核桃植物及其進化分類都具有重要的意義。Stevens等對北加州黑核桃、黑核桃、小黑核桃和核桃進行基因組深度重測序,重測序結果將核桃屬分為3類:①黑核桃組:J. nigra、J. microcarpa、J. hindsii;②核桃組:J. regia、J. sigillata;③核桃楸組:J. cathayensis。利用重測序數據對多酚氧化酶位點PPO的結構和序列變化進行深度分析,研究結果顯示PPO1位點在譜系上表現出加速分化和氨基酸置換過剩的現象,這些現象可能導致核桃和山核桃的馴化。Mu等使用全基因組限制位點相關的DNA測序方法(2b-RAD)對野生和栽培麻核桃種進行研究,通過構建物種進化樹和測序結果得出麻核桃是核桃和核桃楸的雜交后代。 Zhang等對19種核桃種的80個個體,以及近緣種楓楊和化香樹(Platycarya strobilacea Sieb)進行全基因組重測序,使用單拷貝核基因的系統(tǒng)發(fā)育網絡分析、全基因組位點模式概率等方法得出核桃及其地方品種泡核桃是美洲核桃和亞洲核桃的雜交后代,而灰核桃是亞洲核桃大量滲入美洲黑核桃基因組的結果,通過貝葉斯計算模型發(fā)現其在上新世晚期(3.45Mya)開始分化,而2種親本血統(tǒng)在歐洲已經滅絕。Mu等基于RAD-seq技術和葉綠體基因組數據對核桃屬的系統(tǒng)發(fā)育進行重新分析,分析結果在群體水平上支持胡桃亞科的拓撲結構,最終在化石記錄、系統(tǒng)發(fā)育和譜系分化時間等的證實下提出核桃木亞科起源于北美,通過白令海峽和北大西洋陸橋向歐亞大陸遷移。 通過對核桃基因組的研究預測過去的氣候生態(tài)信息,并更新核桃避難所的位置。Aradhya等對高加索地區(qū)、中亞、東亞、亞洲西南和東歐等317份核桃材料643種基因型進行遺傳多樣性和群體結構分析,分析核桃現今期、末次盛冰期(Last Glacial Maximum,LGM)、末次間冰期(Last Interglacia,LIG)的空間與時間分布,結果表明LGM期間核桃的分布范圍主要局限于南高加索地區(qū)的南緯地區(qū)、西藏西南部的中亞和南亞地區(qū)、印度東北部、錫金和不丹的喜馬拉雅地區(qū)以及中國東南部,在北緯30~45°的地理區(qū)域內的避難所存活。 隨著末次盛冰期到來,迫使適應溫暖的環(huán)北方植物群遷移,并被限制在亞洲東部、北美和歐亞大陸西南部的大型南方避難所。Bai等對亞洲南北2個地區(qū)的核桃進行了多樣性分析,2個地區(qū)間存在一條干旱隔離帶,結果北部為核桃楸屬和日本核桃(Juglans ailantifolia Carr),南部為山核桃屬,推測主要原因為北部原始山脈的地域差異而分化,此后基本保持分離。Wang等利用12個SSR位點對中國東北和朝鮮半島的19個核桃群進行了末次冰期后物種的擴散模式探究,結果發(fā)現在末次冰期后物種擴散的過程中,東北地區(qū)的核桃?guī)缀鯖]有遺傳多樣性缺失的現象,推測是由于在北方種群傳播過程中缺乏長距離的傳播機制,因而遺傳多樣性的維度沒有下降。Ebrahimi等對北美核桃、亞洲核桃和核桃的基因型和抗寒性進行了評估,結合耐冷基因的表達量和系統(tǒng)發(fā)育分析得出,核桃與其他亞洲核桃核基因組聚為一組,且核桃的遺傳多樣性低于其他樣本,鑒定的耐寒冷基因最低,分子機理與生理數據高度相關,可以有效地表征核桃品種的耐寒性。 現在核桃群體種質資源分布的多樣性除代表冰川后的擴張、定居和種植外,還包括自然和人類選擇和馴化的復雜的相互作用。Bai等推算核桃物種演化時間,對11個溫帶核桃物種的基因組進行兩兩測序的馬爾科夫合并方法,估算核桃有效種群大小(Ne)的變化軌跡,再使用G-PHOCS方法估算多個基因組間的分化時間,結果得出核桃屬在100萬年前開始分化,這一結果也被G-PHOCS對發(fā)散時間的估計所證實,但它們對冰期后的氣候反應并不相似,Ne變化的時間和幅度不同,推測核桃種群的進化歷程中不單單存在環(huán)境改變,與特定病原體的共同進化交互作用等物種特異性因素可能發(fā)揮了關鍵作用。 Paola等使用14個微衛(wèi)星位點對91個歐洲核桃進行遺傳多樣性評價,構建歐洲核桃的種群歷史譜系和傳播途徑,結果表明在羅馬帝國時期就存在東歐、西歐的種間雜交,而在過去的5個世紀里,在歐洲東北部和西歐出現了人口規(guī)模的擴張和隨后的下降,核桃在歐洲的實際分布是末次盛冰期后多個避難所的擴張或收縮和過去5000年來人類對其開發(fā)的綜合作用的結果。 基因組與其他組學結合,挖掘基因表達信息 獲得高質量的基因組,將使多倍體高重復的復雜物種的轉錄分析更加準確。Hu等利用Illumina測序技術和De novo組裝獲得平均長度747bp的轉錄組數據,利用這些數據鑒定到63個新的SSR標記,使用這些標記對4個群體中的4~14個個體進行標記檢測,檢測到20個SSR標記具有多態(tài)性且易于擴增。Zhao等對核桃脂肪合成的3個發(fā)育時期(初期發(fā)育期、快速發(fā)育期、成熟發(fā)育期)進行轉錄組測序分析,3個發(fā)育階段共獲得68.18Gb的數據,92%~94%的clean data可以比對到參考基因組,分析脂肪合成相關的關鍵基因的表達水平,確定ACCase、LACS和FAD7是與脂肪合成相關的關鍵基因。Quan等對核桃花芽分化不同時期進行cDNA文庫測序及石蠟包埋組織切片方法觀察形態(tài)變化,雌花芽與葉芽間差異表達的DEGs有374個,構建與花期有關的DEGs共表達網絡,鑒定出CRY2和NF-YA基因是調控花期的核心DEGs,通過cDNA測序對核桃成花過程的表達基因進行篩選,為核桃的開花機理提供了理論依據。 將基因組數據和轉錄組數據補充現有的蛋白質序列數據庫,利用這種蛋白基因組數據庫可以極大地改善MS/MS搜索結果。Cary等通過基因組測序和轉錄組、蛋白組的數據庫檢索光譜,并將提取的核桃進行液相色譜-質譜(LC-MS/MS)分析,最終在基因組數據庫中確定出10個獨特多肽段,轉錄組數據庫中的識別多肽數量增加了20%,為核桃等堅果物種的蛋白數據庫奠定了基礎。Zaini等對早實、晚實核桃的種皮顏色進行研究,揭示了在采收期中常見蛋白與特異蛋白的321個差異明顯的種皮膜層蛋白,蛋白質組學分析檢測到4937個蛋白,涉及到抗氧化、次級代謝等途徑。 展望 隨著新測序技術的不斷更新,基因組學相關研究實現快速發(fā)展,以高通量測序技術為基礎的各種組學研究廣泛應用于核桃等植物的各個領域。測序技術的成熟加上測序成本的降低,越來越多的果樹物種的基因信息被破解。而果樹的全基因組測序工作仍需繼續(xù)推進,核桃等果樹的功能基因組學研究遠不及水稻、玉米等農作物,主要原因仍為果樹是多年生植物,有性繁殖周期長,建立雜交群體至開花結果得到想要研究的性狀需要很長時間;另外對功能基因的定位與驗證也受到完善的表達體系的限制,除蘋果等國內主栽經濟果樹外,大部分果樹仍需借助模式植物進行驗證。 隨著測序技術的不斷進步,通過測序獲得了越來越多果樹的全基因組序列,同樣在轉錄組、蛋白組、代謝組等生物信息數據也在不斷積累,而建立一種包含基因組、轉錄組、蛋白組等相關數據的綜合性數據庫顯得尤為重要,目前在柑橘屬(Citrus Genome Database,https: //www. Citrusgenom-edb. org/)、梨屬(Pear Genome Project,http: //pear-genome. njau. edu. cn/)已擁有基因組數據庫,通過對綜合數據庫的生信數據進行分析、儲存以及整合,可為果樹基礎研究和應用研究提供可靠數據信息。對核桃的全基因組測序能夠推進核桃的基因組學研究,豐富核酸序列和基因資源,為進一步開發(fā)分子標記、挖掘重要功能基因和解析生長發(fā)育機制等分子生物學研究提供重要基礎和依據,加快核桃分子輔助育種進程。 聲 明:本文摘編自《中國果樹》2022年第2期“核桃基因組學研究進展”(武鵬雨,劉婷婷,包建平,虎海防,馬凱,張銳)。
核桃屬物種基因組測序研究 核桃第1個參考基因組是美國加州大學測序組裝獲得,選擇物種為Chandler,使用了SOAP denovo 2和MaSuRCA兩種組裝技術,獲得667Mbp長的基因組序列,注釋到32498個基因。伴隨著核桃參考基因組的發(fā)布,對核桃的研究可以在全基因組范圍內進行,在該基因組數據的支持下對核桃的多酚合成途徑進行分析,發(fā)現了第2個多酚氧化酶基因(JrPPO2),基因組序列的研究為核桃加速育種和促進復雜性狀的遺傳剖析提供了重要的工具和方法。 Ning等對云南鐵核桃進行了染色體水平的測序組裝,使用Illumina測序平臺和Nanopore測序平臺分別獲得了38.0Gb的短reads和66.31Gb的長reads,構建Hi-C文庫獲得可組裝到染色體的數據,獲得的基因組大小為536.50Mbp,從基因組中預測了30387個蛋白編碼基因,其中99.8%已實現功能注釋。Huang等對山核桃進行基因組測序,選用品種為美國的Pawnee和中國的ZAFU-1,測序深度為288 x和248 x,分別獲得187.22Gb和178.87Gb長的序列,基因組組裝長度為651.31Mbp和706.43Mbp,基因組測序后續(xù)分析可以為山核桃的氣候適應性和抗逆性研究提供數據支持。 近年來,隨著結構基因組學的發(fā)展,許多新的技術(如Hi-C、Chicago和光學圖譜等)被開發(fā)應用于基因組的輔助組裝。Marrano等在核桃參考基因組Chandler v 1.0基礎上,使用納米孔長讀測序(Oxford Nanopore long-read sequencing)進行深度序列覆蓋測序,結合染色體構象捕獲技術(chromosome conformation capture)Hi-C和Illumina測序技術,組裝完成染色體級別的高度連續(xù)核桃基因組Chandler v 2.0,新基因組的組裝N50大小增加了84.4倍,與轉錄組結合挖掘到37554個基因,新的基因組極大地提高了基因預測的準確性,平均基因長度高于之前基因注釋。Zhang等選擇雜合度低的西藏品種Zhongmucha-1進行基因組測序,結合Hi-C、遺傳、物理圖譜獲得了核桃染色體水平的基因組序列,基因組大小為540Mbp,注釋了39432個基因,基于核桃的高質量基因組圖譜,對黑核桃、野核桃和核桃楸等5個種的contig序列進行排序和定向,得到了5個種的假染色體級別基因組序列(http: //xhhuanglab. cn/data/juglans. html)。基因組學數據獲取越來越快,而對基因組組裝序列的評估是復雜的,有研究發(fā)現約95%的RNA-seq讀數和97.25%的Illumina測序讀數可以排列到最終的裝配上,以此提出了一種基于基因含量進化信息預期的方法,用于評估基因組組裝和注釋完整性——BUSCO。Zhang等使用BUSCO評估基因組組裝的完整性發(fā)現,大約94%的核心基因能夠被檢索到。 核桃的基因組高度雜合,組裝復雜,而種間雜種的基因組通常由親本中的單倍體基因組組成。Zhu等利用種間雜種的這一特性來避免雜合性,對親本為小黑核桃×核桃(J. microcarpa×J. regia)的雜交種進行基因組測序,使用光學圖譜技術對雜交種構建2個光學圖譜,再將光學圖譜上的排列序列重疊群填充到骨架(MS1-56_v0)中,填充后將雜交種的基因組組裝體分配到親本中,結合高密度遺傳連鎖圖譜填充親本的基因組間隙,生成了親本的基因組數據集JrSerr_v1.0和Jm31.01_v1.0。 對于核桃類的風傳媒物種,對子代的研究使用來自母系遺傳的細胞器DNA會更加準確,植物母系遺傳葉綠體基因組沒有重組和基因轉換的現象,廣泛用于系統(tǒng)發(fā)育研究。核桃的葉綠體基因組具有被子植物典型的四分體結構,由大單拷貝區(qū)(LSC)和小單拷貝區(qū)(SSC)以及分隔的一對反向重復區(qū)(IRa與IRb)組成。Peng等使用高通量測序技術對核桃葉綠體基因組進行全核苷酸序列測序發(fā)現,葉綠體基因組長度為160537bp,大拷貝區(qū)長度為90095bp,小拷貝區(qū)為18412bp,2對反向重復序列長26033bp,共編碼113個基因。Hu等對中國的5種核桃(核桃、鐵核桃、山核桃、麻核桃和核桃楸)的葉綠體基因組進行測序,葉綠體基因組長度介于159714~160367bp之間,繪制了5種核桃的基因組變異圖譜,包括SNP、InDel和SV、SSR、重復序列等結構變異的差異。根據5種核桃的葉綠體基因組數據,將這5種核桃資源劃分為2個已知區(qū)段核桃(胡桃)組和核桃楸組,為中國地區(qū)的核桃分類、系統(tǒng)發(fā)育提供了信息。Song等對美國核桃和中國核桃雜交的砧木進行葉綠體測序,系統(tǒng)發(fā)育結果分析顯示雜交獲得的砧木與美國核桃的親緣關系較近。Yang等對胡桃科楓楊(Pterocarya stenoptera)的葉綠體基因組測序并分析其與核桃種之間的系統(tǒng)發(fā)育關系,與包括核桃在內的14種近緣種蛋白序列分析,確定楓楊與核桃關系較近。 截至目前,已進行全基因組測序的核桃屬物種共13個。隨著測序技術的快速發(fā)展,核桃種的測序深度逐漸加深,組裝數據也更加精準,結合二代、三代測序平臺,組裝水平達到染色體級別(表1)。 應用 基因組學在核桃上的應用研究
分子標記的開發(fā) 基因組中含有大量的非編碼重復DNA,包括轉座子、反轉錄因子、串聯重復序列以及微衛(wèi)星位點等。微衛(wèi)星標記(simple sequence repeat, SSR)共顯性好、多態(tài)性高,適用于高通量制圖、群體遺傳分析以及標記輔助育種。Aziz等評估了12個核桃種中的SSR位點,通過鑒定核SSR(nuSSR)、葉綠體SSR(cpSSR)、線粒體SSR(mtSSR),比較它們在不同基因組中的頻率與分布,共驗證了39000個SSR位點,顯示其他物種的末端序列在核桃種內保持了90%~95%的一致性。Xu等利用泡核桃基因組數據開發(fā)了32個微衛(wèi)星位點,將這些位點用于3個自然群體的60個個體進行檢測,檢測到這些位點具有高度的多態(tài)性,平均每個種群有4個等位基因,在核桃、山核桃、核桃楸等近緣種中有30個位點擴增成功。 全基因組分子標記的開發(fā)和基因分型是向分子育種過渡的第一步。單核苷酸多態(tài)性(SNPs)是個體間的單堿基差異,是基因組中最豐富的遺傳變異來源,具有數量大、分布廣、突變率低的特點。Liao等用第二代測序技術中的Roche 454測序技術對核桃進行測序,總共檢測到49202個核苷酸變異,包括48165個SNPs和1037個InDels,這些SNPs和InDels將為核桃的遺傳研究提供有價值的標記資源。Marrano等開發(fā)了一種高密度Axiom J. regia 700K SNP基因分型陣列,應用這種基因分型工具,可以對核桃的關鍵性狀進行遺傳剖析,使用這種SNP陣列從一組9.6Mbp的全基因組變異中獲得609k的高質量SNP,數據表明獲得的SNP是先前重測序確定的,使用獲得的數據對超過1000株核桃進行基因分型驗證,55.7%的SNPs屬于多態(tài)性高的類型,親代與子代關系進行鑒定也符合孟德爾遺傳定律。Arab等使用Axiom J. regia 700K SNP基因分型技術對伊朗地區(qū)的8個不同氣候區(qū)的95個核桃樣本進行基因分型,其中53%的SNP屬于高分辨率的多態(tài)性。Ciarmiello等對18個地理來源不同的核桃品種的內部轉錄間隔區(qū)(核糖體的ITS1和ITS2)中的一些SNPs進行分析,對18個品種的ITS1-5.8s-ITS2的序列進行比對發(fā)現序列分為2類,種間存在多態(tài)性,證明ITS1和ITS2區(qū)域進行SNP標記可用于核桃品種的鑒別。 重要農藝性狀的定位 隨著基因組測序技術的發(fā)展,與性狀基因相連的遺傳標記逐漸被挖掘,具有豐富序列信息的標記可以提高育種效率,使用這些標記構建遺傳圖譜,繪制高密度遺傳連鎖圖譜可以清晰目的基因與染色體之間的位置。Zhu等使用特異性長度擴增片段測序(Specific Length Amplified Fragment sequencing,SLAF-seq)技術獲得153820個SLAF標記,使用其中2577個多態(tài)性標記,對F1群體構建了含有16個連鎖群(linkage Group,LG)的高密度遺傳圖譜,總圖譜標記覆蓋2457.82cM;根據區(qū)間映射(LOD>3.0)檢測數量性狀,在LG14區(qū)間上的165.51~176.33cM檢測到1個炭疽病抗性QTL。 基于基因組對數量性狀進行進一步分析是數量性狀基因座定位(Quantitative Trait Loci,QTL)和全基因組關聯分析(Genome Wide Association Study,GWAS)手段對核桃基因組功能基因的注釋研究,QTL與GWAS結合使核桃從傳統(tǒng)育種走向基因組輔助育種。Marrano等使用QTL定位和GWAS關聯分析的方法探究影響核桃產量、果仁表皮顏色、物候期等5個性狀的因素,表型性狀數據結合SNP標記構建的遺傳圖譜,確認相關性狀的基因座,分別在Chr1、Chr11染色體上發(fā)現了與核桃成熟期、產量與結果相關的基因組區(qū)域,在Chr6和Chr7上2個標記關聯糖基轉化和氧化反應。 Sideli等以核桃的果殼縫合強度為切入點,對核桃內果皮縫合線進行研究,使用700K SNP Array技術對464株核桃進行SNP多態(tài)性分析,QTL作圖和GWAS結合分析,確定導致性狀變異的特定位點,控制核桃果殼縫合強度的主要QTL在LG05,該QTL的基因功能是切割和降解木葡聚糖聚合物,另在LG01和LG11上分別有1個次要QTL,也可能對核桃縫合線起調控作用。 對核桃的物候期和結果習性進行研究有助于選育高產品種,Bernard等對全球各地的170份核桃材料進行GWAS分析,并對與物候期相關的78個F1子代個體進行基因組分型,結果發(fā)現在核桃第1條染色體上的SNP位點與核桃發(fā)育過程中的芽裂和雌花開花有很強的關聯性,該位點得到在該區(qū)域的QTL證實。果個大、出仁率高、易取仁是核桃商品出售的主要標準,Bernard等對核桃的果實特性包括性狀、大小、營養(yǎng)成分等品質相關的25個性狀進行全基因組關聯分析,結果發(fā)現60多個標記與性狀關聯,包含2個與核桃果仁體積與重量關聯的SNP位點。 核桃仁澀皮顏色越淺越受到消費者青睞,核桃仁的澀皮顏色在不同品種、不同發(fā)育階段表現不同。Sideli等對Chandler×Ldaho雙親后代的168株后代和本地的528株核桃進行GWAS分析,發(fā)現與核桃仁澀皮顏色的表型在Chandler遺傳圖譜上有重疊區(qū)域,在Chr01等多個染色體上小效應QTL位點,QTL與標記錨定染色體定位于Chr01、Chr10、Chr14和Chr16上,包括轉錄因子MYB113在內的12個基因被認定為可能與核桃仁澀皮顏色色素沉著有關。 在核桃生產栽培中,與開花、落葉相關的性狀是植物生命周期的關鍵因素,也是決定核桃生產力的重要因素。Bükücü等對土耳其的188份核桃材料,通過全基因組關聯分析進行基因型變異分析,結合3年與葉芽萌發(fā)、開花等13個開花、落葉相關的表型性狀數據,發(fā)現了與花序數量和果實結實等性狀相關的標記,關聯分析結果顯示16個QTL位點至少與2個表型性狀相關,其中QTL05關聯數量最多,與7個性狀相關(開花期、萌芽期、雄花始花期、雌花始花期、雄花終花期、雌花終花期以及堅果果形),這些鑒定出來的與開花、落葉相關的標記位點與顯著性QTL為以后童期選擇提供了數據。 利用全基因組測序研究物種起源與演化 核桃的基因組測序長度在640M~990Mbp之間,測序結果的連續(xù)性和準確性支持對基因組變異的注釋,基因組注釋得清晰對于了解核桃植物及其進化分類都具有重要的意義。Stevens等對北加州黑核桃、黑核桃、小黑核桃和核桃進行基因組深度重測序,重測序結果將核桃屬分為3類:①黑核桃組:J. nigra、J. microcarpa、J. hindsii;②核桃組:J. regia、J. sigillata;③核桃楸組:J. cathayensis。利用重測序數據對多酚氧化酶位點PPO的結構和序列變化進行深度分析,研究結果顯示PPO1位點在譜系上表現出加速分化和氨基酸置換過剩的現象,這些現象可能導致核桃和山核桃的馴化。Mu等使用全基因組限制位點相關的DNA測序方法(2b-RAD)對野生和栽培麻核桃種進行研究,通過構建物種進化樹和測序結果得出麻核桃是核桃和核桃楸的雜交后代。 Zhang等對19種核桃種的80個個體,以及近緣種楓楊和化香樹(Platycarya strobilacea Sieb)進行全基因組重測序,使用單拷貝核基因的系統(tǒng)發(fā)育網絡分析、全基因組位點模式概率等方法得出核桃及其地方品種泡核桃是美洲核桃和亞洲核桃的雜交后代,而灰核桃是亞洲核桃大量滲入美洲黑核桃基因組的結果,通過貝葉斯計算模型發(fā)現其在上新世晚期(3.45Mya)開始分化,而2種親本血統(tǒng)在歐洲已經滅絕。Mu等基于RAD-seq技術和葉綠體基因組數據對核桃屬的系統(tǒng)發(fā)育進行重新分析,分析結果在群體水平上支持胡桃亞科的拓撲結構,最終在化石記錄、系統(tǒng)發(fā)育和譜系分化時間等的證實下提出核桃木亞科起源于北美,通過白令海峽和北大西洋陸橋向歐亞大陸遷移。 通過對核桃基因組的研究預測過去的氣候生態(tài)信息,并更新核桃避難所的位置。Aradhya等對高加索地區(qū)、中亞、東亞、亞洲西南和東歐等317份核桃材料643種基因型進行遺傳多樣性和群體結構分析,分析核桃現今期、末次盛冰期(Last Glacial Maximum,LGM)、末次間冰期(Last Interglacia,LIG)的空間與時間分布,結果表明LGM期間核桃的分布范圍主要局限于南高加索地區(qū)的南緯地區(qū)、西藏西南部的中亞和南亞地區(qū)、印度東北部、錫金和不丹的喜馬拉雅地區(qū)以及中國東南部,在北緯30~45°的地理區(qū)域內的避難所存活。 隨著末次盛冰期到來,迫使適應溫暖的環(huán)北方植物群遷移,并被限制在亞洲東部、北美和歐亞大陸西南部的大型南方避難所。Bai等對亞洲南北2個地區(qū)的核桃進行了多樣性分析,2個地區(qū)間存在一條干旱隔離帶,結果北部為核桃楸屬和日本核桃(Juglans ailantifolia Carr),南部為山核桃屬,推測主要原因為北部原始山脈的地域差異而分化,此后基本保持分離。Wang等利用12個SSR位點對中國東北和朝鮮半島的19個核桃群進行了末次冰期后物種的擴散模式探究,結果發(fā)現在末次冰期后物種擴散的過程中,東北地區(qū)的核桃?guī)缀鯖]有遺傳多樣性缺失的現象,推測是由于在北方種群傳播過程中缺乏長距離的傳播機制,因而遺傳多樣性的維度沒有下降。Ebrahimi等對北美核桃、亞洲核桃和核桃的基因型和抗寒性進行了評估,結合耐冷基因的表達量和系統(tǒng)發(fā)育分析得出,核桃與其他亞洲核桃核基因組聚為一組,且核桃的遺傳多樣性低于其他樣本,鑒定的耐寒冷基因最低,分子機理與生理數據高度相關,可以有效地表征核桃品種的耐寒性。 現在核桃群體種質資源分布的多樣性除代表冰川后的擴張、定居和種植外,還包括自然和人類選擇和馴化的復雜的相互作用。Bai等推算核桃物種演化時間,對11個溫帶核桃物種的基因組進行兩兩測序的馬爾科夫合并方法,估算核桃有效種群大小(Ne)的變化軌跡,再使用G-PHOCS方法估算多個基因組間的分化時間,結果得出核桃屬在100萬年前開始分化,這一結果也被G-PHOCS對發(fā)散時間的估計所證實,但它們對冰期后的氣候反應并不相似,Ne變化的時間和幅度不同,推測核桃種群的進化歷程中不單單存在環(huán)境改變,與特定病原體的共同進化交互作用等物種特異性因素可能發(fā)揮了關鍵作用。 Paola等使用14個微衛(wèi)星位點對91個歐洲核桃進行遺傳多樣性評價,構建歐洲核桃的種群歷史譜系和傳播途徑,結果表明在羅馬帝國時期就存在東歐、西歐的種間雜交,而在過去的5個世紀里,在歐洲東北部和西歐出現了人口規(guī)模的擴張和隨后的下降,核桃在歐洲的實際分布是末次盛冰期后多個避難所的擴張或收縮和過去5000年來人類對其開發(fā)的綜合作用的結果。 基因組與其他組學結合,挖掘基因表達信息 獲得高質量的基因組,將使多倍體高重復的復雜物種的轉錄分析更加準確。Hu等利用Illumina測序技術和De novo組裝獲得平均長度747bp的轉錄組數據,利用這些數據鑒定到63個新的SSR標記,使用這些標記對4個群體中的4~14個個體進行標記檢測,檢測到20個SSR標記具有多態(tài)性且易于擴增。Zhao等對核桃脂肪合成的3個發(fā)育時期(初期發(fā)育期、快速發(fā)育期、成熟發(fā)育期)進行轉錄組測序分析,3個發(fā)育階段共獲得68.18Gb的數據,92%~94%的clean data可以比對到參考基因組,分析脂肪合成相關的關鍵基因的表達水平,確定ACCase、LACS和FAD7是與脂肪合成相關的關鍵基因。Quan等對核桃花芽分化不同時期進行cDNA文庫測序及石蠟包埋組織切片方法觀察形態(tài)變化,雌花芽與葉芽間差異表達的DEGs有374個,構建與花期有關的DEGs共表達網絡,鑒定出CRY2和NF-YA基因是調控花期的核心DEGs,通過cDNA測序對核桃成花過程的表達基因進行篩選,為核桃的開花機理提供了理論依據。 將基因組數據和轉錄組數據補充現有的蛋白質序列數據庫,利用這種蛋白基因組數據庫可以極大地改善MS/MS搜索結果。Cary等通過基因組測序和轉錄組、蛋白組的數據庫檢索光譜,并將提取的核桃進行液相色譜-質譜(LC-MS/MS)分析,最終在基因組數據庫中確定出10個獨特多肽段,轉錄組數據庫中的識別多肽數量增加了20%,為核桃等堅果物種的蛋白數據庫奠定了基礎。Zaini等對早實、晚實核桃的種皮顏色進行研究,揭示了在采收期中常見蛋白與特異蛋白的321個差異明顯的種皮膜層蛋白,蛋白質組學分析檢測到4937個蛋白,涉及到抗氧化、次級代謝等途徑。 展望 隨著新測序技術的不斷更新,基因組學相關研究實現快速發(fā)展,以高通量測序技術為基礎的各種組學研究廣泛應用于核桃等植物的各個領域。測序技術的成熟加上測序成本的降低,越來越多的果樹物種的基因信息被破解。而果樹的全基因組測序工作仍需繼續(xù)推進,核桃等果樹的功能基因組學研究遠不及水稻、玉米等農作物,主要原因仍為果樹是多年生植物,有性繁殖周期長,建立雜交群體至開花結果得到想要研究的性狀需要很長時間;另外對功能基因的定位與驗證也受到完善的表達體系的限制,除蘋果等國內主栽經濟果樹外,大部分果樹仍需借助模式植物進行驗證。 隨著測序技術的不斷進步,通過測序獲得了越來越多果樹的全基因組序列,同樣在轉錄組、蛋白組、代謝組等生物信息數據也在不斷積累,而建立一種包含基因組、轉錄組、蛋白組等相關數據的綜合性數據庫顯得尤為重要,目前在柑橘屬(Citrus Genome Database,https: //www. Citrusgenom-edb. org/)、梨屬(Pear Genome Project,http: //pear-genome. njau. edu. cn/)已擁有基因組數據庫,通過對綜合數據庫的生信數據進行分析、儲存以及整合,可為果樹基礎研究和應用研究提供可靠數據信息。對核桃的全基因組測序能夠推進核桃的基因組學研究,豐富核酸序列和基因資源,為進一步開發(fā)分子標記、挖掘重要功能基因和解析生長發(fā)育機制等分子生物學研究提供重要基礎和依據,加快核桃分子輔助育種進程。 聲 明:本文摘編自《中國果樹》2022年第2期“核桃基因組學研究進展”(武鵬雨,劉婷婷,包建平,虎海防,馬凱,張銳)。