GBE | 徐書華團隊發布遺傳祖源分析可視化工具AncestryPainter 2.0

發布時間:2024-11-25瀏覽次數:10

20241115日,基因組與進化生物學領域專業期刊Genome Biology and Evolution在線發表万博英超狼队网官方网 徐書華團隊開發的群體遺傳學祖源分析與可視化工具AncestryPainter 2.0,題為“AncestryPainter 2.0: Visualizing Ancestry Composition and Admixture History Graph。這項研究以團隊先前發布的AncestryPainter 1.0為基礎,拓展了繪圖軟件的多項功能,並增加了分析模塊,分別用於整合祖源成分矩陣和推測祖源引入人群基因庫的時序。AncestryPainter 2.0為群體遺傳學中祖源分析結果展示和進一步解析提供了便利。

在以計算分析為主要手段的群體遺傳學研究中,對數據降維和潛藏信息提取後的可視化是一個關鍵的任務和手段;尤其在祖源解析研究中,如何以準確、簡潔、優美的方式呈現群體和個體的祖源構成對於理解人群遺傳結構和個體遺傳背景至關重要。傳統的方法是排列等長的條形表示個體或群體,並以條形內部的色塊來表示各個祖源成分的比例。然而,近些年的群體遺傳學和基因組學步入大人群、大數據時代,越來越多的研究涉及大量群體或個體時,傳統可視化排版布局方式由於擠占頁麵大量空間,無法充分展現研究結果,因而難以滿足日益迫切的需求。研究團隊前期開發了基於PerlR語言的作圖工具AncestryPainter 1.0,很大程度上改善了傳統方式的可視化問題。雖然AncestryPainter 1.0發布後受到了用戶歡迎和廣泛使用,但是用戶也反饋了其局限性,其中幾個因素限製了AncestryPainter 1.0的友好度以及在更大範圍的應用:(1)生成的圖像布局單一,缺乏對圖形的美化功能;(2)以Perl代碼接收作圖像編碼數據和輸入的參數,但以R代碼生成圖像文件,這種方式增加了用戶排查輸入數據錯誤及調整輸出結果的困難;(3)缺少與作圖模塊相匹配的統計模塊限製了對分析結果進一步處理的餘地。

為了滿足用戶的需求,團隊改進了AncestryPainter 1.0,拓展了繪圖軟件的多項功能,並增加了分析模塊,分別用於整合祖源成分矩陣和推測祖源引入人群基因庫的時序,最終升級為AncestryPainter 2.0。新版本全部由R語言編寫,在保留原有大部分特性的基礎上又增加了許多新特性。在版本1.0中,用戶隻能在環形扇區中央設置單一扇形圖展現目標人群祖源結構,而版本2.0允許設置多個這樣的扇形圖,並可以由用戶自行設計排布位置。除了扇形圖,版本2.0還增加了輻射圖(radiationplot)用以展示和比較目標人群與多個參考人群之間的遺傳距離。另外,用戶在繪製這兩種統計圖時均可以調整圖形顏色、尺寸,以及注釋文字字號、字體等特征,並加入圖例。

A) Human Origins數據集中隨機選取的100個人群的祖源結構(祖源數目設定為8),用“扇形圖”繪製。圖片中心的三個餅狀圖顯示了三個目標人群(XuunFrench Dai)的祖源結構。 BHuman Origins數據集中土家族與隨機選取的 14 個東亞和東南亞人群的遺傳距離,用“輻射圖”繪製。徑向圍繞圖片核心的條形長度表示遺傳距離。

在作圖模塊之外,作者又嵌入了兩個統計模塊。第一個統計模塊用於整合基於相同群體樣本且具有相同祖源個數的祖源成分矩陣。在使用ADMIXTURE等軟件推算群體的各個祖源比例時,即使指定了單一的祖源數目,由於隨機數改變等原因,軟件生成的祖源成分矩陣也可能有所差異。該模塊通過比較不同祖源矩陣中各個祖源成分的相關性,識別出同一祖源,並取該祖源在各個矩陣中比例的算術平均數作為整合矩陣中的祖源比例,從而得到更加準確的祖源比例估計結果。第二個統計模塊采用一個名為混合人群圖(admixture history graphAHG)的指標來推測混合群體中不同祖源混入的時序。AHGPugach等人在2016年首次提出,代表著不同祖源成分組合之間的相關性。通過比較不同祖源組合的AHG數值,即可判斷其混入的順序。具體計算過程中,Pugach等人使用協方差(covariance)來衡量相關性(“cov”)。後續有不同研究者對Pugach等人的AHG指標進行了優化:徐書華團隊使用皮爾遜關聯係數(Pearson correlation efficient)代替了協方差(“cor”),而Oliveira等則在計算協方差之前先將原始數據進行對數轉換(“cov_log”)。AncestryPainter 2.0回顧並總結了此前的研究中使用幾種AHG指標,並在此基礎上提出了三種新的優化方式(“mean_cor”“mean_cov”“cor_log”)。

AncestryPainter 2.0使用了模擬數據和真實數據驗證六種AHG指標的有效性。首先,根據團隊此前對於中國西北混合人群的研究,構建了三種不同的人群融合模型(1)“(AB)C”,指祖源AB先融合,再融入C;(2)“(AB)(CD)”,指祖源AB混合,CD混合,隨後兩個複合祖源融合;(3)“((AB)C)D”,指祖源BCD依次融入祖源A。作者使用AdmixSim2生成相應的模擬數據,檢測了不同初始混入比例下六種AHG指標推測祖源混合順序結果的準確性。隨後,團隊以此前Gouveia等人對非裔美洲人群起源的研究結論作為基準(Ground truth),用ADMIXTURE推算了千人基因組計劃(1000 Genomes Project)中兩個混合人群ASWAfrican Americans in Southwest United States,美國西南部非裔人群)和ACBAfrican Caribbeans in Barbados,巴巴多斯的非裔加勒比人群)基因組中各個非洲祖源和歐洲祖源的比例,並使用六個AHG指標分別推測這兩個人群中兩個非洲祖源和單個歐洲祖源的混入順序。通過比較六種AHG指標對模擬人群和真實人群祖源推測結果的準確性,團隊最終確定了指標“cor_log”為最優,並將其嵌入AncestryPainter 2.0

A) 真實數據集的 ADMIXTURE 結果 (祖源個數設定為5),用 AncestryPainter 2.0 中的“sectorplot”函數繪製; B) 使用 AHG 推斷真實人群的混合順序。拓撲結構“(A,B),C”表示祖源A與祖源B混合,然後祖源C加入已經混合的祖源。每個拓撲結構的支持數量由漸變色(高:藍色;低:白色)表示。縮寫:AFR_W - 西非血統,AFR_C - 西非/中非血統,AFR_E - 東非血統,AFR_S - 南部非洲血統,EUR - 歐洲血統。

上海科技大學万博体育分 碩士研究生陳雙慧和万博英超狼队网官方网 碩士研究生雷暢為該論文共同第一作者,万博英超狼队网官方网 /人類表型組研究院/附屬中山醫院徐書華教授為通訊作者,万博英超狼队网官方网 碩士研究生趙曉涵、上海營養與健康研究所畢業生潘雨聞博士及魯東勝博士對本文亦有特別貢獻。該項工作獲得了國家重點研發計劃、國家自然科學基金、上海市科委項目和全球夥伴關係辦公室重點項目發展基金等多項基金的資助。該項工作的計算任務得到了狗万外围充值 CFFF智能計算平台支持。

論文鏈接:https://academic.oup.com/gbe/advance-article/doi/10.1093/gbe/evae249/7900898

軟件鏈接1https://github.com/Shuhua-Group/AncestryPainterV2

軟件鏈接2https://pog.fudan.edu.cn/#/Software



Baidu
map