浙大推出“女媧”AI模型!破解基因組密碼 全球領(lǐng)先
時(shí)間:2025-07-12 09:40:28 出處:熱點(diǎn)閱讀(143)
快科技7月9日消息,女媧浙江大學(xué)郭國驥教授團(tuán)隊(duì)在《細(xì)胞》雜志發(fā)表重要成果。浙大組密
他們開發(fā)多任務(wù)深度學(xué)習(xí)模型女媧CE(NvwaCE),推出實(shí)現(xiàn)從基因組序列到單細(xì)胞水平調(diào)控序列圖譜的模型碼全直接預(yù)測(cè),在基因組AI領(lǐng)域取得重大突破。破解
基因組由DNA構(gòu)成,基因包含編碼蛋白質(zhì)的球領(lǐng)序列及大量調(diào)控序列,二者共同決定生物體的女媧復(fù)雜特征。自2003年人類基因組計(jì)劃繪制出基因圖譜后,浙大組密對(duì)其中遺傳信息的推出破譯卻不足10%。
AI的模型碼全出現(xiàn)為解讀基因序列提供了新途徑,但基因組AI模型受數(shù)據(jù)質(zhì)量制約。破解
郭國驥團(tuán)隊(duì)基于自主研發(fā)的基因超高通量超靈敏單核ATAC測(cè)序技術(shù)(UUATAC-seq),為基因組AI模型訓(xùn)練打造了高質(zhì)量“教材”。球領(lǐng)
通過學(xué)習(xí)UUATAC-seq產(chǎn)生的女媧高質(zhì)量數(shù)據(jù),該模型掌握了脊椎動(dòng)物調(diào)控序列編碼規(guī)則,可基于一維DNA序列預(yù)測(cè)單細(xì)胞中的染色質(zhì)可及性水平,且具備高泛化能力,能預(yù)測(cè)未經(jīng)訓(xùn)練物種的染色質(zhì)可及性圖譜,其對(duì)人類調(diào)控元件可及性的預(yù)測(cè)與實(shí)驗(yàn)測(cè)量相關(guān)性良好。
在實(shí)際應(yīng)用中,“女媧CE”表現(xiàn)出色,超越現(xiàn)有基因組AI模型,可精準(zhǔn)預(yù)測(cè)合成突變對(duì)譜系特異性調(diào)控序列功能的影響,還能結(jié)合疾病表型設(shè)計(jì)治療位點(diǎn)。
團(tuán)隊(duì)通過基因編輯實(shí)驗(yàn),驗(yàn)證了“女媧CE”預(yù)測(cè)的鐮刀型貧血癥治療性基因位點(diǎn)HBG1-68:A>G,經(jīng)基因治療后胎兒血紅蛋白表達(dá)量顯著提升,這是世界首例由人工智能設(shè)計(jì)的人類疾病治療位點(diǎn)。
相比國外同類模型,“女媧CE”基于高質(zhì)量單細(xì)胞圖譜數(shù)據(jù),對(duì)幾乎所有細(xì)胞類型實(shí)現(xiàn)了AUROC>0.90的預(yù)測(cè)準(zhǔn)確率。
未來,“女媧CE”將在生命科學(xué)、醫(yī)學(xué)和農(nóng)學(xué)等領(lǐng)域發(fā)揮重要作用,助力全面解讀基因組語言、建立數(shù)字生命模型。
【本文結(jié)束】如需轉(zhuǎn)載請(qǐng)務(wù)必注明出處:快科技
責(zé)任編輯:隨心
女媧浙江大學(xué) 新浪科技公眾號(hào)“掌”握科技鮮聞 (微信搜索techsina或掃描左側(cè)二維碼關(guān)注)
相關(guān)新聞