Basecamp Research發(fā)布Trillion Gene Atlas(萬億基因圖譜),規(guī)模化推動(dòng)AI設(shè)計(jì)藥物研發(fā)
- 該圖譜將通過在全球數(shù)千個(gè)點(diǎn)位采集超過1億個(gè)新物種的全新基因組數(shù)據(jù),將已知進(jìn)化遺傳多樣性擴(kuò)大100倍。
- 通過與Anthropic、Ultima Genomics和PacBio合作,并借助NVIDIA AI基礎(chǔ)設(shè)施的支持,Basecamp Research計(jì)劃將原本需要20多年的生物數(shù)據(jù)收集與分析工作壓縮至兩年內(nèi)完成。
- 對(duì)EDEN模型的訓(xùn)練揭示了新的擴(kuò)展定律:隨著生物數(shù)據(jù)集規(guī)模擴(kuò)大、信息愈加豐富,AI能力將實(shí)現(xiàn)跨越式提升,為構(gòu)建能夠針對(duì)不同疾病和治療類型設(shè)計(jì)新型藥物的系統(tǒng)打開了大門。
得克薩斯州奧斯汀與加利福尼亞州圣何塞2026年3月20日 /美通社/ -- 前沿生物設(shè)計(jì)AI實(shí)驗(yàn)室Basecamp Research今日宣布啟動(dòng)Trillion Gene Atlas(萬億基因圖譜),這是一項(xiàng)里程碑式科研計(jì)劃,旨在實(shí)現(xiàn)萬億級(jí)基因規(guī)模的生物數(shù)據(jù)生成與建模。 Trillion Gene Atlas與Anthropic、Ultima Genomics和PacBio合作啟動(dòng),并依托NVIDIA AI基礎(chǔ)設(shè)施,目標(biāo)是通過在全球數(shù)千個(gè)點(diǎn)位采集超過1億個(gè)物種的基因組數(shù)據(jù),將已知進(jìn)化遺傳多樣性擴(kuò)大100倍。
這得益于Basecamp Research不斷擴(kuò)大的全球生物多樣性合作網(wǎng)絡(luò)。 項(xiàng)目的最終目標(biāo)是為AI系統(tǒng)提供海量、多樣化的訓(xùn)練數(shù)據(jù),使其能夠通過學(xué)習(xí)進(jìn)化規(guī)律,按需設(shè)計(jì)新型藥物。
Basecamp Research聯(lián)合創(chuàng)始人兼首席執(zhí)行官Glen Gowers在奧斯汀舉辦的西南偏南(SXSW)大會(huì)上表示:“當(dāng)前的生物AI模型僅基于地球上極小一部分生物樣本數(shù)據(jù)進(jìn)行訓(xùn)練。 Trillion Gene Atlas將已知基因領(lǐng)域的規(guī)模,拓展至遠(yuǎn)超公共數(shù)據(jù)庫數(shù)個(gè)量級(jí)的水平。 這一量級(jí)的訓(xùn)練模型將為可編程治療藥物的設(shè)計(jì)建立新的范式?!?/p>
這個(gè)規(guī)??氨热祟惢蚪M計(jì)劃(Human Genome Project)的項(xiàng)目,在西南偏南大會(huì)健康專場(chǎng)和圣何塞NVIDIA GTC大會(huì)期間正式發(fā)布。
隨著模型體量和算力大幅提升,多樣化數(shù)據(jù)已成為AI藥物開發(fā)和落地應(yīng)用取得突破的關(guān)鍵推動(dòng)因素。 目前所有基于序列的基礎(chǔ)模型,都依賴于同一批公共數(shù)據(jù)庫的不同版本,其中80%的訓(xùn)練數(shù)據(jù)來自一個(gè)序列總量不到2.5億條的公共數(shù)據(jù)庫。
Basecamp Research于今年1月發(fā)布的EDEN基礎(chǔ)模型,完全基于BaseData?專有基因組數(shù)據(jù)庫進(jìn)行訓(xùn)練,成功突破行業(yè)進(jìn)化“數(shù)據(jù)壁壘”。該數(shù)據(jù)庫目前規(guī)模已超過所有公共資源數(shù)據(jù)庫總和的10倍以上。 EDEN模型通過學(xué)習(xí)100萬個(gè)新發(fā)現(xiàn)物種、數(shù)量達(dá)史無前例的100億個(gè)全新科學(xué)基因,為生物領(lǐng)域AI揭示了至關(guān)重要的新型擴(kuò)展定律。
數(shù)據(jù)集多樣性的大幅提升,使EDEN超越了簡單的預(yù)測(cè)范疇,成為全球首個(gè)能夠直接根據(jù)疾病需求設(shè)計(jì)多樣化治療藥物的模型。 在濕實(shí)驗(yàn)室驗(yàn)證中,EDEN無需任何人體或臨床數(shù)據(jù),即可在人類原代T細(xì)胞中實(shí)現(xiàn)零樣本活性檢測(cè)。 該模型已在多種前沿治療模態(tài)中產(chǎn)生有效成果,尤其開創(chuàng)性推出AI可編程基因插入(aiPGI)技術(shù)來植入健康基因,并設(shè)計(jì)出靶向抗菌肽,針對(duì)重點(diǎn)病原體的有效命中率達(dá)97%。
Trillion Gene Atlas正是基于這一技術(shù)路徑,大幅拓展了適用于AI訓(xùn)練的已知“生物互聯(lián)網(wǎng)”中基因組數(shù)據(jù)廣度與場(chǎng)景深度。
Basecamp Research首席技術(shù)官Phil Lorenz補(bǔ)充道:“僅靠更大的模型是不夠的。 EDEN模型已證明,更高質(zhì)量、全場(chǎng)景化的數(shù)據(jù),能讓生物學(xué)領(lǐng)域的AI性能呈現(xiàn)更陡峭的提升曲線。 Trillion Gene Atlas將這一效應(yīng)再放大100倍?!?/p>
過去六年間,Basecamp Research已在31個(gè)國家/地區(qū)建立了科研合作網(wǎng)絡(luò),構(gòu)建了一個(gè)專為AI訓(xùn)練設(shè)計(jì)、可擴(kuò)展的進(jìn)化基因組學(xué)研究體系。 公司創(chuàng)新融合新的監(jiān)管與經(jīng)濟(jì)合作框架,采用完全離網(wǎng)的DNA測(cè)序技術(shù),從傳統(tǒng)實(shí)驗(yàn)室無法觸及的生態(tài)系統(tǒng)中采集高質(zhì)量的基因組數(shù)據(jù)。
此類合作以知識(shí)交流、本土科研能力建設(shè)為基礎(chǔ),同時(shí)遵循新興數(shù)字序列信息監(jiān)管法規(guī),簽訂公平的獲取與利益共享協(xié)議。 該框架能夠?qū)崿F(xiàn)負(fù)責(zé)任、大規(guī)模、高質(zhì)量的基因組數(shù)據(jù)采集,也為合作地區(qū)投入科研基礎(chǔ)設(shè)施建設(shè)與人才培養(yǎng)。
作為圖譜發(fā)布的一部分,Basecamp宣布在智利、阿根廷達(dá)成新的合作伙伴關(guān)系,并拓展南極洲的協(xié)作,進(jìn)一步擴(kuò)大其全球生物多樣性網(wǎng)絡(luò)。
Trillion Gene Atlas的實(shí)現(xiàn)得益于超高通量短讀長和長讀長測(cè)序技術(shù)以及加速計(jì)算的進(jìn)步。 Basecamp已與Ultima Genomics和PacBio達(dá)成合作,實(shí)現(xiàn)工業(yè)化規(guī)模的測(cè)序,涵蓋數(shù)據(jù)豐富、高精度的長讀長測(cè)序。
Ultima是超高通量下一代測(cè)序(NGS)系統(tǒng)開發(fā)商。 Ultima最新測(cè)序系統(tǒng)UG200系列升級(jí)了獨(dú)有的晶圓基測(cè)序架構(gòu),能夠以低成本實(shí)現(xiàn)工業(yè)化規(guī)模的高通量、全基因組及多組學(xué)測(cè)序,為Trillion Gene Atlas等項(xiàng)目的開展提供了支撐。
Ultima Genomics創(chuàng)始人兼首席執(zhí)行官Gilad Almogy表示:“與語言或計(jì)算機(jī)視覺等其他領(lǐng)域相比,生物學(xué)領(lǐng)域長期以來一直面臨數(shù)據(jù)匱乏的問題,因?yàn)檠芯咳藛T缺乏大規(guī)模生成數(shù)據(jù)的工具。 我們堅(jiān)信,AI將對(duì)人類對(duì)生物學(xué)與健康的認(rèn)知產(chǎn)生深遠(yuǎn)影響。UG200系列從設(shè)計(jì)之初就旨在提供生物AI(BioAI)所需的海量數(shù)據(jù)集,以實(shí)現(xiàn)這一宏偉愿景。 很高興我們的技術(shù)能夠支持Basecamp實(shí)現(xiàn)其愿景,并推動(dòng)像Trillion Gene Atlas這樣的創(chuàng)新項(xiàng)目。”
PacBio總裁兼首席執(zhí)行官Christian Henry表示:“PacBio的HiFi測(cè)序技術(shù)可提供高精度的長讀長數(shù)據(jù),保留完整的基因組上下文信息,并能在復(fù)雜樣本中實(shí)現(xiàn)亞種甚至菌株級(jí)的分辨率解析。 高保真數(shù)據(jù)為生物AI模型提供了可靠、信息豐富的基礎(chǔ),使其能夠大規(guī)模地向自然學(xué)習(xí),支撐Trillion Gene Atlas之類的項(xiàng)目推進(jìn)?!?/p>
Trillion Gene Atlas將借助NVIDIA的加速計(jì)算基礎(chǔ)設(shè)施,處理拍字節(jié)級(jí)規(guī)模的海量基因數(shù)據(jù)。 作為這項(xiàng)工作的一部分,Basecamp計(jì)劃利用NVIDIA Parabricks工具,大幅加速宏基因組組裝。 此次合作聚焦于先進(jìn)工程技術(shù)與新型算法策略的研發(fā),優(yōu)化復(fù)雜環(huán)境樣本的重構(gòu)方式。 得益于這種加速,原本需要20多年完成的千萬億級(jí)DNA堿基對(duì)處理工作,預(yù)計(jì)可在不到兩年的時(shí)間內(nèi)完成。
通過并行數(shù)據(jù)處理、自動(dòng)標(biāo)注和大規(guī)模模型訓(xùn)練,合作伙伴期望將原本需要20多年處理時(shí)間的任務(wù)壓縮到兩年以內(nèi)。 這種對(duì)測(cè)序、組裝、標(biāo)注和模型訓(xùn)練的效率升級(jí),旨在擴(kuò)展生物基礎(chǔ)模型在治療藥物研發(fā)領(lǐng)域的性能與應(yīng)用范圍。
Anthropic參與此次合作,是其拓展生命科學(xué)領(lǐng)域能力、將Claude接入更多科研平臺(tái)的重要布局。 通過與Claude for Life Sciences團(tuán)隊(duì)合作,目標(biāo)是利用Trillion Gene Atlas和EDEN,進(jìn)一步提升Claude的科研協(xié)作能力,為科學(xué)家與臨床醫(yī)生提供更高效支持,助力科研機(jī)構(gòu)向公眾落地前沿成果。
通過結(jié)合Claude的高級(jí)推理能力、EDEN的療法設(shè)計(jì)能力,以及NVIDIA CUDA-X Libraries來處理非結(jié)構(gòu)化數(shù)據(jù),該項(xiàng)目旨在創(chuàng)建一個(gè)集成工作流,用于解釋復(fù)雜的臨床數(shù)據(jù),并將其直接轉(zhuǎn)化為治療藥物設(shè)計(jì)。
Trillion Gene Atlas建立在三大支柱之上:大規(guī)模DNA測(cè)序、全球數(shù)據(jù)供應(yīng)合作以及先進(jìn)計(jì)算技術(shù)。 結(jié)合能夠推理復(fù)雜數(shù)據(jù)的AI系統(tǒng),這些基礎(chǔ)有助于將龐大的數(shù)據(jù)集轉(zhuǎn)化為治療藥物研發(fā)成果。 通過將可供AI使用的進(jìn)化數(shù)據(jù)再增加100倍,Basecamp Research致力于實(shí)現(xiàn)更高效、更系統(tǒng)化的藥物設(shè)計(jì),延續(xù) EDEN模型在基因治療和抗擊耐藥細(xì)菌等領(lǐng)域取得的前期進(jìn)展。
[美通社]
【免責(zé)聲明】本文僅代表作者個(gè)人觀點(diǎn),與云財(cái)經(jīng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),云財(cái)經(jīng)對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
| 新聞標(biāo)題 | 時(shí)間 | 消息來源 | 新聞熱度 |
|---|---|---|---|
| 首鋼與中國一汽成功合作研發(fā)2.4GPa級(jí)超高強(qiáng)度熱成形鋼 | 03-22 09:49 | 云財(cái)經(jīng) |
|
| 伊朗德黑蘭防空系統(tǒng)啟動(dòng)攔截來襲目標(biāo) | 03-22 02:35 | 云財(cái)經(jīng) |
|
| 香港引進(jìn)102家重點(diǎn)企業(yè) 逾40家布局人工智能 | 03-21 22:13 | 云財(cái)經(jīng) |
|
| 芝加哥大豆期貨本周跌約5.3%,小麥累跌超2.9% | 03-21 03:22 | 云財(cái)經(jīng) |
|
| 伊朗稱能持續(xù)生產(chǎn)導(dǎo)彈 | 03-20 13:50 | 云財(cái)經(jīng) |
|
| 植綠向新,智行未來:佳通輪胎以綠色科技賦能新能源汽車時(shí)代 | 03-20 11:23 | 商業(yè)新聞 |
|