2025年中國高校國際青年學(xué)者論壇
首頁 > 科研動態(tài)
關(guān)注我們
學(xué)術(shù)橋-訂閱號
學(xué)術(shù)橋-小程序
科研人員通過反應(yīng)描述語言連接化學(xué)與人工智能

  近日,中國科學(xué)院上海藥物研究所鄭明月團(tuán)隊報道了名為ReactSeq反應(yīng)描述語言。該語言可以編碼化學(xué)反應(yīng)中的分子編輯操作,使自然語言處理模型在逆合成預(yù)測、反應(yīng)表征和檢索方面表現(xiàn)得更為出色。

  以大語言模型為代表的人工智能技術(shù)在自然語言處理方面取得了進(jìn)展,影響了科學(xué)研究范式。在生命科學(xué)領(lǐng)域,語言模型現(xiàn)已被用于在蛋白質(zhì)和基因序列中挖掘隱藏信息,并取得了成果。在化學(xué)與藥物研發(fā)領(lǐng)域,處理化學(xué)分子與反應(yīng)的化學(xué)語言模型(CLMs)也逐漸興起。與自然語言、蛋白質(zhì)和基因不同,化學(xué)分子缺乏固有的順序表示。CLM利用化學(xué)家定義的分子線性注釋來學(xué)習(xí)和生成分子結(jié)構(gòu)。常用的分子線性注釋是簡化分子輸入線輸入系統(tǒng)(SMILES)。

  近年來,為提升CLMs在特定任務(wù)中的表現(xiàn),有研究設(shè)計了一些新的分子線性注釋。然而,這些語言都是為了描述化學(xué)分子的靜態(tài)結(jié)構(gòu),無法明確描述化學(xué)反應(yīng)過程中分子中原子和鍵的變化過程。這限制了語言模型在化學(xué)反應(yīng)預(yù)測和表示中的應(yīng)用。目前用于化學(xué)反應(yīng)預(yù)測的語言模型包括正向和反向合成預(yù)測,通常直接將產(chǎn)物和反應(yīng)物的線性表示相互轉(zhuǎn)換,但在可解釋性與交互性方面存在不足。此外,盡管預(yù)訓(xùn)練語言模型在多種序列數(shù)據(jù)的表示學(xué)習(xí)方面表現(xiàn)出色,但其在化學(xué)反應(yīng)表示方面的進(jìn)展相對有限。

  受逆合成分析過程的啟發(fā),ReactSeq定義了從產(chǎn)物結(jié)構(gòu)出發(fā)并將其轉(zhuǎn)化為反應(yīng)物分子所需的一系列分子編輯操作(MEO)。這些MEO包括化學(xué)鍵的斷裂和變化、原子電荷的改變以及離去基團(tuán)的附著。在基于ReactSeq的逆合成模型中,反應(yīng)物不是從頭開始逐個生成。相反地,它是通過這些MEO從產(chǎn)物分子轉(zhuǎn)化而來。這確保了預(yù)測反應(yīng)物和產(chǎn)物之間的精確原子映射,增強(qiáng)了模型的可解釋性。研究顯示,利用ReactSeq,只需要簡單的Transformer模型便能在逆合成預(yù)測中實現(xiàn)先進(jìn)的性能。

  ReactSeq具有表示MEO的顯式令牌,可對人類指令進(jìn)行編碼。結(jié)果表明,人類專家的提示可提高模型性能,甚至指導(dǎo)它探索新的反應(yīng)。同時,這些MEO令牌利于提取反應(yīng)表示。與聚合整個ReactSeq的嵌入相比,專注于這些MEO令牌的嵌入可以產(chǎn)生更加忠實且具有內(nèi)在化學(xué)意義的反應(yīng)表示。基于這一策略并結(jié)合自監(jiān)督學(xué)習(xí),研究人員構(gòu)建了通用且可靠的反應(yīng)表示方法。該方法能夠自然區(qū)分反應(yīng)類型并評估其相似性,從而促進(jìn)相似反應(yīng)的檢索、實驗流程的推薦及反應(yīng)收率的預(yù)測。

  該研究通過創(chuàng)新的化學(xué)語言設(shè)計,為垂直領(lǐng)域的大語言模型賦予了新能力。同時,這一成果提升了自然語言處理模型應(yīng)對復(fù)雜化學(xué)問題的能力,為化學(xué)人工智能基礎(chǔ)模型的發(fā)展提供了新方向。

  5月13日,相關(guān)研究成果在線發(fā)表在《自然-機(jī)器智能》(Nature Machine Intelligence)上。研究工作得到國家自然科學(xué)基金、國家重點研發(fā)計劃、中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項等的支持。

延伸閱讀
特別聲明:本文轉(zhuǎn)載僅僅是出于傳播信息的需要,并不意味著代表本網(wǎng)站觀點或證實其內(nèi)容的真實性。
如果作者不希望被轉(zhuǎn)載,請與我們聯(lián)系。
掃碼關(guān)注學(xué)術(shù)橋
關(guān)注人才和科研