西交利物浦大学科研团队开发了一种可同时预测12种RNA修饰的神经网络模型,该成果于昨天(6月29日)发表于Nature旗下的顶尖学术期刊《自然通讯》。该校应用数学系大四学生宋子韬在孟佳博士指导下独立承担了该项工作的数学建模和深度学习部分,在论文作者中排名第一位。
西浦生物科学系孟佳博士所带领的研究团队近年来专注于RNA修饰领域的研究。RNA修饰指发生在RNA分子上的生物化学修饰,可调控RNA分子特性,与许多疾病特别是癌症的发生发展密切相关。
据介绍,与以往研究相比,本次研究的重要突破在于构建了多标签分类且具有可解释性的深度学习模型与框架,有助于研究人员深入理解RNA的调控机制。
宋子韬解释,目前已知的RNA修饰有100多种,但现有的计算方法大多只能预测单一种类的修饰。“我们开发的多标签深度学习模型,可同时预测12种分布较广的RNA修饰种类,并第一次系统地揭示了不同种类RNA修饰在编码序列上的深度联系,表明不同种类的RNA修饰可能存在密切的协作关系。”
宋子韬 (右二)
同时,该模型还提高了算法的可解释性。“现有预测模型的可解释性较低,主要关注对预测模型进行整体解读。”宋子韬说,“新模型直接对单次预测结果进行解读,直接提示单次预测中最关键的部分基因序列,从而确定可能对单个RNA修饰位点的生成起核心作用的基因片段。对科研人员来说,某一个具体RNA修饰位点的定位过程不再是一个‘黑匣子’。”
孟佳博士(下图)表示,“这项研究有助于我们理解RNA修饰在基因序列层面的生成机制,特别是多种不同种类RNA修饰的协同作用将成为一个重要课题。从长远来看,该工作可能推动精准医疗特别是RNA疗法的研发。”
《自然通讯》是国际顶级科学期刊《自然》(Nature)的子刊,影响因子12。发表于《自然通讯》的论文有四位共同第一作者,除宋子韬外,包括西浦理学院的博士生黄戴赟、宋博文及博士毕业生、现为福建医科大学教授陈鲲淇。孟佳博士与黄戴赟为该论文的共同通讯作者。
作为团队唯一的本科生,宋子韬运用数学专业知识,加入到这个生物学研究的项目中来。他说,“如今交叉学科兴起,不同学科之间的界限正在模糊。随着大量规范生物数据的积累,很多重要的生物问题实际上都需要依赖数学方法来解决。生物、医学、数学、计算机等学科交叉的趋势日渐明显,这一领域大有可为。”
在研究过程中,宋子韬通过阅读文献和自学网课,补充学习了大量关于本次课题核心——“深度学习”的内容。谈到本科生做科研,他认为,“坚持”是推进科研的关键。
“很多一开始对项目抱有热情的本科生,在进组两三个月见不到突破时,会选择退出项目。做科研,停滞是常见的,你需要有耐心,坚持输入(阅读文献)和输出(实验)的结合;坚持下去,突破可能自然就来了。”目前宋子韬已收到美国杜克大学等全球多所知名高校的研究生录取通知。
(来源:江苏广电融媒体新闻中心/姜坚 吴红鲸 通讯员/陆雪辰 陈雅迪 编辑/高若婷)