全景科学 ·

不要总羡慕人工智能专业好,生物狗也可以跨界玩转 AI

4 月 19 日。


上海浦东,博雅酒店。


一场激烈厮杀落下最终句点。



历时 89 天,1,150 位选手,735 种结果,来自北京大学和北京某科技公司的 MDL 团队冲破重围,一举夺魁,「默克」逆合成反应预测大赛落下帷幕。


「默克」逆合成反应预测大赛合照


作为国内鲜有的生命科学与人工智能的跨领域大赛,「默克」逆合成反应预测大赛吸引了各大高校企业的精尖人才,为这两个领域之间的结合打开了一扇窗。


经过层层角逐,最终 6 支团队晋级决赛,路演当天更是热闹非常,大赛邀请了 5 位重量级评委、数十名大众评委和多位媒体老师们亲临现场,见证冠亚季军的诞生。



大赛排名由 5 位重量级评审根据现场路演展示共同商议得出,他们用专业的目光给出了最佳答案。


评审团队


Christina 问小芳

默克生命科学科研与应用解决方案数据分析主管/丰富的跨行业数据分析与项目管理经验/精益六西格玛黑带,PMP

Robin Zou 邹传新

现任默克生命科学数据科学家/华东理工大学上海市新药设计重点实验室,计算机辅助药物设计专业硕士研究生,随后在诺华生物医学研究中心担任药物研发大数据专家多年,有丰富的药物化学和机器学习算法知识与经验,熟知药物研发大数据。

Weina Yang 杨微娜

默克生命科学科研解决方案市场部产品经理。2008 年毕业于英国伦敦大学玛丽皇后学院,曾在英国诺丁汉大学和复旦大学从事博士后研究, 2011 年加入 Sigma-Aldrich 市场部。

Xiangwei Fan 范向伟

2015 年在上海交通大学读研究生之际, 便创立了「和鲸科技」(原「科赛网」), 2017 年获得 AI 领域的专业投资机构线性资本和翊翎资本的联合投资 , 2018 年入选为福布斯「30 Under 30 精英榜」, 比一般创业者步伐更快的他 , 目前已将「和鲸科技」打造为国内领先的数据科学协同创新平台。

Hong-Kai XIONG 熊红凯

上海交通大学特聘教授,电子工程系教授,计算机科学与工程系兼职教授,致远学院副院长。国家杰出青年科学基金获得者,教育部长江学者特聘教授,国家「万人计划」科技创新领军人才,科技部创中青年科技创新领军人才,教育部新世纪优秀人才,上海市优秀学术带头人,上海市曙光学者,上海市青年科技英才,国家宝钢优秀教师奖,上海市技术发明奖一等奖(2 次,均排名第 1)。IEEE 高级会员、IEEE Transactions on CSVT 编委。中国图像与图形学学会理事。



01

直击盛典现场


首先,大赛由默克生命科学中国区董事总经理、科研解决方案中国区副总裁 Steve Vermant 先生进行开场致词。


Mr. Steve Vermant 正在为决赛路演致词


6 组团队分别就各自的作品进行展示。


选手正在展示团队作品


新华社、中新社、上海热线、网易、China Daily、好奇心日报、生物谷、数据商业家等媒体老师们也来到现场,聚焦这场智慧与思维的比拼。


媒体老师们正在现场聆听决赛路演


默克生命科学数据科学家邹传新(Robin Zou)正在点评


默克生命科学数据科学家邹传新(Robin Zou表示:

本次大赛是默克结合自身业务,以开放的姿态与国内顶尖高校、企业的人才共同探索 AI 在化学领域的应用。大赛涌现了很多优秀作品,我们共同见证了 AI 前沿技术在化学合成分析上展现出的巨大潜力,也更加期待 AI + Chemistry 技术能在未来更好地融合。


默克生命科学科研解决方案市场部产品经理杨微娜(Weina Yang表示:


默克生命科学的 Synthia 可以被认为是在模仿人类化学家的思维模式工作,而且这个化学家的脑容量非常大,但目前尚不具备自我学习能力,无法发现新的有机反应。如果可以结合Al的深度自我学习能力,相信未来可以为更多目标分子提供更多的创新型策略。


福利预告——文末还可以马上体验 Synthia 为你的科研带来的便捷!



02

聚焦决战之师


大赛英雄榜

一等奖

MDL 团队

二等奖

DDDC 团队

三等奖

杨 lab 的六学小分队

Fudan-Panacea




 一等奖

MDL 团队


一等奖由来自北京大学「分子设计实验室」和北京望石智慧科技有限公司的 MDL 团队摘得,成员的背景涵盖化学、化学信息学、药物信息学与计算机。


他们的作品基于深度学习模型 DeepRetroReact,直接来预测反应物,并基于反应规则来预测可能的候选反应物,再对生成的反应物进行打分,设计策略选取最佳的反应物组合。团队采用机器翻译的 Transformer 模型作为核心架构,根据 product 和 reagent 为每个反应加上反应类型标签,并加入了 atom 的信息,确保得到的结果在化学形式上更加合理。


MDL 团队表示:


首先要感谢队友进行的模型构建和协作,也非常感谢这次比赛,大赛竞争动力很足,大家也一直在靠团队的力量解决问题,最后还要感谢老师的支持。


用计算去理解生物和化学的世界,会大幅提升研究效率,如今技术的提升更是让我们能够认识化学世界,并对真实行业发展有所改变,也希望有更多和默克一样有实力和社会责任感的公司开展结合学术和工业生产的探索。



二等奖

DDDC 团队


二等奖由来自中国科学院上海药物研究所药物发现与设计中心的 DDDC 团队摘得。团队成员长期致力于探索机器学习与人工智能前沿技术在药物设计方法学及计算机辅助药物设计中的应用。


DDDC 团队使用了图卷积神经网络,将反应条件作为信息引入模型指导逆合成预测,使每个原子的特征编码存有周围环境的信息,之后对每一种反应试剂组合进行了可训练的特征编码,再将原子对中两个原子的特征及反应试剂特征整合在一起,对每一种可能的原子对变化的概率进行预测,进而预测出反应物。


三等奖

杨 lab 的六学小分队


Fudan-Panacea


三等奖杨 lab 的六学小分队团队和 Fudan-Panacea 团队共同摘得。


杨 lab 的六学小分队成员来自中山大学,具备信息技术与科学和生物统计背景;Fudan-Panacea 团队成员来自复旦大学,具备计算机科学与技术和药物化学背景。


杨 lab 的六学小分队的方案首先对数据进行了标准化,转化成 SMILES 格式,再构建字典,得到分子向量;在算法模型方面,他们选择了基于 Attention 的 Encoder - Decoder 模型,增加了 Attention 机制,以期在预测过程中更好地注意到化合物分隔符「.」的存在,得到更多的正确的化合物个数。


Fudan-Panacea 团队设计了基于 Seq2Seq 模型的逆合成反应预测算法,它以 Seq2Seq 模型为基础,结合了数据处理、数据编码以及结果改善等方面的功能创新。该团队也使用了 Attention 机制,增强模型的精度;同时采用原子编码的方式,提高训练速度,并使用 teacher forcing 技术对模型进行训练,有效加速了 Seq2Seq 模型的收敛速度。


··· ···


回溯远古时代,人类便已经开始摸索生命、探索自我。


干细胞治疗、基因组疗法、精准医疗等近年来兴起的新技术,让人类对生命科学的发展有了新的认识,但它与人工智能的结合依然路漫漫。换个角度来说,这也是孕育新机会的沃土。


历时近三个月的比赛结束了,大赛组委会选择这一个难度高且冷门的主题时,从未预料到大家的似火热情,而选手们也交出了这份令人惊喜的答卷,我们有理由相信,人工智能与生命科学的未来将会在你们手中熠熠生辉。


关于 Synthia


在前文中,提到了默克生命科学基于逆合成反应原理的反应路线预测软件 Synthia™,那么这到底是一款怎样的软件呢?


简单来说,这是一款基于目标产物逆推给出较优化合成反应路线的软件,它强大在哪里?


1. 反应数据库庞大:基于文献,科学家整理了 1,000 万个化学物质和反应,70,000 个反应规则; 

2. 简单高效:只需将目标分子输入 Synthia,即可迅速得出反应路线;

3. 结果充实:综合操作难度、化合物结果复杂度、路线合理性进行推荐,得到了基于成本、底物易得性、步骤数等影响因素筛选出的反应路线,帮助科学家迅速预测出合理的反应路径。


文章及图片来源:默克生命科学


▼ 点击「阅读原文」,立即开启全新体验

参与评论