巅峰之战 一马当先:AI4Life团队荣获第三届“先导杯”计算应用大奖赛AI for Science赛道全国三等奖

 

巅峰之战 一马当先:

AI4Life团队荣获第三届“先导杯”计算应用大奖赛AI for Science赛道全国三等奖

日前,第三届先导杯计算应用大奖赛的全国总决赛落下帷幕。本届先导杯由企业、产业联盟、高校共创,形成了“产学研用”一体化的合作方式,吸引了国内外近千名选手积极报名,参赛队伍从学生群体、科研人员,扩展到金融、半导体、通信等更多领域。来自中科院、北京大学、清华大学、复旦大学等机构的48支团队参与到总决赛中,竞争7个赛道的奖项。

 

 

在本届比赛中,由来自中科院上海营养与健康研究所的李杰夫、周翰文和胡玥以及来自中科苏州智能计算技术研究院的姚睿捷共同组成的AI4Life团队,获得了AI for Science赛道全国三等奖。

 

团队风采:李杰夫,周翰文,姚睿捷,胡玥 (从左到右)

AI4Life团队参赛项目为利用无监督学习方法探索癌症发生的分子机理,

大赛最终结果公布在:https://cas-pra.sugon.com/sugon/newsugon/index5.html

 

以癌症为代表的复杂疾病是对人类健康的主要威胁。复杂疾病具有潜在患者庞大,机制不明确,缺乏根治的干预手段等诸多特点,且目前已经呈现出发病年轻化的趋势,是目前生物医学领域的重点问题。基因测序技术可以为复杂疾病提供分子层面的信息,但是面临数据规模增长过快,现有计算体系难以处理的瓶颈,同时由于生物体系内在的复杂性,需要利用无监督学习系统建立不依赖人类已有知识的新的分子规律发现模式。

AI4Life团队提出了探索复杂疾病分子机理的通用无监督学习器DAO(Deep AutOencoder Clustering),模型基于量子变分自编码器(Vector Quantised - Variational AutoEncoder),在本项目中探索泛癌样本集合内数据的结构性差异,提出了基于RNA特征的潜在泛癌分类系统,并基于真实数据验证了其中的关键发现。

 

DAO结构示意图

AI4Life团队在异构超算机群上实现了面向海量人群测序样本的复杂疾病自主学习系统,硬件系统基于曙光超算平台和海光DCU,深度学习框架采用百度PaddlePaddle,实现了多机多卡的分布式学习,大幅提升了数据整合的效率和能效,单日内可以完成数万样本的整合理解。

该系统目前主要以国内外公开的癌症患者转录组数据集为研究对象,基于并行计算框架重新对样本进行统一的数据质控和计算标注,构建了包含目前已知所有癌症类型的泛癌整合RNA数据集。该数据集合涵盖了人体内所有基因和超过10万种基因选择性加工的特征,为从分子层面探索癌症的形成机理和精准分型提供了基础。

本项目构建的分析系统可以在单日内完成目前人类90%以上的公开癌症数据集合的整合理解分析,日后随着数据的持续积累,该系统可以实现自我更新、持续学习,将发现更多对精准医学具有应用价值的分子特征,并将规律发现和分子分型的对象由泛癌拓展到包括糖尿病、心血管疾病、痛风等其他复杂疾病。

 

 

浏览量:0
收藏