曙光携手复旦大学,共筑国际“表型组研究平台”!

2021/10/12 16:39:00 阅读量:

谁能想到,一条不起眼的耳垂折痕,可能与冠心病发病的概率相关,因为它们关联着同一个基因。

在人类表型组研究中,医生可以通过观察外观表型,来判断患者罹患冠心病的风险。可以说,人类表型组研究是“后基因时代”的战略制高点,如果这条线被研究透彻,从微观到宏观的各个维度表型之间的关系都能一览无遗,届时,或许人类健康之谜就能被彻底解决。

近日,复旦大学携手曙光共同建设的国际人类表型组学研究平台(以下简称:研究平台),通过对人类表型组在物理、化学和生物层面进行跨尺度多维度研究,满足人类表型组数据的存储、共享和应用,形成服务全国的生物医学大数据研究与应用设施。

表型数据与信息技术 共筑“生命健康密码”

人类表型组的研究需要信息技术提供强有力的计算工具,借助先进的IT技术解决方案,完成海量实验数据的存储、读取与挖掘处理。同时,信息技术还有助于加强表型数据库的数据管理、信息传递、检索和资源共享等。

作为跨尺度多维度人类表型组研究平台,这里设有人体成像与测量、睡眠与生物电、人体能量代谢舱等多个测量实验室,可检测约2万个表型词条,比如分子蛋白质组、分子代谢组、细胞表型、语音表型等等。这些人类表型组相关数据将用于探索基因、人体特征与疾病健康之间的关系,为疾病预防与干预提供关键线索与指引,解读人类生命密码所需的关键信息。

同时,研究平台以海量表型数据资源的高等级安全保存为核心,实现数据资源的汇聚、管理、共享和挖掘,形成我国人群健康表型组标准化技术体系,构建中国健康人群表型图谱及数据库。

高效存储共享与应用 提高组学科研质量

人类表型组项目涉及的主要应用为基因测序、序列拼接软件如SOAP2,BWA,BWASW 、Bowtie/Bowtie 2SHARCGS等,在计算时会产生海量的中间数据。存储系统性能的好坏对计算效率将产生很大影响。因此,在人类表型组项目中,一方面要保证存储系统的高读写性能;另一方面,要减少序列拼接程序运行时对存储系统的影响。

针对生物基因领域测序产生海量小文件的情况,曙光分布式存储系统ParaStor通过Scale-Out横向扩展、IB+RDMA高速互联、内核态POSIX协议、智能SSD Cache及小文件聚合等技术,消除传统的Scale-up纵向扩展存储架构的性能局限性,有效解决生物基因应用中对海量大文件存储场景高聚合带宽、小文件存储场景高IOPS的存储需求。

ParaStor可通过性能与容量的线性增长,满足对存储系统数据处理能力和扩展性的要求。此外,针对业务系统对可靠性、稳定性的需求,ParaStor分布式存储系统通过多种技术手段,从物理底层到逻辑层全方位保证存储系统高可靠性和高可用性。丰富的协议接口,多类型数据融合存储,可以保证多业务共享。

在复旦大学国际人类表型组学研究平台项目中,ParaStor大幅度提高海量人类表型组数据的存储、共享和应用效率,在提升我国组学数据质量意识、引领国际标准研发、推动我国生物医学领域原创研究的过程中起到了重要的作用。

取消 发评论

发送

登录帐号,方可评论