总体介绍
总体介绍
作者:Jane Meng   文章来源:原创   更新时间:2012-04-18 16:36:06

数据密集型应用服务介绍

  当代信息技术的发展推动了数据的产生、收集、共享与分析,使得科学与工程研究日益成为数据密集型的工作。特别是在先进的信息技术支持下,数据资源与科研应用紧密结合,数据密集型应用发展迅速,成为了产生新的研究成果和科技创新的途径。数据密集型应用与计算密集型应用是存在区别的,传统的计算密集型应用往往通过并行计算方式在紧耦合的超级计算机上运行少量计算作业,即一个计算作业同时占用大量计算机节点;而数据密集型应用的特点主要是:
  1.         大量独立的数据分析处理作业可以分布在松耦合的计算机集群系统的不同节点上运行;
  2.         高度密集的海量数据I/O吞吐需求;
  3.         大部分数据密集型应用都有个数据流驱动的流程。
  所以如何实现数据密集型流程,并且能在高性价比的以服务器机群为主的数据处理环境实现海量数据处理的柔性可扩展是我们面临的主要问题。为此我们紧密结合科研应用的需求,依托海量存储和处理环境,提出了面向数据驱动的柔性可扩展的海量数据处理平台——pSpace。pSpace目标是构建数据访问、处理、分析与可视化于一体的流程化定制开放平台,实现数据资源的高效访问、算法模型的开放共享、数据处理的及时有效。主要内容包括:
  1.         模型的集成、管理和共享中间件。目前在科研领域有很多各具特色的模型描述语言如(R、Perl等),为此我们抽象出一套模型描述方法与机制,既包容现有常用的一些脚本语言,又能考虑未来可扩展性,实现不同脚本语言模型的集成。同时实现模型的提交共享、方便调用和二次开发提供良好的接口。
  2.         科学工作流管理和定制平台。随着科研信息化的深入,越来越多的科研机构和科研人员发现分享数据和计算资源带来的好处,但是目前科学家把大量时间花费在科研业务流程的定制、组合、部署、执行和监控上。所以屏蔽这些实现细节,将科研人员的注意力转向具体的科学问题研究上,并提高科学计算问题的求解效率是目前面临的主要问题。为此构建一套透明、松散耦合、带语义功能的科学工作流中间件,为科学家的海量数据的分析和处理提供良好的接口,让他们更专注研究和充分利用不断进步的软硬件资源上。在此基础上,实现整个流程和数据的回溯(Provenance)
  3.         海量数据处理中间件。研究分布的、异构的海量数据存储资源和计算资源的分配、调度和管理等关键技术;为科学家提供更为简便的编程模型,通过该编程模型实现的数据处理程序,能自适应不同体系结构(如GPU和CPU)以及当前各类并行编程模型(如MPI和Map/Reduce),降低数据处理的成本,并保障在大规模计算过程中的可靠性。在此基础上,根据学科领域的特点,构建出遥感数据处理、生物信息学处理等处理工具,支持学科研究人员更深层次的研究。
  4.         科学研究的仿真平台。在海量存储、集群计算和数据资源上,提供数据整合和访问、二次开发等接口,为科学研究提供真实数据支持,同时使大规模的科学模拟和仿真成为可能。

联系人             电话          Email
周园春             010-58812561                         zyc@cnic.cn

使用指南 | 友情链接 | 联系我们
版权所有:中国科学院计算机网络信息中心.由国家科技基础条件平台建设项目资助
Copyright© 2003-2020  备案序号:京ICP备09112257号
电话:8610-58812008  传真:8610-58812505  Email:sdb-service@cnic.cn