图形工作站、集群应用方案
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
全球领先的高端图形工作站供应商

免费测试 热线 : 400-7056-800 【 为任何应用提供 最快计算设备 如不符,退货】【最新报价】【选购指南】【京东商城】



企业通用模版网站

  • 科研团队全能超算平台25v1
  • 超高分拼接 数字孪生
  • 科学计算MatLAB工作站24
  • 地质建模 油藏模拟工作站
  • 工业CT扫描 机器视觉计算
  • 电力系统关键应用配置24
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
  • 送无人机啦 8核6.4GHz  96核4.8GHz 加速改装 

  • 高性能集群 虚拟并行计算 芯片设计 光学仿真 

  • 蛋白质预测 生物信息 冷冻电镜 材料模拟

  • RSS订阅
  • 理科计算推荐
  • 仿真计算最快最完美25v1
  • 电磁仿真单机与集群25v1
  • 航拍实景建模单机集群
  • 遥感图像处理工作站集群
  • 4K/8K剪辑特效调色24v1
  • AI大模型工作站集群25v1
  • Abaqus硬件配置大全24v3
  • CST电磁仿真工作站25v1
  • 多物理场仿真单机与集群
  • 流体/空气动力学仿真25v1
  • 量子化学 分子动力模拟
  • 三维设计24v2  3D打印

 

您的位置:UltraLAB图形工作站方案网站 > 人工智能 > 大数据分析 > 数据密集型可扩展计算:数据库前瞻 DISC: A DB perspective

数据密集型可扩展计算:数据库前瞻 DISC: A DB perspective

时间:2010-04-12 20:19:00   来源:UltraLAB图形工作站方案网站   人气:8640 作者:admin

随着web2.0技术和数据托管服务的迅猛发展,生活中的各个领域,包括航空影像、医疗记录、在线交易、社会网络等产生的大量数据为现有的数据密集型计算带来了全新的问题和挑战。存储于磁盘列阵中的数据以年均60%的速率增长 [1] 。2006年全球数据存储需求为1610亿GB,预计2010年将达到9880亿GB。如何有效的管理和存储如此巨额的数据为学术界和工业界都带来了巨大的挑战。随着过去一段时间内对并行计算的研究,传统的并行计算模型使得系统的架构和实现都变得更为复杂。例如,一个简单的字数统计程序也需要运用成熟的分布式机制去处理调度、合作、失败恢复等问题。因此,传统的并行机制是不太可能满足现有的数据应用需求的。我们也能很明显的看到,传统的数据处理和计算方式成本高,效率低,从而无法适应目前一些应用的动态需求,如处理不断变化的数据集以及数据密集型计算等。

        目前工业界使用的一个比较理想的方法是建立一个大规模的计算机系统,它由成千上万个甚至上百万个低端计算机(称之为节点)连接局域网组成。通过这种途径,无论是数据并行(将数据拆分到大量的节点中处理)还是计算并行(并行的处理一系列的操作)都可以满足现有用户和应用的需要。在这种环境下,资源可以动态的扩展和分配,数据也会被相应的重新分配到扩展的硬件资源中处理,从而使得计算框架变得简单有效。

        MapReduce [3] 作为一种全新的软件构架,用于处理计算机群中的大规模数据集。MapReduce被证实是一种强大的技术,因为它简化了大规模分布式计算的实现和配置,同时它使用了更加简单的容错机制,并保证了企业网络中大量分布式计算的一致性。它通过各节点的并行计算有效的处理大规模的数据集。在MapReduce中,程序员需要提供他们自己的map和reduce函数。尽管它的结构简单,但现实世界中的很多问题其实都是可以用模型表示出来的,例如建立倒排索引和计算PageRank(网页级别)。事实上,这种通过将巨额数据在成千上万个节点并行运算以达到大型运算能力的方式已经对现有的系统设计原理和传统的系统经济带来挑战。

        对于一个典型的操作,MapReduce处理存储于DFS(分布式文件系统)中的数据,例如Google的GFS(Google文件系统)和Yahoo的HDFS(Hadoop分布式文件系统)[2]。在DFS中,数据被分割成同等大小的数据块(通常是128M),并且这些数据快被分布到计算机群中的不同的节点中。对于某个特定的任务,MapReduce创建一系列的mapper和reducer。Mapper处理本地数据块并产生一系列的键-值对(key-value pair)。这些键-值对接着被reducer进一步处理。Reducer将属于同一个键的值结合起来并产生最终的结果。虽然Map-reduce的思路是简单的,但它已经解决了大量的现实问题,例如建立倒排索引和计算网页级别。MapReduce一开始被设计为处理非结构化的数据。为了将它应用于关系型数据,它需要有效的支持关系型操作,如联结(join)操作。将这种结构应用于关系型数据的研究最早在 [4] 中被提出,它定义了一个merge函数去实现数据库中的关系操作。

        解决联结操作的一个直接的方法是模拟排序合并联结算法(sort-merge join)。对于数据表R联结S,mapper从DFS中同时装载两个数据表中的数据,并根据联结属性排序。然螅???葑?频絩educer中。当mapping这个过程结束之后,每一个reducer处理R和S的子数据集并使用本地的联结算法(如nestedloop join)对这两个表的子集进行联结操作。对于每个大的数据基表,将数据从mapper传到reducer会产生大量的开销,从而增加了数据处理的成本。根据 [4] 的研究,减小从mapper到reducer的中间数据集的大小会极大的提高性能。因此,减少网络开销(mapper到reducer的数据传输开销),可以提高联结操作的效率。目前的问题是我们如何能将研究的“优化策略”加入到现有的MapReduce架构中并且不影响其结构的简单性,在今后我们将会看到更多的研究成果。 #p#page_title#e#

         总的来说,对MapReduce构架的广泛认同,以及越来越多的对软件即服务(Software as a Service)的接受,使大家对分布式并行计算有了一个全新的定位和思考。从而开创了数据密集型计算(DISC -- data intensive scalable computing)和云计算等技术 (cloud computing),为生活的各个方面如商业、科学、医疗保障以及环境保护等方面做出重大的贡献。同时,为很多重要的计算领域研究课题提供了基础,包括编程模型、系统设计、分布式以及并行算法、计算模型、系统安全及应用等。

 

参考文献:

[1] http://www.thedigitalcloud.co.uk/journal/2007/5/30/dataexplosion-ahead.html

[2] http://hadoop.apache.org.

[3] J. Dean and S. Ghemawat. MapReduce: simplified data processing on large clusters. Commun. ACM,

2008.

[4] D. DeWitt, E. Paulson, E. Robinson, J. Naughton, J. Royalty, S. Shankar, and A. Krioukov. Clustera: an integrated computation and data management system. VLDB, 2008.

原文:http://ooibc.blog.163.com/blog/static/103968235200931334237449/

关闭此页
上一篇:数据库应用中如何计算磁盘I/O要求
下一篇:SPECjAppServer2004测试:Xeon X5680是当今最快oracle服务器平台

相关文章

  • 05/09Xeon6代+4块GPU--图灵超算工作站GT450M介绍
  • 05/09汽车风阻测试模拟分析、算法,及服务器/工作站计算设备硬件配置推荐
  • 04/26高频交易(HFT)应用分析、算法,服务器/工作站硬件配置推荐
  • 04/25衍生品定价与风险对冲应用分析、算法,及服务器工作站硬件配置
  • 04/25量化交易策略应用算法分析、服务器工作站硬件配置
  • 04/24金融风险管理应用算法分析、服务器/工作站硬件配置推荐
  • 04/19油藏模拟软件的算法分析以及图形工作站/服务器硬件配置推荐25v2
  • 04/17大型3D设计软件CATIA-算法分析与图形工作站硬件配置
  • 04/17Cadence EDA主要软件计算特点分析,服务器/工作站硬件配置推荐
  • 04/16Synopsys EDA主要软件计算特点分析,服务器/工作站硬件配置推荐

工程技术(工科)专业工作站/服务器硬件配置选型

    左侧广告图2

新闻排行榜

  • 1Thermaltake推出支持最新的Opteron 6100服务器CPU的专用散热器
  • 2Schrodinger薛定谔分子动力模拟与建模工作站推荐2022v2
  • 3分子动力模拟可视化与分析软件VMD工作站硬件推荐
  • 4极速计算工作站UltraLAB AX410新品介绍
  • 5AMBER生物分子动力模拟工作站配置推荐
  • 6中小企业CAD图形工作站系统配置
  • 7华尔街痴迷股票高频交易
  • 8数据库服务器的硬件配置分析
  • 9推荐一个有7条PCIEx16、双路CPU的主板-超微X8DTH-iF
  • 10看intel的至强E5/E7平台在关键业务未来应用之路

最新信息

  • 本地部署AI解数学竞赛题-工作站/系统/开源大模型如何配备
  • 分子动力模拟可视化与分析软件VMD工作站硬件推荐
  • 极速计算工作站UltraLAB AX410新品介绍
  • AMBER生物分子动力模拟工作站配置推荐
  • Schrodinger薛定谔分子动力模拟与建模工作站推荐2022v2
  • eXtremeDB大幅缩短NSE.IT算法交易(Algo/HFT)和前台系统交易解决方案的延迟
  • 华尔街痴迷股票高频交易
  • 至强Xeon“给力” 保关键业务无忧

应用导航:

工作站产品中心 京东商城 中关村商城 淘宝商城 超高分可视化商城 便携工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 网站统计

公司简介-业务咨询-招聘英才-资料下载-UM-

本网站所有原创文字和图片内容归西安坤隆计算机科技有限公司版权所有,未经许可不得转载
陕ICP备16019335号 陕公网安备61010302001314号
Copyright © 2008-2023 , All Rights Reserved

首页
热线
商城
分类
联系
顶部