图形工作站、集群应用方案
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
全球领先的高端图形工作站供应商

免费测试 热线 : 400-7056-800 【 为任何应用提供 最快计算设备 如不符,退货】【最新报价】【选购指南】【京东商城】



企业通用模版网站

  • 科研团队全能超算平台25v1
  • 超高分拼接 数字孪生
  • 科学计算MatLAB工作站24
  • 地质建模 油藏模拟工作站
  • 工业CT扫描 机器视觉计算
  • 电力系统关键应用配置24
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
  • 送无人机啦 8核6.4GHz  96核4.8GHz 加速改装 

  • 高性能集群 虚拟并行计算 芯片设计 光学仿真 

  • 蛋白质预测 生物信息 冷冻电镜 材料模拟

  • RSS订阅
  • 理科计算推荐
  • 仿真计算最快最完美25v1
  • 电磁仿真单机与集群25v1
  • 航拍实景建模单机集群
  • 遥感图像处理工作站集群
  • 4K/8K剪辑特效调色24v1
  • AI大模型工作站集群25v1
  • Abaqus硬件配置大全24v3
  • CST电磁仿真工作站25v1
  • 多物理场仿真单机与集群
  • 流体/空气动力学仿真25v1
  • 量子化学 分子动力模拟
  • 三维设计24v2  3D打印

 

您的位置:UltraLAB图形工作站方案网站 > 人工智能 > 大数据分析 > 数据密集型计算:MapReduce与Hadoop的真正竞争力

数据密集型计算:MapReduce与Hadoop的真正竞争力

时间:2010-04-12 20:26:00   来源:UltraLAB图形工作站方案网站   人气:9024 作者:admin

互联网络用户的剧增和宽带网络的普及,使得互联网络服务的本质是以海量数据处理为中心的服务。从搜索引擎、视频共享到电子商务,互联网络服务的成功与否在很大程度上依赖于所提供数据的规模和质量,数据处理的及时性、有效数据的比例等。

Gordon Bell、Jim Gray和Alex Szalay在2006年1月的Computer杂志上发表的“Petascale computational systems”中指出,计算机科学正在发生变化,以数据密集(Data-intensive)型计算为主要趋势。高性能计算系统必须设计为一个均衡的系统,不仅仅是单纯的处理器性能达到Peta级,而且也包括I/O和网络。数据的局部性(Data Locality)在PB级的数据处理中显得尤为重要,即应该尽量让计算靠近数据存储而不是远程拷贝数据进行计算。Gordon的因特网经济模型表明,在因特网上远程移动1字节数据的代价是昂贵的,这只有在平均每字节数据需要耗费10万个CPU指令周期处理时才是划算的。数据局部性对软件的设计提出了挑战,因为大多数的中间件都未考虑数据移动的昂贵代价和未利用数据的缓存策略。


海量数据处理问题的挑战 海量数据处理能力面对的挑战是:

n          面对PB级数据,很难完全在内存中完成处理过程,很大程度上依赖于磁盘I/O,并且需要可扩展的处理能力

n          需要降低数据处理的成本,包括利用普通商用PC服务器组成的集群,最小化每单元计算能力、RAM和I/O的成本

n          需要保障在大规模计算过程中的可靠性


每18到24个月CPU频率和磁盘传输速率,RAM和磁盘容量会加倍,但是磁盘寻址时间由于音圈电机定位的限制其发展速度却近乎常数(每年不到5%)。 可扩展的海量数据计算必须从依赖于磁盘寻址时间(seek-time)的计算转到依赖于磁盘传输时间(transfer-time),即传统的关系数据库系统技术不再适用。

Map/Reduce最早由Google研发人员提出。这种处理方式实际上是在数据存放的时候不建立索引,等实际处理数据的时候再将这些数据读入内存进行排序,并可以将数据分隔在不同的机器上同时进行处理。Map/Reduce把对数据记录的所有操作都归结两个步骤:其中Map对现有数据做一个先期处理,得到一个中间数据集,Reduce再对中间数据集进行去重、过滤等后期处理,最后得到所要的结果。在使用Map/Reduce框架时,待处理的数据先通过顺序读磁盘进行分别处理,在内存中排序后交由合并程序进行后处理,尽量避免了磁盘的随机存取操作,使得海量数据的处理效率得到快速提高。

Yahoo的Hadoop开发人员经过试验,在10MB/s传输速率和10ms的磁盘寻道时间的情况下,更新1TB数据中的100M数据,如果使用基于传统B树的关系数据库系统,则随机更新需要1000天,批处理更新需要100天,而使用顺序读取的排序/合并的新型数据处理方法(如Map/Reduce)只需要1天,即效率提高100倍!

如果需要处理100T的数据集,在1个节点上,以50MB/s的速度扫描需要23天,而平均故障间隔时间(MTBF)为3年。如果在1000个节点的集群上,33分钟可以完成扫描,但MTBF为1天。这就需要新的框架来实现可靠性的保障,同时这种可靠性也是可扩展和容易管理的。
 

关闭此页
上一篇:以世博为例 DB2数据库服务器选型指导
下一篇:企业ERP和数据库应用服务器的选择与应用

相关文章

  • 05/09Xeon6代+4块GPU--图灵超算工作站GT450M介绍
  • 05/09汽车风阻测试模拟分析、算法,及服务器/工作站计算设备硬件配置推荐
  • 04/26高频交易(HFT)应用分析、算法,服务器/工作站硬件配置推荐
  • 04/25衍生品定价与风险对冲应用分析、算法,及服务器工作站硬件配置
  • 04/25量化交易策略应用算法分析、服务器工作站硬件配置
  • 04/24金融风险管理应用算法分析、服务器/工作站硬件配置推荐
  • 04/19油藏模拟软件的算法分析以及图形工作站/服务器硬件配置推荐25v2
  • 04/17大型3D设计软件CATIA-算法分析与图形工作站硬件配置
  • 04/17Cadence EDA主要软件计算特点分析,服务器/工作站硬件配置推荐
  • 04/16Synopsys EDA主要软件计算特点分析,服务器/工作站硬件配置推荐

工程技术(工科)专业工作站/服务器硬件配置选型

    左侧广告图2

新闻排行榜

  • 1Thermaltake推出支持最新的Opteron 6100服务器CPU的专用散热器
  • 2Schrodinger薛定谔分子动力模拟与建模工作站推荐2022v2
  • 3分子动力模拟可视化与分析软件VMD工作站硬件推荐
  • 4极速计算工作站UltraLAB AX410新品介绍
  • 5AMBER生物分子动力模拟工作站配置推荐
  • 6中小企业CAD图形工作站系统配置
  • 7华尔街痴迷股票高频交易
  • 8数据库服务器的硬件配置分析
  • 9推荐一个有7条PCIEx16、双路CPU的主板-超微X8DTH-iF
  • 10看intel的至强E5/E7平台在关键业务未来应用之路

最新信息

  • 本地部署AI解数学竞赛题-工作站/系统/开源大模型如何配备
  • 分子动力模拟可视化与分析软件VMD工作站硬件推荐
  • 极速计算工作站UltraLAB AX410新品介绍
  • AMBER生物分子动力模拟工作站配置推荐
  • Schrodinger薛定谔分子动力模拟与建模工作站推荐2022v2
  • eXtremeDB大幅缩短NSE.IT算法交易(Algo/HFT)和前台系统交易解决方案的延迟
  • 华尔街痴迷股票高频交易
  • 至强Xeon“给力” 保关键业务无忧

应用导航:

工作站产品中心 京东商城 中关村商城 淘宝商城 超高分可视化商城 便携工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 网站统计

公司简介-业务咨询-招聘英才-资料下载-UM-

本网站所有原创文字和图片内容归西安坤隆计算机科技有限公司版权所有,未经许可不得转载
陕ICP备16019335号 陕公网安备61010302001314号
Copyright © 2008-2023 , All Rights Reserved

首页
热线
商城
分类
联系
顶部