图形工作站、集群应用方案
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
全球领先的高端图形工作站供应商

免费测试 热线 : 400-7056-800 【 为任何应用提供 最快计算设备 如不符,退货】【最新报价】【选购指南】【京东商城】



企业通用模版网站

  • 科研团队全能超算平台25v1
  • 超高分拼接 数字孪生
  • 科学计算MatLAB工作站24
  • 地质建模 油藏模拟工作站
  • 工业CT扫描 机器视觉计算
  • 电力系统关键应用配置24
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
  • 送无人机啦 8核6.4GHz  96核4.8GHz 加速改装 

  • 高性能集群 虚拟并行计算 芯片设计 光学仿真 

  • 蛋白质预测 生物信息 冷冻电镜 材料模拟

  • RSS订阅
  • 理科计算推荐
  • 仿真计算最快最完美25v1
  • 电磁仿真单机与集群25v1
  • 航拍实景建模单机集群
  • 遥感图像处理工作站集群
  • 4K/8K剪辑特效调色24v1
  • AI大模型工作站集群25v1
  • Abaqus硬件配置大全24v3
  • CST电磁仿真工作站25v1
  • 多物理场仿真单机与集群
  • 流体/空气动力学仿真25v1
  • 量子化学 分子动力模拟
  • 三维设计24v2  3D打印

 

您的位置:UltraLAB图形工作站方案网站 > 人工智能 > 深度学习 > 异构计算大师抛出权威论断 CPU与GPU不存在取代关系

异构计算大师抛出权威论断 CPU与GPU不存在取代关系

时间:2009-09-06 20:51:00   来源:UltraLAB图形工作站方案网站   人气:8885 作者:admin

近些年的计算领域,异构计算可算是最为引人注目的话题之一。过去几年里,以NVIDIA的CUDA为代表的基于C语言的API为GPU计算赢得了更广泛的用户。2009年,全球召开了两次异构计算大会。最近来自NVIDIA的消息中提到,目前CUDAZone网站上的CUDA应用程序与论文数量已经突破了500大关。

  然而,异构计算还面临很多认识上的误区。例如,在一些报道里,提出了“未来GPU可能会取代CPU”、“GPU的内核数量是CPU的几百倍,计算速度与之成正比”等论调。

  事实上,CPU与GPU从设计思路和架构上先天就存在着差异。这些差异决定了GPU不可能取代CPU,或者说,能取代CPU的GPU已经不再是GPU了。

  异构计算的真正意义,其实在于发挥不同架构处理器在不同方面的优势,从而实现系统整体计算能力的最大化利用。

  CPU和GPU从设计之初,其目标就各不相同,这可以用一个比喻来说明:电工专科的毕业生与英语专业的毕业生,前者修理电器的速度远远快于后者,这并不能说明前者的整体能力远高于后者——其实,对较复杂的进口电器,可能需要后者将说明书翻译成中文,前者再按照说明书将电器修好。

  CPU在设计之初就是按照兼顾程序执行的并行性、通用性和平衡性的要求来规划的。在改进指令执行效率的过程中,CPU中被不停地加入新的指令集,这使得CPU已经成为计算机中设计最复杂的芯片。例如,除了支持常规指令集之外,英特尔的SSE、AMD的3DNow!等指令集都是在技术演进构成中逐渐加入CPU的,而仅SSE4指令集就包括54条新指令。

  与之相反,GPU的单一处理核心却较诞生之初显得简单——最早,针对图形处理的关键计算,GPU将处理单元分为顶点着色器、光栅化引擎、纹理贴图单元等不同部分,分别完成不同计算任务。而统一渲染架构提出后,统一的计算单元取代了之前的不同单元。以NVIDIAGeForce8800为例,它具有16组共128个统一标量着色器,也被称作流处理器。这里的每个流处理器实际上只能完成1D标量的加乘操作。在实际计算中,必须将所有的运算拆分成1D运算来执行。

  从两者的差异可以看出,对于复杂指令调度、循环、分支、逻辑判断以及执行等的程序任务,GPU有心无力。只有在可拆分成简单指令的重复的高度并行数值计算中,GPU才能体现出其强大的能力。对此,美国StoneRidge科技公司创始人兼总裁文森特(VincentNatoli)曾做出“如果算法涉及许多分支指令,很难用流计算或SIMD处理,那么CPU将是最佳选择;如果算法是浮点SIMD类型的问题,可划分为许多对不同数据执行相同操作的独立线程,那么GPU将是很好的选择;如果问题主要涉及整数或定点,可以被转化为流的形式,具有非传统的数据表达形式和空间并行性,FPGA则是最佳选择”的论断。

  另一方面,针对GPU的程序编写也较为困难。文森特指出,根据经验,即使使用CUDA这一很容易掌握的API,同一算法在CPU、GPU上开发的时间也大致为1∶1.25。

  由以上分析可以看出,GPU与CPU并不存在取代的关系。相反,两者互相取长补短才能实现最终的良好系统表现。

  为了更好地发挥不同架构处理器的能力,开发人员也在不遗余力地寻找更快捷地实现异构计算的方法。OpenCL就是建立异构计算标准的尝试之一。人们设计它的目的是“用平易近人的语言,使用不同的计算支援”。

  如果OpenCL这个标准制定完成了,它将给异构计算带来多大的影响呢?让我们拭目以待。

关闭此页
上一篇:构建视觉计算新未来 NVIDIA庄海欧谈GPU大势
下一篇:黄仁勋:2015年GPU将令电脑提速570倍

相关文章

  • 05/09Xeon6代+4块GPU--图灵超算工作站GT450M介绍
  • 05/09汽车风阻测试模拟分析、算法,及服务器/工作站计算设备硬件配置推荐
  • 04/26高频交易(HFT)应用分析、算法,服务器/工作站硬件配置推荐
  • 04/25衍生品定价与风险对冲应用分析、算法,及服务器工作站硬件配置
  • 04/25量化交易策略应用算法分析、服务器工作站硬件配置
  • 04/24金融风险管理应用算法分析、服务器/工作站硬件配置推荐
  • 04/19油藏模拟软件的算法分析以及图形工作站/服务器硬件配置推荐25v2
  • 04/17大型3D设计软件CATIA-算法分析与图形工作站硬件配置
  • 04/17Cadence EDA主要软件计算特点分析,服务器/工作站硬件配置推荐
  • 04/16Synopsys EDA主要软件计算特点分析,服务器/工作站硬件配置推荐

工程技术(工科)专业工作站/服务器硬件配置选型

    左侧广告图2

新闻排行榜

  • 1如何在本地运行 Llama 3 8B 和 Llama 3 70B及硬件配置推荐
  • 2NVIDIA GeForce GTX 280测试报告
  • 3比GTX280快10倍-Quadro VX200专业卡评测
  • 4深度学习训练与推理计算平台硬件配置完美选型2020v1
  • 5高性能仿真计算集群(结构、流体、多物理场耦合)配置推荐2024v1
  • 62019年最快最全深度学习训练硬件配置推荐
  • 7Llama-2 LLM的所有版本和硬件配置要求
  • 8支持7块RTX3090静音级深度学习工作站硬件配置方案2021v2
  • 9HFSS电磁仿真应用与工作站配置方案
  • 10解锁最大推理能力:深入研究80GB A100 GPU 上的Llama2–70B

最新信息

  • 性能直逼6710亿参数DeepSeek R1--- QwQ-32B推理模型本地硬件部署
  • 史上最神的AI静音工作站---算命、炒股、看病、程序设计、销售策划、仿真计算、3D设计、药物设计、基因测序、大数据分析
  • 用中文训练更快-满血版Deepseek R1本地部署服务器/工作站硬件配置精准分析与推荐
  • DeepSeek R1训练和推理一体式服务器/工作站硬件配置、部署具体步骤
  • DeepSeek V3推理和训练一体式服务器/工作站硬件配置、部署具体步骤
  • DeepSeek R1/V3应用-服务器/工作站/集群配置推荐
  • 生成式AI热门应用、算法及对计算机硬件配置要求
  • llama3.2本地系统+软件安装运行、主要应用、计算硬件要求、最新GPU服务器配置参考

应用导航:

工作站产品中心 京东商城 中关村商城 淘宝商城 超高分可视化商城 便携工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 网站统计

公司简介-业务咨询-招聘英才-资料下载-UM-

本网站所有原创文字和图片内容归西安坤隆计算机科技有限公司版权所有,未经许可不得转载
陕ICP备16019335号 陕公网安备61010302001314号
Copyright © 2008-2023 , All Rights Reserved

首页
热线
商城
分类
联系
顶部