中华网家电

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:频道首页 > 快讯 > 正文

焱融科技率先支持 NVIDIA GPUDirect Storage(GDS)充分释放 GPU 强大算力

焱融科技率先支持 NVIDIA GPUDirect Storage(GDS)充分释放 GPU 强大算力
2023-03-16 16:03:30 来源:实况网

2020 年 GPT-3 模型的参数量首次突破千亿大关,达到了 1750 亿,堪称“大力出奇迹”。今日凌晨,万众瞩目的大型多模态模型 GPT-4 正式发布!GPT-4 是多模态的,同时支持文本和图像输入功能。该版本“更强大”,模型精度随着模型尺寸及训练数据的增加而显著提升。

训练巨量模型需要巨大的算力,但随着数据集和模型规模不断增加,应用程序载入数据所花费的时间变得越长,进而影响了应用程序的能,缓慢的 I/O 严重拖累GPU 的强大算力。如何大幅提升 GPU 载入大型数据集的速度将是计算和存储系统共同面临的最大挑战。为更加完美地满足大规模计算集群对于存储系统的数据访问需求,进一步发挥强大的 GPU 计算能力,将能发挥到极致,焱融技术团队历时 6 个月的时间完成对 NVIDIA GPUDirect Storage(GDS)的适配开发,实现以直接内存的存取方式,将数据传输至 GPU 内存上,显著降低 I/O 延迟,提升数据带宽。

GDS 简述

现代 AI 和数据科学工作是由大量数据驱动的,随着人工智能以及高能运算的数据集规模不断增加,GPU 计算和数据中心存储系统之间的快速通信变得至关重要。数据从 NVMe 磁盘传输到 GPU 内存的标准路径,传统的方式是由 CPU 控制的,使用系统內存中的回弹缓存(Bounce Buffer)做数据的中转。这种操作过程会产生额外的数据拷贝工作,造成很大的系统开销。当数据集的规模不断增加,应用程序载入数据花费的时间会变得越来越长,进而影响了应用运行的能。

NVIDIA GPUDirect Storage(GDS) 技术通过 DMA 引擎将硬盘数据直接写入 GPU 显存,这种以直接内存的存取方式,避免了内存 bounce buffers 所带来的额外数据拷贝,从而实现 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系统线的带宽压力。来,由于高速 RDMA 网络的普及,GPUDirect storage 可以高效地直接访问远端存储设备,诸如一些 NVMe的 target 方案和一些企业级分布式存储产品,它能有效减轻 CPU I/O 瓶颈,提升数据传输 I/O 带宽的同时,降低I/O延迟。

支持 GPUDirect 技术的收益

英伟达开发的 GPUDirect Storage 技术,大幅提升 GPU 载入大型数据集的速度。GDS 通过更快、更直接的数据路径提高了存储和 GPU 之间数据移动的效率。数据直接从主机上的网卡(NIC)传输到 GPU,而不需要经过系统内存和 CPU。这种方式消除了系统架构中 IO 路径瓶颈,减少了不必要的数据复制,降低了延迟,同时,释放出来的计算资源还可用于深度学中诸如图形处理等其他业务。NVIDIA 表示通过支持 GPUDirect 技术能够带来多方面的收益:

• GDS 在存储和 GPU 之间提升 2~8 倍的数据传输带宽。

• 避免了 CPU 在内存中的 bounce buffers 拷贝,在某些场景下端到端传输的延迟能够实现 3.8x 的降低。

• 当 GPU 并发度增加时,GDS 仍然保持稳定的低延迟输出。

• GPU 不仅作为实现最高带宽的计算引擎,同时也作为实现最高 IOPS 的计算引擎。

• 在某些场景的实测数据表明,如果单纯使用 CPU,吞吐率仅能达到 50GB/s;而在使用 GPU 之后,吞吐率可达到 215 GB/s。因此,能支持 GDS 的存储系统更能充分匹配前端的异构计算能力。

GPUDirect Storage 架构图

焱融分布式文件存储系统 YRCloudFile 支持 GDS 的大体流程:

YRCloudFile 客户端向 nvidia-fs 注册后,cuFile 打开一个 YRCloudFile 集群文件,会将 nvidia-fs 和 YRCloudFile 的特定接口进行绑定,当 io 下发到 client 中,client 检测该 IO 是否是 GDS 的请求,如果是,则回调 nvidia-fs 的 map 接口,获得 sglist 请求的 dma 地址,借助底层驱动能力,实现数据的RMDA 传输。

NVIDIA®Magnum IO GPUDirect® 技术,能够显著降低 GPU 服务器内的 CPU 占用率,增加存储带宽并减少延迟。焱融科技是国内支持 GPUDirect® 功能的首家分布式文件存储厂商,能够更好地管理数据路径。焱融文件存储系统与 GDS 的组合使得数据在应用程序和存储之间通过更短、更有效的路径传输,实现 1+1>2 的功能效果。从而使支持 GDS 的应用程序能够充分释放 GPU 计算能力,为人工智能和机器学(AI/ML)以及数据分析等业务加速。

2022 年,焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200万+ IOPS 能,并应用于人工智能、智能汽车、智能制造、教育等行业生产环境中,为企业用户成功构建高能存储。在服务全球 500 强制造业的客户中,完成国内首个双 200Gb 网络聚合分布式文件存储集群部署,实现 AI 计算破千万 IOPS 能实践。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj005

文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com
关键词:

精准聚焦肌肤问题,可复美为修护肌肤屏障而战!

2023-03-15 15:58:05精准聚焦肌肤问题,可复美为修护肌肤屏障而战!

可复美舒舒贴专研舒缓保湿配方体系,找回肌肤好状态

2023-03-13 17:22:11可复美舒舒贴专研舒缓保湿配方体系,找回肌肤好状态

华凌牛业集团马木提·阿布拉同志荣膺全国绿化劳动模范

2023-03-06 10:27:51华凌牛业集团马木提·阿布拉同志荣膺全国绿化劳动模范

高端家电gorenje:打造国际艺术峰会 探索品质生活方式

2023-03-03 14:31:20高端家电gorenje:打造国际艺术峰会 探索品质生活方式

可复美胶原乳亮相国货新势力,带来肌肤屏障修护新体验

2023-02-27 16:58:31可复美胶原乳亮相国货新势力,带来肌肤屏障修护新体验

《中小微企业老板观察报告》:做对这件事很重要

2023-02-22 13:22:15《中小微企业老板观察报告》:做对这件事很重要

相关新闻