Abstract: 本文为学习CUDA编程的第四章的概要,主要介绍第四章研究的对象
Keywords: 全局内存,CUDA内存模型,CUDA内存管理,全局内存编程,全局内存访问模式,全局内存数据布局,统一内存编程,提高内存吞吐量。
全局内存
上一章我们整个一章都在研究CUDA的执行模型,必须承认执行模型中,核的配置,决定了程序执行效率,但是程序的执行效率不只由线程束,线程块等执行结构决定,内存也严重的影响了性能。
举个例子,一个老例子,但是这个例子真的非常贴切,在别的书上也看过(如果一模一样,算我抄你):工厂生产,我们可以通过优化工厂内部流水线,工人分配,工人质量,来提高生产速度,但是如果你把工厂开到珠穆朗玛峰顶,你的提供原料的车(我们目前关心产量不关心出货量,所以不关心如何将成品运出)一年来一辆,那整个工厂的生产效率也是非常低的,因为工人,流水线,都在等待,等待原料进来。这就是典型的一个GPU或者CPU的效率模型。内存带宽,速度,也是影响了吞吐量的重要因素。
本章我们将剖析核函数与全局内存的联系,性能影响。CUDA模型是主要研究内容,通过不同的内存访问模式来使得内核高效运行。