谭升
非主流人工智能科学家 我和外面那些妖艳的货不一样

Category: 编程

0

【CUDA 基础】6.0 流和并发

本文是Freshman系列的最后一篇,考虑到接下来要说的是比较高级的内容,所以把其划分到下个系列中,作为进阶内容介绍,所以本章是初级阶段的收尾。

【CUDA 基础】5.6 线程束洗牌指令 0

【CUDA 基础】5.6 线程束洗牌指令

前面介绍了共享内存,常量内存,只读内存的使用,今天我们来研究一个比较特殊的机制,名字也很特殊,叫做线程束洗牌指令。
支持线程束洗牌指令的设备最低也要3.0以上

【CUDA 基础】5.5 常量内存 0

【CUDA 基础】5.5 常量内存

本文介绍常量内存和只读缓存,常量内存是专用内存,他用于只读数据和线程束统一访问某一个数据,常量内存对内核代码而言是只读的,但是主机是可以修改(写)只读内存的,当然也可以读。

【CUDA 基础】5.4 合并的全局内存访问 0

【CUDA 基础】5.4 合并的全局内存访问

还记得我们矩阵转置的例子么,在全局内存部分介绍的:在4.4中我们当时只有共享内存这一种工具可以使用,为了达到最高效率,我们要配合一级缓存,二级缓存进行编程,来提高转置的效率

【CUDA 基础】5.2 共享内存的数据布局 0

【CUDA 基础】5.2 共享内存的数据布局

本文我们主要研究共享内存的数据布局,通过代码实现,来观察运行数据,换句话说,我们主要研究上一篇中的放西瓜,取西瓜,以及放冬瓜等的一些列操作对性能的影响,以及如何才能使效率最大化。

【CUDA 基础】5.1 CUDA共享内存概述 0

【CUDA 基础】5.1 CUDA共享内存概述

这里首先要进一步说明一下,前面我们在说缓存的时候说其是可编程的,这是不准确的,应该说是可以控制的,而我们今天要说的共享内存才是真正意义上的可编程的。

【CUDA 基础】4.4 核函数可达到的带宽 0

【CUDA 基础】4.4 核函数可达到的带宽

上一章我们研究怎么通过调整线程网格结构和核函数来达到SM的最高利用率,今天我们来研究如何达到内存带宽的最大利用率。
还是要提那个老例子,但是说实话,这的很形象,也很有用,记住这个例子基本就能了解CUDA的优化大概要从哪入手

试录了几节线性代数视频课程,欢迎大家支持,
点击试看
点击购买更多内容

由于博客移至wordpress,部分公式和代码显示不正常,博主正在努力修改,如发现公式显示错误,请及时在文章下留言,感谢您的帮助,尽请原谅!