【CUDA 基础】5.4 合并的全局内存访问
【CUDA 基础】5.4 合并的全局内存访问

还记得我们矩阵转置的例子么,在全局内存部分介绍的:在4.4中我们当时只有共享内存这一种工具可以使用,为了达到最高效率,我们要配合一级缓存,二级缓存进行编程,来提高转置的效率

【线性代数】2-7:转置与变换(Transposes and Permutation)
【线性代数】2-7:转置与变换(Transposes and Permutation)

转置是矩阵特有的计算,他的根本就是矩阵是一块数字,其中有顺序和位置关系,今天说的转置和置换,都是针对位置的,也就是元素的数值并不改变,要改变的是元素的位置关系,permutation我们后面再说,transpose的计算规则的就是,对于某元素,其位置行和列相互交换