C/C++
- 《30天自制操作系统》
Python
爬虫
GPU编程(CUDA)
- 0.0 腾讯云CUDA环境搭建
- 1.0 并行计算与计算机架构
- 1.1 异构计算与CUDA
- 2.0 CUDA编程模型概述(一)
- 2.1 CUDA编程模型概述(二)
- 2.2 给核函数计时
- 2.3 组织并行线程
- 2.4 设备信息查询
- 3.1 CUDA执行模型概述
- 3.2 理解线程束执行的本质(Part I)
- 3.2 理解线程束执行的本质(Part II)
- 3.3 并行性表现
- 3.4 避免分支分化
- 3.5 循环展开
- 3.6 动态并行
- 4.0 全局内存
- 4.1 内存模型概述
- 4.2 内存管理
- 4.3 内存访问模式
- 4.4 核函数可达到的带宽
- 4.5 使用统一内存的向量加法
- 5.0 共享内存和常量内存
- 5.1 CUDA共享内存概述
- 5.2 共享内存的数据布局
- 5.3 减少全局内存访问
- 5.4 合并的全局内存访问
- 5.5 常量内存
- 5.6 线程束洗牌指令
- 6.0 流和并发
- 6.1 流和事件概述
- 6.2 并发内核执行
- 6.3 重叠内核执行和数据传输
- 6.4 重叠GPU和CPU的执行
- 6.5 流回调
框架
OpenCV
TensorFlow .etc
设计实现框架
- PineNut