Programming Massively Parallel Processors A Hands-on Approach 4th Edition 学习笔记 Part 2

若无另外声明,本文图片均截取自原书。 Chapter 07: Convolution 卷积 本章主要介绍 2D 卷积实现,从朴素版本开始,分别使用常量内存、分块共享内存和 cache 技术依次进行优化。 7.1...

发表于10月10日 · 更新于10月24日 · 共10662字

2d 卷积梯度推导与实现

符号说明 $$ \begin{align*} X &: 卷积输入,\text{shape} 为[b,h,w,c_{in}]\\ W &: 卷积核,\text{shape}为[a,a,c_{i...

发表于9月11日 · 更新于9月14日 · 共2018字

在VSCode中对CUDA和Python代码进行联合调试

在 cmu10414 hw3 的最后实现矩阵乘法的算子的时候靠肉眼和 printf 实在是调不通,研究了一下怎么在 VSCode 中联合调试 CUDA 和 Python 代码,特此记录。 项目准备 原项目中将 CUDA 代码编译为...

发表于8月24日 · 更新于8月24日 · 共1588字

Programming Massively Parallel Processors A Hands-on Approach 4th Edition 学习笔记 Part 1

本文为Programming Massively Parallel Processors A Hands-on Approach 4th Edition(中文名:大规模并行处理器编程实战)第一部分学习笔记,包括全书前六章。 全书第一部分主...

发表于8月12日 · 更新于10月10日 · 共12248字

CMU 10-414 Assignments 实验笔记

前言 本文记录了完成《CMU 10-414/714 Deep Learning System》配套 Assignments 的过程和对应笔记。共有 6 个 hw,循序渐进地从头实现了一个深度学习框架,并利用搭建 DL 中厂常...

发表于6月6日 · 更新于9月15日 · 共27730字

《CMU 10-414 deep learning system》学习笔记

写在最前面 从 2024-04-28 到 2024-09-08,历时四个多月,总算把 DLSys 学完了。这门课的一些收获: 自动微分理论知识和在实践过程中衍生的包括计算图等知识 系...

发表于5月28日 · 更新于9月14日 · 共30125字