Grid, Block, Thread 좌표계

CUDA kernel launch는 이런 모양이다.

kernel<<<gridDim, blockDim>>>();

1D launch에서는 다음처럼 쓸 수 있다.

kernel<<<3, 4>>>();

의미는:

gridDim.x = 3
blockDim.x = 4

즉 grid 안에 block이 3개 있고, block 하나 안에 thread가 4개 있다.

CUDA가 자동으로 주는 좌표

kernel 안에서는 다음 값들을 사용할 수 있다.

blockIdx.x
threadIdx.x
blockDim.x
gridDim.x

범위는 다음과 같다.

blockIdx.x  = 0 ... gridDim.x - 1
threadIdx.x = 0 ... blockDim.x - 1

kernel<<<3, 4>>>이면:

blockIdx.x  = 0, 1, 2
threadIdx.x = 0, 1, 2, 3

threadIdx.x는 전체 grid에서의 번호가 아니라, 현재 block 안에서의 번호다.

block 0: thread 0 1 2 3
block 1: thread 0 1 2 3
block 2: thread 0 1 2 3

그래서 blockIdx.x와 threadIdx.x를 함께 써야 전체 위치를 만들 수 있다.

grid  = blocks의 배열
block = threads의 배열

blockIdx.x는 grid 안에서 block의 위치이고, threadIdx.x는 block 안에서 thread의 위치다.