Activation Checkpointing

Activation checkpointing은 모든 activation을 저장하지 않고 일부만 저장하는 기법이다.

일반적인 학습은 forward 중에 많은 activation을 저장한다.

A0, A1, A2, A3, A4 모두 저장

checkpointing을 쓰면 일부만 저장한다.

A0, A2, A4만 저장

그 대신 backward 때 A1, A3 같은 중간 activation이 필요해지면, 가까운 checkpoint에서 다시 forward 계산을 수행해 복원한다.

trade-off

얻는 것:

잃는 것:

이름 때문에 gradient checkpointing이라고 부르는 경우도 많지만, 실제로 크게 줄이는 것은 gradient memory가 아니라 activation memory다.