<aside> 💡 GPU는 SIMT 구조로서 하나의 명령어가 하나의 스레드 그룹을 제어하며 GPU는 수백에서 수천 개의 연산 코어를 가지고 있다. 적게는 수천에서 많게는 수십만 개 수준의 많은 스레드를 사용해야 한다. CUDA 프로그램 작성의 핵심은 많은 수의 스레드를 효율적으로 관리 및 사용하는 것이다.

</aside>