블로그 홈
소개

CPU, GPU, NPU, HPC CPU

요약

CPU(Central Processing Unit): 범용(General-purpose) 두뇌. 가지치기 많은 로직·운영체제·소규모 병렬에 강함.
GPU(Graphics Processing Unit): 수천 개 코어로 대규모 병렬(SIMT) 연산에 특화. AI 훈련·추론의 주력.
NPU(Neural Processing Unit, AI ASIC): 신경망 연산 전용 가속기(행렬·텐서 코어 집중). **효율(성능/와트)**이 압도적.
HPC CPU(High-Performance Computing CPU): 초고성능 범용 CPU. 넓은 벡터(SIMD) + 초고대역 메모리(일부 HBM)로 과학·공학 계산 최적화.

목차

1.
CPU
2.
GPU
3.
NPU
4.
HPC CPU
5.
한눈에 비교표
6.
언제 무엇을 쓰나(업무별 추천)
7.
FAQ

1) CPU(중앙처리장치, Central Processing Unit)

무엇: 컴퓨터의 범용 지휘관. 분기(branch), 예외 처리, 입출력, 운영체제, 다양한 앱을 낮은 지연시간으로 돌림.
구조 포인트
소수의 복잡한 코어(고클럭, 대형 캐시, 분기예측, out-of-order).
스칼라 + 벡터(SIMD) 연산 지원(AVX-512, SVE 등).
메모리는 주로 DDR/LPDDR(대역폭은 제한적, 지연시간 낮음).
장점: 범용성 최고, 작은 배치·제어 중심·불규칙 로직에 강함, 개발 생태계(x86/ARM)가 방대.
한계: 거대한 행렬곱·대규모 병렬엔 전력·가격 대비 성능이 떨어짐.
예시: Intel Xeon, AMD EPYC, ARM Neoverse 등.
적합 업무: 웹/DB/스케줄러/서비스 로직, 금융코어, 엣지 관제, 소규모 ML 추론, 데이터 전처리.

2) GPU(그래픽처리장치, Graphics Processing Unit)

무엇: 본래 그래픽용, 현재는 행렬·벡터 대병렬AI 훈련/추론의 표준.
구조 포인트
수천~수만 스레드의 SIMT(Single-Instruction Multiple-Thread) 구조.
텐서/매트릭스 코어로 FMA·INT8/FP8/FP16/BF16 가속.
HBM(고대역폭 메모리) 채택이 일반적(수 TB/s급).
장점: 대규모 병렬 연산과 **프레임워크 생태계(CUDA/ROCm/TensorRT 등)**로 생산성·속도 우수.
한계: 제어분기·불규칙 메모리 접근이 많을수록 효율 하락, TCO(전력·냉각·가격) 부담.
예시: NVIDIA H100/H200, AMD MI300 계열.
적합 업무: LLM·멀티모달 모델 훈련/추론, 대규모 추천/벡터 검색, 그래픽·영상처리.

3) NPU(신경처리장치, Neural/AI Processing Unit; = AI ASIC)

무엇: 딥러닝 연산 전용 칩. GPU보다 범용성은 낮지만, 행렬곱·컨볼루션 등에 하드웨어를 최적화해 성능/와트가 탁월.
구조 포인트
시스톨릭 어레이/매트릭스 엔진 중심, 고효율 온칩 SRAM + HBM(데이터센터급) 조합.
고정소수점·저정밀(INT8/FP8) 최적화, 온칩 네트워크로 데이터 이동 최소화.
장점: 에너지 효율, 대규모 배치 추론·훈련의 총소유비용(TCO) 절감.
한계: 전용성(모델·프레임워크 적합성 필요), 생태계·툴체인(컴파일러/XLA, 전용 SDK) 학습 필요.
예시: Google TPU v4/v5p, AWS Trainium/Inferentia, Intel Gaudi, Tenstorrent 등(모바일은 Apple/Qualcomm 등도 NPU라 부름).
적합 업무: 반복적 대규모 추론, 특정 아키텍처(Transformer 등) 대량 배포, 에너지 예산이 빡빡한 데이터센터/엣지.

4) HPC CPU(초고성능 CPU, High-Performance Computing CPU)

무엇: 과학·공학 시뮬레이션(유체/기상/양자화학/유전체/금융리스크)을 위한 초고성능 범용 CPU.
구조 포인트
넓은 벡터(SIMD)(AVX-512/SVE2), 많은 메모리 채널, 초고대역 메모리(일부 HBM 온패키지)로 메모리 집약형 코드 가속.
HPC 인터커넥트(InfiniBand/Omni-Path 등)와 결합해 노드 확장.
장점: 정확성/재현성·분기 많은 수치코드·거대 그래프/스파스 문제에서 안정적인 성능.
한계: AI 행렬 특화 속도/전력 효율은 GPU/NPU에 밀릴 수 있음.
예시: Intel Xeon Max(HBM2e 64GB 온패키지), Fujitsu A64FX(HBM2 32GB, SVE).
적합 업무: CFD/FEA, 기상·지진해석, 신소재 계산, 대규모 Monte-Carlo, 고정밀 수치해석.

5) 한눈에 비교표

구분
연산 모델
병렬 구조
메모리/대역폭
프로그래밍 스택
강점
한계
HBM 채택 경향
CPU
스칼라+벡터
소수 고성능 코어
DDR/LPDDR (낮은 지연)
C/C++/Rust/Java/Python 등 범용
범용성, OS/제어
대병렬·행렬 성능/와트 낮음
드묾(일반적으로 없음)
GPU
벡터/텐서(SIMT)
수천~수만 스레드
HBM 다수(수 TB/s)
CUDA/ROCm, PyTorch/TF
대병렬·AI 훈련/추론
분기/불규칙 접근 비효율
매우 높음(표준)
NPU
텐서 전용(ASIC)
행렬(시스톨릭)
온칩 SRAM + HBM
XLA/Neuron/TensorRT-LLM 등
효율/와트, 대규모 추론
전용성·툴 의존
데이터센터급은 높음
HPC CPU
스칼라+넓은 SIMD
중간(코어↑, SIMD↑)
다채널 DDR + 일부 HBM
MPI/OpenMP, Fortran/C++
수치해석·분기·정확성
AI 특화 효율 낮음
일부 모델(Xeon Max/A64FX)

6) 언제 무엇을 쓰나

웹서비스·DB·업무 로직: CPU (낮은 지연·범용성).
대규모 AI 훈련/추론(LLM·멀티모달): GPU → 기본값, 전력·규모 최적화 시 NPU 병행.
대량 추론·TCO 절감: NPU(전용 플랫폼이 맞을 때).
과학·공학 시뮬레이션/수치해석: HPC CPU(+ 필요 시 GPU 혼합).
HBM 필요 여부: 대역폭 집약형(대규모 행렬/그래프/패킷버퍼)일수록 HBM 이점이 큼.

7) FAQ

Q1. NPU가 GPU를 대체하나요?
A. “대체”라기보다 용도 분화입니다. 훈련/다양한 모델·빠른 개발은 GPU가 유리, 대규모 반복 추론/전력 효율은 NPU가 강점.
Q2. HBM을 쓰면 무조건 빠른가요?
A. 메모리 대역폭 병목이 있는 워크로드에서 효과가 큽니다. 반대로 지연시간·작은 배치 위주 작업은 캐시·DDR가 더 중요할 수 있습니다.
Q3. HPC CPU와 일반 CPU 차이?
A. 넓은 벡터·메모리 채널·네트워크·일부 HBM으로 수치해석에 특화. 일반 CPU보다 연산/메모리 지속 처리가 강함.

한 줄 비유

CPU = 총괄 셰프(모든 주문 조율)
GPU = 수백 명 조리팀(같은 작업 대량 병렬)
NPU = 자동화 설비(특정 메뉴 전용 라인)
HPC CPU = 근육질 셰프 + 대형 작업대(정밀 레시피·대량 재료 흐름 최적)