| 구분(성능) | 일반 기업 | 플랫폼 GPU | ||
|---|---|---|---|---|
| 기준 GPU | CPU (예: Xeon 16core) | NVIDIA RTX 3060 | NVIDIA T4 | NVIDIA L40S |
| 초기 구축 비용 | 0~500만원 | 200~500만원 | 1,500~3,000만원 | 0원 |
시간당 사용 비용(클라우드) | 약 1,000원 | 약 2,000~3,000원 | 약 5,000~8,000원 | 약 10,000~15,000원 |
연간 총비용(3년 기준 환산) | ~500만원 | ~700만원 | ~2,500만원 | 사용량 기준(예: 1,000시간 → 약 1,000만원) |
학습 속도(ResNet50 기준) | 1 epoch ≈ 120분 | 1 epoch ≈ 25분 | 1 epoch ≈ 15분 | 1 epoch ≈ 5~7분 |
| LLM 학습 가능 여부 | 불가능 | 불가능/매우 제한 | 제한적 (경량 모델) | 가능 (대형 모델) |
| VRAM | 없음 | 12GB | 16GB | 48GB |
처리 성능(연산 속도)(FP32 기준) | ~0.5 TFLOPS | ~13 TFLOPS | ~8 TFLOPS | ~90 TFLOPS |
데이터 처리량(상대 비교) | 1배 | 8배 | 12배 | 50~100배 |
| 동시 작업 수 | 1개 | 1~2개 | 2~4개 | 8개 이상 |
| 확장 시간 | 불가능 | 수일~수주 | 수주~수개월 | 즉시 (분 단위) |
| 구분(SPEC) | 일반 기업 | 플랫폼 GPU | ||
|---|---|---|---|---|
| 기준 GPU | CPU (예: Xeon 16core) | NVIDIA RTX 3060 | NVIDIA T4 | NVIDIA L40S |
| 스트림 프로세서 수 | - | 3584 | 2560 | 18176 |
| 코어 주파수 | - | 1320 MHz | 585 MHz | 1110 MHz |
| Boost 모드의 주파수 | - | 1777 MHz | 1590 MHz | 2520 MHz |
| 트랜지스터 수 | - | 12,000 million | 13,600 million | 76,300 million |
| 기술적 과정 | - | 8 nm | 12 nm | 5 nm |
| 전력 소비(TDP) | - | 170 Watt | 70 Watt | 300 Watt |
| 텍스처링 속도 | - | 199.0 | 254.4 | 1,431 |
| 부동 소수점 성능 | - | 12.74 TFLOPS | 8.141 TFLOPS | 91.61 TFLOPS |
| ROPs | - | 48 | 64 | 192 |
| TMUs | - | 112 | 160 | 568 |
| Tensor Cores | - | 112 | 320 | 568 |
| Ray Tracing Cores | - | 28 | 40 | 142 |
| L1 Cache | - | 3.5 메가바이트 | 2.5 메가바이트 | 17.8 메가바이트 |
| L2 Cache | - | 3 메가바이트 | 4 메가바이트 | 48 메가바이트 |
| 기억 유형 | - | GDDR6 | GDDR6 | GDDR6 |
| 최대 기억 용량 | - | 12 기가바이트 | 16 기가바이트 | 48 기가바이트 |
| 메모리 버스 폭 | - | 192 Bit | 256 Bit | 384 Bit |
| 기억 주파수 | - | 1875 MHz | 1250 MHz | 2250 MHz |
| 메모리 대역폭 | - | 360.0 기가바이트/s | 320.0 기가바이트/s | 864.0 기가바이트/s |