일반 기업용 LLM 도입시 고려 사항

·
🐞프로그래밍
Llama 3.3 70B를 기준으로 작성된 의견 입니다. 70B의 LLM을 동작시키기 위해서는 정확도 지표(양자화)에 따라서 아래와 같이 필요한 GPU의 수가 달라지게 됩니다. FP16(140GB/GPU 8대) - INT8(70GB/GPU 4대) - INT4(35GB/GPU 2대) Llama 70B와 같은 대형 모델은 FP16으로 학습되며, 사용할 때 INT8 양자화 시 정확도는 약 1% 내외로만 감소시키면서도, 메모리 사용량은 50%나 줄이고 속도는 최대 2배까지 향상시킬 수 있습니다. RTX 4090 4대 구성은 메모리 총량(96GB)이 INT8 양자화된 70B 모델(약 70GB 필요)을 충분히 수용할 수 있으며, LoRA와 같은 PEFT 기법을 사용하면 추가 학습도 효율적으로 수행할 수 있습니다. ..