์ผ๋ฐ ๊ธฐ์
์ฉ LLM ๋์
์ ๊ณ ๋ ค ์ฌํญ
ยท
๐ํ๋ก๊ทธ๋๋ฐ
Llama 3.3 70B๋ฅผ ๊ธฐ์ค์ผ๋ก ์์ฑ๋ ์๊ฒฌ ์
๋๋ค. 70B์ LLM์ ๋์์ํค๊ธฐ ์ํด์๋ ์ ํ๋ ์งํ(์์ํ)์ ๋ฐ๋ผ์ ์๋์ ๊ฐ์ด ํ์ํ GPU์ ์๊ฐ ๋ฌ๋ผ์ง๊ฒ ๋ฉ๋๋ค. FP16(140GB/GPU 8๋) - INT8(70GB/GPU 4๋) - INT4(35GB/GPU 2๋) Llama 70B์ ๊ฐ์ ๋ํ ๋ชจ๋ธ์ FP16์ผ๋ก ํ์ต๋๋ฉฐ, ์ฌ์ฉํ ๋ INT8 ์์ํ ์ ์ ํ๋๋ ์ฝ 1% ๋ด์ธ๋ก๋ง ๊ฐ์์ํค๋ฉด์๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 50%๋ ์ค์ด๊ณ ์๋๋ ์ต๋ 2๋ฐฐ๊น์ง ํฅ์์ํฌ ์ ์์ต๋๋ค. RTX 4090 4๋ ๊ตฌ์ฑ์ ๋ฉ๋ชจ๋ฆฌ ์ด๋(96GB)์ด INT8 ์์ํ๋ 70B ๋ชจ๋ธ(์ฝ 70GB ํ์)์ ์ถฉ๋ถํ ์์ฉํ ์ ์์ผ๋ฉฐ, LoRA์ ๊ฐ์ PEFT ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ถ๊ฐ ํ์ต๋ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์์ต๋๋ค. ..