Llama 3.3 70B๋ฅผ ๊ธฐ์ค์ผ๋ก ์์ฑ๋ ์๊ฒฌ ์
๋๋ค.
70B์ LLM์ ๋์์ํค๊ธฐ ์ํด์๋ ์ ํ๋ ์งํ(์์ํ)์ ๋ฐ๋ผ์ ์๋์ ๊ฐ์ด ํ์ํ GPU์ ์๊ฐ ๋ฌ๋ผ์ง๊ฒ ๋ฉ๋๋ค.
FP16(140GB/GPU 8๋) - INT8(70GB/GPU 4๋) - INT4(35GB/GPU 2๋)
Llama 70B์ ๊ฐ์ ๋ํ ๋ชจ๋ธ์ FP16์ผ๋ก ํ์ต๋๋ฉฐ, ์ฌ์ฉํ ๋ INT8 ์์ํ ์ ์ ํ๋๋ ์ฝ 1% ๋ด์ธ๋ก๋ง ๊ฐ์์ํค๋ฉด์๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 50%๋ ์ค์ด๊ณ ์๋๋ ์ต๋ 2๋ฐฐ๊น์ง ํฅ์์ํฌ ์ ์์ต๋๋ค.
RTX 4090 4๋ ๊ตฌ์ฑ์ ๋ฉ๋ชจ๋ฆฌ ์ด๋(96GB)์ด INT8 ์์ํ๋ 70B ๋ชจ๋ธ(์ฝ 70GB ํ์)์ ์ถฉ๋ถํ ์์ฉํ ์ ์์ผ๋ฉฐ, LoRA์ ๊ฐ์ PEFT ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ถ๊ฐ ํ์ต๋ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ํฅํ ์๋ณธ์ 0.1-1%, ์ฝ 70M-700M ํ๋ผ๋ฏธํฐ ์ถ๊ฐ ํ์ต ๊ณํ์ ๊ณ ๋ คํ์ฌ RTX 4090 4๋ ๊ตฌ์ฑ์ ์ ์ ํ์ต๋๋ค.
A100์ด๋ H100 ๊ฐ์ ๊ณ ๊ฐ์ ๋ฐ์ดํฐ์ผํฐ๊ธ GPU ๋์ RTX 4090์ ์ฌ์ฉํจ์ผ๋ก์จ ๋น์ฉ์ ํฌ๊ฒ ์ ๊ฐํ๋ฉด์๋, INT8 ์์ํ๋ฅผ ํตํด ํ์ํ ์ฑ๋ฅ์ ํ๋ณดํ ์ ์์ด ๋งค์ฐ ํจ์จ์ ์ธ ์ ํ์ผ๋ก ๋ณด์
๋๋ค.
๋ํ ์๋ ๋ฐ ์๊ฐ์ ๊ณ ๋ คํ์ฌ INT4๋ก ์์ํ ํ์ฌ ์ต์ ํ ํ ์ ์์ต๋๋ค.
์์ ์๋ฒ ๋น์ฉ์ 3,000๋ง์ ์ดํ๋ก ์์๋ฉ๋๋ค.
[๊ฒฌ์ ์ฐธ๊ณ ๋์]
https://www.baroai.com/spec_H
https://itmaya.co.kr/server_view.php?idx=358
https://www.ryansys.co.kr/goods/goods_view.php?goodsNo=1000018466
[RTX 3090 x4 Llama3.3 ์์ฐ ์์(Q4/Int4 ์์ํ)]
https://www.youtube.com/watch?v=f7i3vtbMjHM&t=983s
[LLM์ ๊ฐ ์์
์ ํ์ํ GPU ์ฐ์ ์ฐธ๊ณ ํ]
https://aifusion.company/gpu-llm
'๐ํ๋ก๊ทธ๋๋ฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
RAG ๊ธฐ๋ฐ AI ๊ฒ์ ์์คํ : ์คํ ํ๋ฆ, ๊ตฌ์ถ ๊ณผ์ , ์ํคํ ์ณ (0) | 2025.03.04 |
---|---|
๋ค์ด๋ฒ ๋ด์ค์ ํฅ๋ฏธ๋ก์ด ๋๊ธ (0) | 2025.03.04 |
AI ํ์ฉ ๊ฒฝํ ๊ณต์ (feat. ์ฌ์ )* (0) | 2025.03.01 |
[์ ๋ณด] QR ์ฝ๋ ์์ฑ ์ฌ์ดํธ(๊ฒฝ์ X) (0) | 2025.02.28 |
[์ธ๊ณต์ง๋ฅ] ์ผ์๋ณ ๊ณตํฌํ์์ง์ ๋ฐ ๊ฒ์๊ธ ์ ๋ชฉ ํ์ต ํ๊ธฐ (0) | 2024.08.04 |