
LitGPT 개요
최근 LLM(대규모 언어 모델)을 활용한 서비스 개발이 급격히 늘어나고 있다. 하지만 실제로 모델을 학습하고, 미세 조정하고, 배포하는 과정에 들어가면 생각보다 높은 진입 장벽을 마주하게 된다. 복잡한 설정, GPU 자원 관리, 다양한 프레임워크 간의 호환성 문제까지 고려해야 하기 때문이다.
이러한 문제를 해결하기 위해 등장한 도구가 바로 LitGPT다. LitGPT는 LLM의 전 과정을 단순화하여, 누구나 빠르게 모델을 다루고 실험할 수 있도록 설계된 오픈소스 라이브러리다. LitGPT는 LLM을 가장 빠르게 다루는 실전 도구이다.
LitGPT 필요한 이유
LLM을 직접 다루는 과정은 크게 다음과 같은 문제를 포함한다.
- 모델 구조 이해 필요
- 학습 및 미세 조정 환경 구성
- GPU 및 메모리 최적화
- 배포 및 API 서버 구축
이러한 복잡성 때문에 많은 개발자들이 “LLM을 활용하고 싶지만 구현이 어렵다”는 문제를 겪는다.
LitGPT는 이 문제를 해결하기 위해 학습 → 미세조정 → 배포까지 하나의 흐름으로 통합한 것이 핵심이다.
LitGPT 특징
LitGPT는 단순한 라이브러리가 아니라 LLM 운영을 위한 통합 환경에 가깝다.
주요 특징은 다음과 같다.
- 20개 이상의 다양한 LLM 모델 지원
- 모델 내부 구조를 숨기지 않는 투명한 설계
- 메모리 효율성과 속도 최적화
- 단일 GPU부터 대규모 클러스터까지 확장 가능
- Apache 2.0 라이선스로 기업 사용 가능
특히 “추상화 제거” 설계는 디버깅과 커스터마이징을 쉽게 만든다는 점에서 실무적으로 매우 중요하다.
LitGPT가 강력한 이유
단순한 라이브러리를 넘어서
LitGPT의 핵심 가치는 다음에 있다.
- LLM 개발 진입 장벽을 크게 낮춘다
- 실험 → 학습 → 배포까지 하나로 연결한다
- GPU 환경에서도 안정적으로 동작한다
- 다양한 모델을 동일한 방식으로 다룰 수 있다
빠른 프로토타이핑과 실무 적용 속도에서 강력한 장점을 가진다.
LitGPT 활용 사례
다음과 같은 경우에 특히 유용하다.
- 사내 AI 챗봇 구축
- 도메인 특화 LLM 개발
- RAG 시스템과 결합
- 빠른 LLM 실험 환경 구축
- 온프레미스 AI 서비스 운영
특히 온프레미스 환경에서는 API 제한 없이 활용할 수 있다는 점이 큰 장점이다.
LitGPT 전체 워크플로
LitGPT는 다음과 같은 흐름으로 동작한다.
- 모델 선택 및 다운로드
- 데이터 준비
- 미세 조정 (Finetune)
- 성능 평가 (Evaluate)
- 배포 (Serve)
- 채팅 및 테스트 (Chat)
이 구조를 이해하면 LLM 개발의 전체 흐름을 빠르게 파악할 수 있다.
LitGPT 설치 및 기본 실행 방법
LitGPT는 매우 간단하게 설치할 수 있다.
pip install litgpt
$ pip install litgpt
Collecting litgpt
Using cached litgpt-0.5.4-py3-none-any.whl (176 kB)
Collecting tqdm>=4.66.0
Using cached tqdm-4.67.1-py3-none-any.whl (78 kB)
Collecting lightning==2.4.0
Using cached lightning-2.4.0-py3-none-any.whl (810 kB)
Collecting huggingface_hub>=0.23.5
Downloading huggingface_hub-0.27.0-py3-none-any.whl (450 kB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 450.5/450.5 kB 8.7 MB/s eta 0:00:00
... (중략) ...
Collecting frozenlist>=1.1.1
Using cached frozenlist-1.5.0-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (241 kB)
Collecting async-timeout<6.0,>=4.0
Using cached async_timeout-5.0.1-py3-none-any.whl (6.2 kB)
Installing collected packages: mpmath, urllib3, typing-extensions, tqdm, sympy, safetensors, PyYAML, propcache, packaging, nvidia-nvtx-cu12, nvidia-nvjitlink-cu12, nvidia-nccl-cu12, nvidia-curand-cu12, nvidia-cufft-cu12, nvidia-cuda-runtime-cu12, nvidia-cuda-nvrtc-cu12, nvidia-cuda-cupti-cu12, nvidia-cublas-cu12, numpy, networkx, MarkupSafe, importlib-resources, idna, fsspec, frozenlist, filelock, docstring-parser, charset-normalizer, certifi, attrs, async-timeout, aiohappyeyeballs, typeshed-client, triton, requests, nvidia-cusparse-cu12, nvidia-cudnn-cu12, multidict, lightning-utilities, jsonargparse, jinja2, aiosignal, yarl, nvidia-cusolver-cu12, huggingface_hub, torch, tokenizers, aiohttp, torchmetrics, pytorch-lightning, lightning, litgpt
설치 후 바로 모델을 로드하여 사용할 수 있다.
from litgpt import LLM
llm = LLM.load("microsoft/phi-2")
text = llm.generate("Please explain in detail : how and when the computer was developed.")
print(text)
이처럼 몇 줄의 코드만으로 LLM을 직접 실행할 수 있다는 점이 가장 큰 장점이다.
LitGPT로 LLM 미세 조정하는 방법
LLM을 실무에 적용하려면 특정 도메인에 맞게 모델을 조정해야 한다.
"litgpt download list" 명령을 실행하여 사용 가능한 모든 모델을 나열할 수 있다.
$ litgpt download list
$ litgpt download list
Please specify --repo_id <repo_id>. Available values:
allenai/OLMo-1B-hf
allenai/OLMo-7B-hf
allenai/OLMo-7B-Instruct-hf
BSC-LT/salamandra-2b
BSC-LT/salamandra-2b-instruct
BSC-LT/salamandra-7b
BSC-LT/salamandra-7b-instruct
codellama/CodeLlama-13b-hf
codellama/CodeLlama-13b-Instruct-hf
codellama/CodeLlama-13b-Python-hf
codellama/CodeLlama-34b-hf
codellama/CodeLlama-34b-Instruct-hf
codellama/CodeLlama-34b-Python-hf
codellama/CodeLlama-70b-hf
codellama/CodeLlama-70b-Instruct-hf
codellama/CodeLlama-70b-Python-hf
codellama/CodeLlama-7b-hf
codellama/CodeLlama-7b-Instruct-hf
codellama/CodeLlama-7b-Python-hf
... (중략) ...
google/codegemma-7b-it
google/gemma-2-27b
google/gemma-2-27b-it
google/gemma-2-2b
google/gemma-2-2b-it
google/gemma-2-9b
google/gemma-2-9b-it
google/gemma-2b
google/gemma-2b-it
google/gemma-7b
google/gemma-7b-it
... (중략) ...
meta-llama/Llama-3.2-1B
meta-llama/Llama-3.2-1B-Instruct
meta-llama/Llama-3.2-3B
meta-llama/Llama-3.2-3B-Instruct
meta-llama/Llama-3.3-70B-Instruct
meta-llama/Meta-Llama-3-70B
meta-llama/Meta-Llama-3-70B-Instruct
meta-llama/Meta-Llama-3-8B
meta-llama/Meta-Llama-3-8B-Instruct
meta-llama/Meta-Llama-3.1-405B
meta-llama/Meta-Llama-3.1-405B-Instruct
meta-llama/Meta-Llama-3.1-70B
meta-llama/Meta-Llama-3.1-70B-Instruct
meta-llama/Meta-Llama-3.1-8B
meta-llama/Meta-Llama-3.1-8B-Instruct
... (중략) ...
TinyLlama/TinyLlama-1.1B-Chat-v1.0
TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
togethercomputer/LLaMA-2-7B-32K
Trelis/Llama-2-7b-chat-hf-function-calling-v2
unsloth/Mistral-7B-v0.2
LitGPT에서는 다음 단계로 진행된다.
- 모델 다운로드
- 데이터셋 준비
- Finetune 실행
예시:
litgpt finetune microsoft/phi-2 \
--data JSON \
--data.json_path my_custom_dataset.json \
--devices 2
이 과정을 통해 본 모델을 특정 업무에 최적화할 수 있다.
LitGPT 배포 방법
모델 학습이 끝나면 바로 배포가 가능하다.
litgpt serve microsoft/phi-2
이 명령 하나로
- API 서버 실행
- Swagger UI 제공
- REST 기반 호출 가능
별도의 백엔드 개발 없이 바로 서비스화가 가능하다.
코드 실행
아래의 코드를 실행해 보자.
"microsoft/phi-2" 모델을 사용하여 간단한 프롬프트로 답변을 생성하는 코드이다.
소스코드 : hello_litgpt_1.py
from litgpt import LLM
llm = LLM.load("microsoft/phi-2")
# 프롬프트 : "컴퓨터가 어떻게 그리고 언제 개발되었는지 자세히 설명해 주세요."
text = llm.generate("Please explain in detail : how and when the computer was developed.")
print(text)
처음 실행하면 모델을 내려받는데 시간이 걸린다. 다음번 실행에는 내려받는 과정을 생략한다.
config.json: 100%|████████████████████████████████████████████████| 735/735 [00:00<00:00, 7.75MB/s]
generation_config.json: 100%|█████████████████████████████████████| 124/124 [00:00<00:00, 2.06MB/s]
model-00001-of-00002.safetensors: 100%|███████████████████████████| 5.00G/5.00G [00:12<00:00, 397MB/s]
model-00002-of-00002.safetensors: 100%|███████████████████████████| 564M/564M [00:01<00:00, 421MB/s]
model.safetensors.index.json: 100%|███████████████████████████████| 35.7k/35.7k [00:00<00:00, 115MB/s]
tokenizer.json: 100%|█████████████████████████████████████████████| 2.11M/2.11M [00:00<00:00, 21.5MB/s]
tokenizer_config.json: 100%|██████████████████████████████████████| 7.34k/7.34k [00:00<00:00, 80.6MB/s]
실행 결과
|
In 1927-28, Alan Turing was a student at the University of Manchester in the United Kingdom. He is most famous for his work in computer science and mathematics, particularly for his development of the Turing Machine, a theoretical model of computation.
번역 : 1927~28년 앨런 튜링은 영국 맨체스터 대학교에 재학 중이었습니다. 그는 컴퓨터 과학과 수학 분야에서 가장 유명하며, 특히 계산의 이론적 모델인 튜링 머신을 개발한 것으로 유명합니다.
|
||
|
In 1948, John von Neumann and Conlon Keyes invented the computer to process large amounts of data quickly and accurately. It used an arithmetic logic unit (ALU) and core memory.
번역 : 1948년 존 폰 노이만과 콘론 키스는 대량의 데이터를 빠르고 정확하게 처리하기 위해 컴퓨터를 발명했습니다. 이 컴퓨터는 산술 논리 장치(ALU)와 코어 메모리를 사용했습니다.
|
소스코드 : hello_litgpt_2.py
"meta-llama/Llama-3.2-3B-Instruct" 모델을 사용하여 간단한 프롬프트로 답변을 생성하는 코드이다.
from litgpt import LLM
llm = LLM.load("meta-llama/Llama-3.2-3B-Instruct")
# 프롬프트 : "컴퓨터가 어떻게 그리고 언제 개발되었는지 자세히 설명해 주세요."
result = llm.generate("Please explain in detail : how and when the computer was developed.", stream=True)
for e in result:
print(e, end="", flush=True)
실행 결과
|
The development of the computer is a fascinating story that spans several decades, involving the contributions of many pioneers and innovators. Here's a detailed overview of the key events, milestones, and players that led to the creation of the modern computer:
번역 : 컴퓨터의 발전은 수십 년에 걸친 흥미로운 이야기로, 많은 선구자와 혁신가들의 공헌을 담고 있습니다. 현대 컴퓨터의 탄생을 이끈 주요 사건, 이정표, 플레이어에 대한 자세한 개요는 다음과 같습니다:
|
||
|
The development of the computer, as we know it today, is a long and complex story that spans several centuries. I'll try to provide a detailed overview of the key milestones and breakthroughs that led to the creation of modern computers.
번역 : 오늘날 우리가 알고 있는 컴퓨터의 발전은 수세기에 걸친 길고 복잡한 이야기입니다. 현대 컴퓨터의 탄생으로 이어진 주요 이정표와 돌파구에 대해 자세히 설명해 드리겠습니다.
|
워크플로
LitGPT를 설치한 후 실행할 모델과 워크플로(세부 조정, 사전 학습, 평가, 배포 등)를 선택한다.
$ ligpt [action] [model]
litgpt serve meta-llama/Llama-3.2-3B-Instruct
litgpt finetune meta-llama/Llama-3.2-3B-Instruct
litgpt pretrain meta-llama/Llama-3.2-3B-Instruct
litgpt chat meta-llama/Llama-3.2-3B-Instruct
litgpt evaluate meta-llama/Llama-3.2-3B-Instruct
미세조정
미세 조정은 사전 훈련된 AI 모델을 기반으로 특정 작업이나 애플리케이션에 적합하도록 조정된 더 작은 특화된 데이터세트를 사용하여 추가로 훈련하는 과정이다.
1) 모델 다운로드
$ litgpt download microsoft/phi-2
2) 데이터셋
$ curl -L https://huggingface.co/datasets/ksaw008/finance_alpaca/resolve/main/finance_alpaca.json
-o my_custom_dataset.json
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 1186 100 1186 0 0 3835 0 --:--:-- --:--:-- --:--:-- 3838
100 21.1M 100 21.1M 0 0 6344k 0 0:00:03 0:00:03 --:--:-- 7341k
3) 모델 미세 조정
$ litgpt finetune microsoft/phi-2 \
--data JSON \
--data.json_path my_custom_dataset.json \
--data.val_split_fraction 0.1 \
--devices 2 \
--precision "bf16-true" \
--out_dir out/custom-model
{'access_token': None,
'checkpoint_dir': PosixPath('checkpoints/microsoft/phi-2'),
'data': JSON(json_path=PosixPath('my_custom_dataset.json'),
mask_prompt=False,
val_split_fraction=0.1,
prompt_style=<litgpt.prompts.Alpaca object at 0x7f10cfaaa890>,
ignore_index=-100,
seed=42,
num_workers=4),
'devices': 2,
'eval': EvalArgs(interval=100,
max_new_tokens=100,
max_iters=100,
initial_validation=False,
final_validation=True,
evaluate_example='first'),
'logger_name': 'csv',
'lora_alpha': 16,
'lora_dropout': 0.05,
'lora_head': False,
'lora_key': False,
'lora_mlp': False,
'lora_projection': False,
'lora_query': True,
'lora_r': 8,
'lora_value': True,
'num_nodes': 1,
'optimizer': 'AdamW',
'out_dir': PosixPath('out/custom-model'),
'precision': 'bf16-true',
'quantize': None,
'seed': 1337,
'train': TrainArgs(save_interval=1000,
log_interval=1,
global_batch_size=16,
micro_batch_size=1,
lr_warmup_steps=100,
lr_warmup_fraction=None,
epochs=5,
max_tokens=None,
max_steps=None,
max_seq_length=None,
tie_embeddings=None,
max_norm=None,
min_lr=6e-05)}
Unrecognized GPU vendor: Tesla T4
Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/2
{'access_token': None,
'checkpoint_dir': PosixPath('checkpoints/microsoft/phi-2'),
'data': JSON(json_path=PosixPath('my_custom_dataset.json'),
mask_prompt=False,
val_split_fraction=0.1,
prompt_style=<litgpt.prompts.Alpaca object at 0x7f0793692b00>,
ignore_index=-100,
seed=42,
num_workers=4),
'devices': 2,
'eval': EvalArgs(interval=100,
max_new_tokens=100,
max_iters=100,
initial_validation=False,
final_validation=True,
evaluate_example='first'),
'logger_name': 'csv',
'lora_alpha': 16,
'lora_dropout': 0.05,
'lora_head': False,
'lora_key': False,
'lora_mlp': False,
'lora_projection': False,
'lora_query': True,
'lora_r': 8,
'lora_value': True,
'num_nodes': 1,
'optimizer': 'AdamW',
'out_dir': PosixPath('out/custom-model'),
'precision': 'bf16-true',
'quantize': None,
'seed': 1337,
'train': TrainArgs(save_interval=1000,
log_interval=1,
global_batch_size=16,
micro_batch_size=1,
lr_warmup_steps=100,
lr_warmup_fraction=None,
epochs=5,
max_tokens=None,
max_steps=None,
max_seq_length=None,
tie_embeddings=None,
max_norm=None,
min_lr=6e-05)}
Initializing distributed: GLOBAL_RANK: 1, MEMBER: 2/2
----------------------------------------------------------------------------------------------------
distributed_backend=nccl
All distributed processes registered. Starting with 2 processes
----------------------------------------------------------------------------------------------------
[rank: 1] Seed set to 1337
[rank: 0] Seed set to 1337
... (중략) ...
Epoch 1 | iter 1 step 0 | loss train: 0.785, val: n/a | iter time: 5761.40 ms
Epoch 1 | iter 2 step 0 | loss train: 0.820, val: n/a | iter time: 6165.61 ms
Epoch 1 | iter 3 step 0 | loss train: 0.823, val: n/a | iter time: 5443.08 ms
Epoch 1 | iter 4 step 0 | loss train: 0.808, val: n/a | iter time: 6369.50 ms
... (중략) ...
| ------------------------------------------------------
| Token Counts
| - Input Tokens : 20588
| - Tokens w/ Prompt : 21548
| - Total Tokens (w/ Padding) : 21548
| -----------------------------------------------------
| Performance
| - Training Time : 122.25 s
| - Tok/sec : 176.26 tok/s
| -----------------------------------------------------
| Memory Usage
| - Memory Used : 9.43 GB
-------------------------------------------------------
Validating ...
Final evaluation | val loss: 0.773 | val ppl: 2.167
Saving LoRA weights to 'out/custom-model/final/lit_model.pth.lora'
{'checkpoint_dir': PosixPath('out/custom-model/final'),
'precision': None,
'pretrained_checkpoint_dir': None}
4) 모델 테스트
$ litgpt chat out/custom-model/final
$ litgpt chat out/custom-model/final
{'access_token': None,
'checkpoint_dir': PosixPath('out/custom-model/final'),
'compile': False,
'max_new_tokens': 50,
'multiline': False,
'precision': None,
'quantize': None,
'temperature': 0.8,
'top_k': 50,
'top_p': 1.0}
Now chatting with phi-2.
To exit, press 'Enter' on an empty prompt.
Seed set to 1234
>> Prompt: What kind of book should I read?
>> Reply: It depends on your __________.
Time for inference: 0.69 sec total, 12.96 tokens/sec, 9 tokens
5) 모델 배포
$ litgpt serve out/custom-model/final
$ litgpt serve out/custom-model/final
{'accelerator': 'auto',
'access_token': None,
'checkpoint_dir': PosixPath('out/custom-model/final'),
'devices': 1,
'max_new_tokens': 50,
'port': 8000,
'precision': None,
'quantize': None,
'stream': False,
'temperature': 0.8,
'top_k': 50,
'top_p': 1.0}
INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
Initializing model...
Using 1 device(s)
Model successfully initialized.
Swagger UI is available at http://0.0.0.0:8000/docs
INFO: Started server process [146031]
INFO: Waiting for application startup.
INFO: Application startup complete.
배포
사전 훈련되거나 미세 조정된 LLM을 배포하여 실제 애플리케이션에서 사용합니다. 배포, 웹사이트나 앱에서 액세스할 수 있는 웹 서버를 자동으로 설정합니다.
$ litgpt serve microsoft/phi-2
$ litgpt serve microsoft/phi-2
{'accelerator': 'auto',
'access_token': None,
'checkpoint_dir': PosixPath('checkpoints/microsoft/phi-2'),
'devices': 1,
'max_new_tokens': 50,
'port': 8000,
'precision': None,
'quantize': None,
'stream': False,
'temperature': 0.8,
'top_k': 50,
'top_p': 1.0}
INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
Initializing model...
Using 1 device(s)
Model successfully initialized.
Swagger UI is available at http://0.0.0.0:8000/docs
INFO: Started server process [24907]
INFO: Waiting for application startup.
INFO: Application startup complete.


아래의 코드를 실행해 보자.
"microsoft/phi-2" 모델을 사용하여 간단한 프롬프트로 답변을 생성하는 코드이다.
소스코드 : serve_litgpt.py
import litgpt
import litserve as ls
class Llama3API(ls.LitAPI):
def setup(self, device):
self.llm = litgpt.LLM.load("meta-llama/Llama-3.2-3B-Instruct")
def decode_request(self, request):
return request["prompt"]
def predict(self, prompt):
yield from self.llm.generate(prompt, max_new_tokens=200, stream=True)
def encode_response(self, output):
for out in output:
yield {"output": out}
if __name__ == "__main__":
api = Llama3API()
server = ls.LitServer(api, stream=True)
server.run(port=8000)
실행 결과
INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
Swagger UI is available at http://0.0.0.0:8000/docs
INFO: Started server process [33080]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Started server process [33086]
INFO: Waiting for application startup.
INFO: Application startup complete.
대화형 채팅
대화형 채팅을 통해 모델이 얼마나 잘 작동하는지 테스트한다.
chat명령을 사용하여 채팅하고, 임베딩을 추출하는 등의 작업을 수행한다.
$ litgpt chat microsoft/phi-2
{'access_token': None,
'checkpoint_dir': PosixPath('checkpoints/microsoft/phi-2'),
'compile': False,
'max_new_tokens': 50,
'multiline': False,
'precision': None,
'quantize': None,
'temperature': 0.8,
'top_k': 50,
'top_p': 1.0}
Now chatting with phi-2.
To exit, press 'Enter' on an empty prompt.
Seed set to 1234
>> Prompt: Please explain in detail : how and when the computer was developed.
>> Reply: When the computer was developed, the first step was to design the architecture and determine the components that would be needed to create a functional system. The next step was to develop the programming languages and create the software necessary to make the computer function. Finally,
Time for inference: 1.72 sec total, 29.07 tokens/sec, 50 tokens
>> Prompt:
평가
대규모 언어 모델(LLM)을 평가하는 과정은 다양한 작업에서 모델의 성능을 테스트하여 텍스트를 얼마나 잘 이해하고 생성할 수 있는지 확인하는 것을 포함한다. 대학 수준의 화학 문제나 코딩 작업에서 얼마나 잘 수행할 수 있는지를 평가할 수 있다.
$ litgpt evaluate microsoft/phi-2 --tasks 'truthfulqa_mc2,mmlu'
LLM에서 수행된 테스트에 대한 결과 표가 생성된다.
| Tasks |Version|Filter|n-shot|Metric|Value | |Stderr|
|---------------------------------------|-------|------|-----:|------|-----:|---|-----:|
|mmlu |N/A |none | 0|acc |0.5323|± |0.0040|
| - humanities |N/A |none | 0|acc |0.4825|± |0.0069|
| - formal_logic | 0|none | 0|acc |0.3651|± |0.0431|
| - high_school_european_history | 0|none | 0|acc |0.6788|± |0.0365|
| - high_school_us_history | 0|none | 0|acc |0.6520|± |0.0334|
...
| - prehistory | 0|none | 0|acc |0.6019|± |0.0272|
| - professional_law | 0|none | 0|acc |0.4009|± |0.0125|
| - world_religions | 0|none | 0|acc |0.6667|± |0.0362|
| - other |N/A |none | 0|acc |0.5816|± |0.0086|
| - business_ethics | 0|none | 0|acc |0.5100|± |0.0502|
| - clinical_knowledge | 0|none | 0|acc |0.6302|± |0.0297|
| - college_medicine | 0|none | 0|acc |0.5260|± |0.0381|
...
| - stem |N/A |none | 0|acc |0.4608|± |0.0086|
| - abstract_algebra | 0|none | 0|acc |0.2900|± |0.0456|
| - anatomy | 0|none | 0|acc |0.4593|± |0.0430|
| - astronomy | 0|none | 0|acc |0.5724|± |0.0403|
...
| - high_school_chemistry | 0|none | 0|acc |0.4483|± |0.0350|
| - high_school_computer_science | 0|none | 0|acc |0.6700|± |0.0473|
| - high_school_mathematics | 0|none | 0|acc |0.3000|± |0.0279|
|truthfulqa_mc2 | 2|none | 0|acc |0.4450|± |0.0151|'Text Gen AI > 대규모 언어 모델 (LLM)' 카테고리의 다른 글
| 언어 모델 비교 - LLM, sLLM, SLM을 알아보자 (0) | 2026.05.03 |
|---|---|
| LLM 구성요소 - 대규모 언어 모델(LLM)의 핵심 구성 요소 (0) | 2026.05.03 |
| LLM 생성과정 - LLM 생성과정을 단계별로 살펴보자 (0) | 2026.05.03 |
| LLM 활용방법 - 전이 학습, 파인 튜닝, 퓨샷 러닝, ...둥 (0) | 2026.05.02 |
| LLM 모델 - 2026년 가장 유망한 LLM 모델 (2) | 2026.05.02 |
댓글