Text Gen AI/자연어 처리 (NLP)

LLM 개요 - 대규모 언어 모델 개요와 모델 종류

Vento AI 연구소 2026. 5. 3.

LLM 개요

LLM은 'Large Language Model(거대 언어 모델)'의 약자로, 사람의 언어를 처리하는 모델을 의미한다. 대규모 데이터로 학습된, 매우 거대한 규모의 인공 지능 언어 모델이다. OpenAI가 GPT-3 모델을 학습시킬 때, 약 45TB 텍스트 데이터를 학습시켰고 약 1,750억 개의 파라미터를 가지고 있다.

LLM은 자연어 처리(NLP)의 중요한 구성 요소로, 텍스트 데이터를 이해하고 생성하는 데 사용된다. LLM은 대량의 텍스트 데이터를 학습하여 문장의 구조와 의미를 더 잘 이해할 수 있게 해준다. LLM은 자연어 처리(NLP) 작업에 혁명을 일으켰다.

대규모 언어 모델이 어떻게 작동하는지 이해하려면 사용 가능한 다양한 유형의 언어 모델을 이해하는 것이 중요하다. 가장 일반적인 언어 모델 유형은 순환 신경망(RNN), 합성곱 신경망(CNN), 장단기 메모리(LSTM)이다.

RNN, LSTM, GRU

머신러닝의 발전과 함께 신경망을 기반으로 하는 언어 모델이 등장했다. 대표적인 신경망 언어 모델에는 RNN (Recurrent Neural Network)과 LSTM(Long Short-Term Memory) 기르고 GRU(Gated Recurrent Unit)가 있다. RNN은 과거 정보를 기억하기 위해 메모리를 갖고 있고, LSTM은 장기 기억을 위해 메모리를 하나 더 두었다. GRU는 LSTM과 비교해 성능은 비슷하지만 구조가 더 단순하다.

RNN은 순환 신경망으로, 이전의 입력을 기억하며 순차적으로 데이터를 처리한다. 이는 문맥을 이해하는 데 유리하지만, 장기 의존성 문제로 인해 긴 문장의 경우 이전 정보를 잘 기억하지 못하는 한계가 있다. 이를 해결하기 위해 LSTM이 개발되었다. LSTM은 셀 상태(cell state)와 게이트 구조를 통해 장기 의존성을 더 잘 처리할 수 있다. 이러한 모델들은 문장의 의미와 문맥을 더 잘 이해하게 만들어준다.

GRU는 순환 신경망(RNN)의 한 유형이다. GRU는 시퀀스 데이터 처리에서 효과적이며, RNN의 한계였던 기울기 소실 문제를 해결하는 데 중요한 역할을 한다. LSTM과 유사한 기능을 수행하면서도 더 간단한 구조를 가지고 있다. LSTM은 3개의 게이트(입력, 출력, 망각 게이트)를 사용하는 반면, GRU는 2개의 게이트(업데이트, 리셋 게이트)만을 사용한다.

[출처] https://aiml.com/compare-the-different-sequence-models-rnn-lstm-gru-and-transformers/

트랜스포머 아키텍처

2017년 구글은 트랜스포머(Transformer) 아키텍처를 도입하면서 언어 모델의 판도가 바뀌었다. 트랜스포머는 셀프 어텐션 메커니즘(self-attention mechanism)을 사용하여 문장의 각 단어 간 관계를 한 번에 파악할 수 있다. 이는 병렬 처리(parallel processing)를 가능하게 하여 모델 학습 속도를 크게 향상시켰다.

또한, 트랜스포머는 문맥을 더 잘 이해하고 긴 문장도 효과적으로 처리할 수 있는 능력을 갖추게 되었다. 트랜스포머의 도입은 언어 모델의 성능을 크게 향상시키며 NLP 연구에 큰 변화를 가져왔고 인간의 의도를 맥락에 맞게 이해할 수 있게 되었다.

Attention Is All You Need (구글 브레인에서 발표한 논문에서)

트랜스포머를 이용한 대표적인 모델에는 BERT와 GPT가 있다. BERT(Bidirectional Encoder Representations from Transformers)는 텍스트를 양방향으로 분석하여 문맥을 이해하는 언어 모델이다. BERT는 문장의 앞뒤를 동시에 고려하여 더 정확한 의미 파악이 가능하다. 이는 다양한 NLP 작업에서 높은 성능을 발휘한다.

GPT(Generative Pre-trained Transformer)는 OpenAI에서 개발한 모델로, 주로 텍스트 생성에 강점을 가지고 있다. GPT는 언어 모델링을 통해 대량의 텍스트 데이터를 학습하고, 주어진 문맥에 맞는 자연스러운 텍스트를 생성할 수 있다. GPT는 단방향으로 텍스트를 처리하지만, 대규모 데이터와 강력한 연산 능력을 통해 매우 높은 성능을 보여준다. 현재 GPT 시리즈는 다양한 응용 분야에서 사용되고 있으며, 인간의 언어를 이해하고 생성하는 데 기여를 하고 있다.

GPT (Generative Pretrained Transformer)

GPT는 OpenAI에서 개발한 Generative Pretrained Transformer 모델이다. 이 모델은 대량의 텍스트 데이터를 사전 학습(pre-training) 하고, 특정 작업에 대해 미세 조정(fine-tuning)을 통해 고성능을 발휘하는 자연어 처리 모델이다. GPT-4 부터는 멀티모달을 지원한다.

GPT-1: 2018년에 처음 발표된 GPT는 비교적 소규모의 모델로 시작되었으나, 언어 생성 작업에서 뛰어난 성능을 보였다.
GPT-2: 2019년에 발표된 GPT-2는 그 규모가 크게 확장되었으며, 자연스러운 텍스트 생성과 다양한 언어 작업에서 성과를 보였다.
GPT-3: 2020년 발표된 GPT-3는 약 1750억 개의 매개변수를 갖추고 있으며, GPT 시리즈 중 가장 큰 모델로, 다양한 작업에서 인간 수준에 가까운 언어 처리 능력을 보여줬다.
GPT-4: 2023년 발표된 GPT-4는 더욱 발전된 언어 처리 능력과 함께 멀티모달을 지원하게 되었다. 이를 통해 텍스트뿐만 아니라 이미지와 같은 다양한 입력 데이터를 처리할 수 있다.

[출처] https://www.geeksforgeeks.org/introduction-to-generative-pre-trained-transformer-gpt/

1) 입력 임베딩 (Input Embedding)

입력 : 원시 텍스트 입력은 개별 토큰(단어 또는 하위 단어)으로 토큰화된다.

임베딩 : 각 토큰은 임베딩 계층을 사용하여 밀집 벡터 표현으로 변환된다.

2) 위치 인코딩 (Positional Encoding)

변환기는 본질적으로 토큰의 순서를 이해하지 못하므로 시퀀스 정보를 유지하기 위해 입력 임베딩에 위치 인코딩이 추가된다.

3) 드롭아웃 레이어 (Dropout Layer)

드롭아웃 레이어는 학습 중 과도한 적합을 방지하기 위해 임베딩에 적용된다.

4) 트랜스포머 블록 (Transformer Block)

LayerNorm : 각 트랜스포머 블록은 레이어 정규화로 시작한다.

다중 헤드 셀프 어텐션 : 입력이 여러 개의 어텐션 헤드를 통과하는 핵심 구성 요소이다.

추가 및 정규화 : 어텐션 메커니즘의 출력이 입력에 다시 추가되고 다시 정규화된다.

피드포워드 네트워크 : 위치별 피드포워드 네트워크가 적용되며, 일반적으로 두 개의 선형 변환과 그 사이에 GeLU 활성화 함수가 포함.

드롭아웃 : 드롭아웃은 피드포워드 네트워크 출력에 적용된다.

5) 레이어 스택

변환기 블록을 쌓아 더 깊은 모델을 형성하여 네트워크가 입력에서 더 복잡한 패턴과 종속성을 포착할 수 있다.

6) 최종 레이어

LayerNorm : 최종 레이어 정규화가 적용된다.

Lenear : 출력은 어휘 크기에 매핑하기 위해 선형 계층을 통과한다.

Softmax : 소프트맥스 계층은 어휘집에 있는 각 토큰의 최종 확률을 생성하는 데 적용된다.

PaLM (Pathways Language Model)

PaLM은 GPT에 맞서기 위해 구글에서 개발한 Pathways Language Model이다. PaLM은 대규모 분산 학습 인프라(Pathways)를 활용하여 더 효율적이고 강력한 언어 모델을 만드는 것을 목표로 한다. 이 모델은 자연어 처리(NLP) 작업에서 매우 높은 성능을 보여주며, 다양한 작업을 하나의 통합된 시스템에서 수행할 수 있다.

Pathways는 하나의 모델이 다양한 작업을 동시에 처리할 수 있도록 지원하는 시스템으로, 대규모 데이터와 복잡한 계산을 효율적으로 처리하는 데 초점을 맞추고 있다. PaLM은 효율성과 확장성을 염두에 두고 설계되었다. 이는 구글의 분산 학습 인프라 덕분에 가능한 것으로, PaLM은 훈련 시 더 적은 자원으로 더 큰 성능을 낼 수 있도록 설계되었다.

[출처] https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/

[출처] https://www.hpcwire.com/2023/08/31/google-keynote-charts-ml-drivers-at-hot-chips-23/

T5 (Text-to-Text Transfer Transformer)

T5는 구글에서 개발한 대규모 언어 모델이다. 모든 자연어 처리(NLP) 작업을 텍스트 입력을 텍스트 출력으로 변환하는 문제로 통합하는 방식으로 설계되었다. 110억 개의 매개변수가 있으며 텍스트 분류, 텍스트 생성, 번역을 포함한 다양한 자연어 처리 작업을 수행하도록 훈련되었다.

T5는 단일 모델이 다양한 작업을 수행할 수 있도록 훈련되었으며, 모든 자연어 처리 작업을 텍스트 입력과 텍스트 출력의 문제로 변환한다. T5의 Text-to-Text 접근 방식은 NLP 작업을 하나의 통일된 프레임워크로 처리하는 혁신적인 방식으로, 복잡한 작업들을 일관된 방식으로 해결할 수 있는 길을 열어주었다.

[출처] https://cameronrwolfe.substack.com/p/t5-text-to-text-transformers-part

LLaMA (Large Language Model Meta AI)

LLaMA (Large Language Model Meta AI)는 Meta(이전의 Facebook)에서 개발한 대규모 언어 모델이다. LLaMA는 자연어 처리(NLP) 연구와 고성능 언어 모델 개발에 중점을 두고 있다. LLaMA는 다양한 규모의 모델을 제공하여 다양한 분야에서 활용할 수 있도록 설계되었다.

[출처] [출처] https://devopedia.org/llama-llm

LLaMA는 규모에 따라 세 가지 모델을 제공한다. 이를 통해 사용자는 자신의 필요에 맞는 모델을 선택할 수 있다. 이들 모델은 각각 다른 매개변수 크기를 가지고 있으며, 특정 작업에 맞게 성능과 자원 사용을 최적화할 수 있다.

LLaMA-7B: 70억 개의 매개변수
LLaMA-13B: 130억 개의 매개변수
LLaMA-30B: 300억 개 이상의 매개변수

[출처] https://devopedia.org/llama-llm

저작자표시 비영리 (새창열림)

'Text Gen AI > 자연어 처리 (NLP)' 카테고리의 다른 글

Transformer - 모델의 인코더-디코더 구조 이해하기 (0)	2026.05.04
형태소분석 - KoNLPy 사용하여 한국어 자연어 처리 (0)	2026.05.03
자연어 처리(NLP) - Seq2Seq 모델과 Self-Attention 메커니즘 (0)	2026.05.02
토큰화와 임베딩 - LLM이 언어를 이해하는 방식 (0)	2026.05.02
Seq2Seq 모델 - Encoder와 Decoder 구조 이해 (0)	2026.05.01