반응형
최근 몇 년간 인공지능 기술이 급속도로 발전하고 있습니다. 그 중 가장 대표적인 모델이 LLM 모델인데요.
대규모 언어 모델은 과거에는 상당한 인프라와 컴퓨팅 자원을 필요로 했지만, 최근에는 모델의 경량화가 진행되면서 저전력 기기에서도 구동할 수 있게 되었습니다. 이러한 변화는 AI 기술을 일상생활에 더욱 밀접하게 사용할 수 있는 기회를 제공하고 있죠.
오늘 다룰 'phi-3-mini'는 3.8억 개의 파라미터를 가진 소형 언어 모델로, iPhone에서도 실행 가능할 만큼 작지만 Mixtral 8x7B 및 GPT-3.5와 같은 모델과 경쟁할 수 있는 성능을 보여줍니다.
'phi-3-mini'의 주목받는 이유
- 소형 사이즈: 'phi-3-mini'는 3.8억 개의 파라미터를 가진 소형 모델로, 현대의 스마트폰에서도 구동이 가능하다는 큰 장점이 있습니다.
- 높은 성능: 크기에 비해 매우 높은 성능을 보이며, 크기가 훨씬 큰 모델들과 경쟁할 수 있습니다. 예를 들어, 학문적 벤치마크인 MMLU에서 69%, MT-bench에서 8.38의 성과를 보였습니다.
'phi-3-mini'의 기술적 특징과 혁신
아키텍처와 성능 최적화
- 트랜스포머 디코더 구조: 'phi-3-mini'는 트랜스포머 기반의 디코더 아키텍처를 사용합니다. 이 모델은 32개의 레이어, 3072의 히든 차원, 그리고 32개의 어텐션 헤드를 가지고 있어, 복잡한 언어 처리 작업을 효율적으로 수행할 수 있습니다.
*트랜스포머 아키텍처란? 트랜스포머는 2017년에 "Attention is All You Need" 라는 논문을 통해 소개되었으며, 특히 자연어 처리(NLP) 분야에서 많은 변화를 가져왔습니다. 트랜스포머 모델은 기존의 순차적인 처리 방식인 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)과 달리, 전체 입력 데이터를 한 번에 처리할 수 있는 "어텐션 메커니즘"을 기반으로 합니다. 이를 통해 특히 긴 시퀀스 데이터를 처리할 때의 성능을 크게 향상시켰습니다.
- 긴 컨텍스트 지원: 'LongRope' 기술을 통해 컨텍스트 길이를 기존 4K에서 128K로 확장한 'phi-3-mini-128K' 버전을 개발했습니다. 이 기술은 문서나 대화의 맥락을 보다 장기간 유지할 수 있게 해, 더욱 정확하고 일관된 대화가 가능하게 합니다.
*LongRope란? "Long Rope"는 언어 모델에서 사용되는 기술 중 하나로, 모델이 처리할 수 있는 텍스트의 컨텍스트 길이를 크게 확장하는 데 도움을 주는 방법입니다. 일반적으로 트랜스포머 기반 언어 모델은 입력으로 받을 수 있는 텍스트의 길이에 제한이 있습니다. 이러한 제한은 모델이 긴 문서를 이해하거나, 대화에서 이전에 나눈 내용을 기억하는 데 어려움을 겪게 만듭니다.
Long Rope 기술은 이러한 제약을 극복하기 위해 설계되었으며, 모델이 훨씬 더 긴 컨텍스트를 기억하고 처리할 수 있게 합니다. 예를 들어, 일반적인 모델이 수천 단어의 컨텍스트만 처리할 수 있는 반면, Long Rope를 적용한 모델은 수십만 단어의 컨텍스트를 처리할 수 있습니다. 이를 통해 모델은 긴 문서의 내용을 더 잘 이해하고, 복잡한 대화나 문서에서의 연관성을 파악하는 데 유리합니다.
Long Rope는 특히 긴 문서를 분석하거나, 복잡한 질문에 대답하거나, 지속적인 대화를 유지하는 데 필요한 맥락을 제공하는 AI 응용 프로그램에 매우 유용합니다. 이 기술은 컨텍스트 길이를 확장함으로써 언어 모델의 활용 가능성을 크게 향상시키며, 더욱 풍부하고 유익한 사용자 경험을 제공할 수 있습니다.
데이터 처리 및 훈련 방법
- 고품질 데이터셋: 훈련에 사용된 데이터는 고품질의 웹 데이터와 LLM으로 생성된 합성 데이터를 결합한 것입니다. 이는 일반적인 웹 데이터보다 더 체계적이고 깊이 있는 학습을 가능하게 하여, 모델의 일반화 능력과 정확성을 향상시킵니다.
- 데이터 최적화 훈련 방식: 이 모델은 표준 크기 확장 법칙을 벗어나, 데이터의 질을 최적화하여 소형 모델에서도 고성능을 발휘할 수 있도록 설계되었습니다. 특히, 'phi-3-mini'는 웹 데이터를 학습 단계에 맞게 필터링하여 불필요한 정보를 제거하고, 모델이 더 복잡한 추론과 학습을 할 수 있도록 준비합니다.
성능 및 활용성 증대
- 양방향 적응형 학습: 모델은 학습의 두 단계에서 다양한 유형의 데이터를 사용하여 양방향으로 적응합니다. 첫 번째 단계에서는 일반적인 지식과 언어 이해를 위한 데이터를, 두 번째 단계에서는 더 복잡한 논리적 추론과 특정 기술 학습을 위한 데이터를 사용합니다.
- 멀티링귤 데이터의 통합: 추가적으로, 'phi-3-small' 모델은 다양한 언어의 토크나이저인 tiktoken을 사용하여, 모델이 다국어 처리 능력을 갖출 수 있도록 합니다. 이는 모델이 전 세계적으로 다양한 언어 사용 환경에 적응할 수 있게 만들어 줍니다.
한계점
- 'phi-3-mini'는 방대한 합성 데이터를 통해 학습되었지만, 실제 사용 시 학습 데이터 범위를 벗어날 때의 성능은 제한적일 수 있습니다.
- 좁은 태스크에는 finetuning이 효과적이지만, 일반 대화에서는 GPT-3.5를 완전히 대체하기는 어려울 수 있습니다.
반응형
'AI' 카테고리의 다른 글
AI 데이팅 보조 앱: 어떻게 4.5개월 만에 1.5백만 다운로드를 기록했나? (0) | 2024.05.08 |
---|---|
[논문 리뷰] 대규모 언어 모델(LLM)을 경제적이고 효율적인 활용할 수 있는 방법들, FrugalGPT (0) | 2024.05.06 |
AI 사용해서 리서치 100배 빠르게 하는 법 (0) | 2024.05.06 |
DeepL AI 번역기, 사이트 안들어가도 실행가능하다고? (0) | 2024.05.06 |
오픈AI의 새로운 도전: 구글을 넘어서는 검색 엔진의 탄생? (1) | 2024.05.04 |