bullstep 2024. 1. 8. 11:23
728x90
반응형

1. LLM은 자연어로 된 일상 대화 형식의 질문에 대해 인간과 유사한 답을 내놓기 위해 훈련된 AI임.

2. 방대한 양의 텍스트 데이터를 통해 훈련한 AI는 지식 정보를 알려주는 것은 물론, 긴 글을 빠르게 요약하거나 자연스러운 번역도 가능한데, 멀티모달(Multimodal) 기능을 더하면 사진이나 음성을 인식하거나 생성하는 것도 가능함.

3. 많은 AI 기업이 자체 개발해 학습시킨 LLM을 선보이고 있으며, 오픈소스를 기반으로 생성형 AI를 구축해 관련 서비스를 내놓고 있음.

4. LLM 규모가 클수록 성능과 직결되는데, 파라미터가 늘어나면 더 많은 정보를 기반으로 정확한 예측과 판단을 내릴 수 있고, 학습 토큰이 많으면 자연스러운 응답을 생성할 수 있기 때문임.

5. 반면에 파라미터와 토큰이 늘어날수록 모델이 복잡해져 학습이 어렵고, 연산 시간이 오래 걸리며, 이에 따라 모델이 커질수록 GPU 등 인프라 비용도 크게 늘어나는 단점이 있음.

6. 서비스 고도화와 업무 효율화를 위해 생성형 AI 도입을 고려하고 있지만 보안이나 비용 문제가 큰 장벽이라, 업계에선 경량 LLM(sLLM)을 통한 구축형 AI 서비스로 비용 문제를 해결하려는 시도가 이어지고 있음.

7. 23년 초, 메타에서 라마(LLaMA)가 공개되었는데, 라마는 매개변수에 따라 4가지 버전으로 등장했으며, 이 중 가장 규모가 작은 모델인 '라마 7B'는 매개변수가 70억개임.
- GPT-3/3.5의 매개변수 1750억개의 4%에 불과.
- GPT-4는 미공개이지만 1조개 내외로 추정

8. 매개변수를 줄여 학습·운용 비용을 낮추고, 미세조정(파인튜닝)을 통해 정확도를 높이는 것임.

9. 이를 통해 LLM 대비 전체적인 추론 역량은 다소 부족하지만, 특화 학습으로 특정 영역에서는 LLM에 버금가는 성능을 보여 특정 기업의 용도에 특화된 모델 구축도 가능함.

10. 또한 비용적인 부분에서 오픈AI의 GPT-3는 초기 훈련 비용에만 약 132억원의 비용이 들었으며, 지난해 약 7140억원의 적자를 기록했음(막대한 인프라 유지비용으로 추정)

11. 주목받고 있는 소형 언어 모델로는 LLaMA 계열(4가지 버전(6.7B, 13B, 32.5B, 65.2B))의 스탠포드 대학교의 '알파카 7B(Alpaca-7B)', 'Vicuna-13B', Nomic AI의 'GPT4All'(7B) 등이 있음.

12. 국내 기업들도 이러한 sLLM 서비스를 제공하고 있음.
- 코난 LLM(코난테크놀로지/기반 Polyglot-Ko/파라미터 130억개-410억개/보고서 초안 생성 특화)
- 마음 GPT(마음AI/기반 GPT3.5/파라미터 60억개/도메인에 특화)
- 솔라(업스테이지/기반 LLaMA 2/ 파라미터 300억-700억개/허깅페이스 최상위)
- 바이브GeM(바이브컴퍼니/기반 Polyglot-Ko/파라미터 13억-58억-128억개)
- 루시아GPT(솔트룩스/파라미터 70억-130억-200억-500억개/한국어 할루시네이션 43% 개선)

반응형