작지만 똑똑한 소형언어모델 sLLM, 구글 클라우드 Gemma

작년부터 ChatGPT, Gemini, 하이퍼클로바X 등 거대언어모델이 뜨거운 이슈였습니다. 이러한 관심 속에서 생성형 AI는 LLM 개발 경쟁으로 발전되었고, 동시에 최근 경량화에 대한 시장 수요도 커지면서 sLLM도 주목 받고 있습니다. 올해 많은 업계 관계자들이 주요 트렌드로 가성비 있는 sLLM을 지목하고 있습니다. sLLM은 small Large Language Model의 약자로, 상대적으로 작은 규모의 대형 언어 모델을 의미합니다. sLLM은 비용이 저렴하고 보안 안정성이 높다는 점에서 선호하는 기업들이 증가하고 있습니다.

구글은 지난해 말 거대언어모델 제미나이(Gemini)를 경량화한 sLLM ‘제미나이 나노’를 출시한 것에 이어 올해 오픈소스 형태인 sLLM인 젬마(Gemma)를 선보였습니다. 이제 구글 클라우드 고객은 버텍스 AI(Vertex AI)에서 젬마 모델을 커스터마이즈하고 구축하며, 구글 쿠버네티스 엔진(Google Kubernetes Engine, GKE)에서 실행할 수 있게 되었습니다.

오픈모델 젬마

젬마(Gemma) 는 제미나이(Gemini) 모델을 만드는 데 사용된 것과 동일한 연구 및 기술을 바탕으로 제작된 경량화 최첨단 오픈소스 형태의 모델입니다 . Google DeepMind 및 기타 Google 팀이 개발한 젬마는 제미나이에서 영감을 얻었으며 이름은 ‘보석’을 의미하는 라틴어 gemma를 반영합니다. 모델 가중치와 함께 개발자 혁신을 지원하고 협업을 촉진하며 책임감 있는 젬마 모델 사용을 안내하는 도구도 출시하고 있습니다.

젬마(Gemma)에 대해 알아야 할 주요 세부정보는 다음과 같습니다.

우리는 Gemma 2B와 Gemma 7B의 두 가지 크기의 모델로 출시합니다 . 각 크기는 사전 훈련되고 지침에 따라 조정된 변형과 함께 출시됩니다.
새로운 Responsible Generative AI Toolkit은 젬마를 사용하여 보다 안전한 AI 애플리케이션을 만들기 위한 지침과 필수 도구를 제공합니다.
우리는 네이티브 Keras 3.0을 통해 JAX, PyTorch, TensorFlow 등 모든 주요 프레임워크에 걸쳐 추론 및 SFT(감독 미세 조정)를 위한 툴체인을 제공하고 있습니다 .
즉시 사용 가능한 Colab 및 Kaggle 노트북과 Hugging Face , MaxText , NVIDIA NeMo 및 TensorRT-LLM 과 같은 인기 도구와의 통합을 통해 젬마를 쉽게 시작할 수 있습니다.
사전 학습되고 지침 조정된 젬마 모델은 Vertex AI 및 Google Kubernetes Engine (GKE) 에 쉽게 배포하여 노트북, 워크스테이션 또는 구글 클라우드에서 실행할 수 있습니다 .
여러 AI 하드웨어 플랫폼에 대한 최적화는 NVIDIA GPU 및 구글 클라우드 TPU를 포함하여 업계 최고의 성능을 보장합니다 .
사용 약관은 규모에 관계없이 모든 조직에 책임 있는 상업적 사용 및 배포를 허용합니다.

버텍스 AI에서 젬마의 강력한 기능 활용하기

최근 발표된 제미나이 확장 모델(제미나이 1.0 프로, 제미나이 1.0 울트라, 제미나이 1.5 프로)에 이어 젬마가 새롭게 합류하면서, 구글 클라우드는 버텍스 AI의 모델 가든(Model Garden)에서 130개 이상의 모델을 제공하게 됐습니다.

개발자는 버텍스 AI에서 젬마 모델을 사용하면서 모델을 간단하고 직관적으로 조정, 관리, 모니터링할 수 있는 엔드투엔드(end-to-end) 머신러닝(ML) 플랫폼을 활용할 수 있습니다. 빌더는 버텍스 AI를 통해 운영 부담을 줄이고, 사용 사례에 최적화된 맞춤형 젬마 버전을 만드는 데 전념할 수 있습니다. 개발자는 버텍스 AI에서 젬마 모델을 사용해 다음과 같은 작업을 수행할 수 있습니다:

텍스트 생성, 요약, 질의응답과 같은 간단한 작업을 위한 생성형 AI 앱을 구축할 수 있습니다.
탐색 및 실험을 위한 맞춤형 경량화 모델을 사용해 연구 개발을 지원합니다.
텍스트 스트리밍(streaming text)과 같이 저지연이 요구되는 실시간 생성형 AI 사용 사례를 지원합니다.

버텍스 AI는 개발자가 자체적으로 조정한 모델을 확장 가능한 엔드포인트로 쉽게 전환해 모든 규모의 AI 애플리케이션을 지원할 수 있도록 지원합니다.

구글 쿠버네티스 엔진에서 젬마를 사용해 프로토타입에서 프로덕션으로 확장하기

구글 쿠버네티스 엔진은 간단한 프로젝트의 프로토타입부터 엔터프라이즈 규모의 앱(app) 출시까지, 맞춤형 앱을 구축하는 도구를 제공합니다. 오늘부터 개발자는 구글 쿠버네티스 엔진에 직접 젬마를 배포해 프로토타입을 구축하거나 모델 기능을 테스트하기 위한 자체 생성형 AI 앱을 만들 수 있습니다.

익숙한 툴체인을 사용해 애플리케이션과 함께 미세 조정된 맞춤형 모델을 포터블 컨테이너에 배포할 수 있습니다.
노드를 제공하거나 유지 관리할 필요 없이 모델 제공 및 인프라 구성을 커스터마이즈할 수 있습니다.
가장 까다로운 학습 및 추론 시나리오에 맞게 확장할 수 있는 기능으로 AI 인프라를 빠르게 통합할 수 있습니다.

구글 쿠버네티스 엔진은 효율적인 리소스 관리, 일관된 운영 환경 및 자동 확장 기능을 제공합니다. 또한 GPU와 TPU를 포함한 구글 클라우드 AI 가속기의 간편한 오케스트레이션으로 이러한 환경을 개선해, 생성형 AI 모델을 구축할 때 더 빠르게 학습하고 추론할 수 있도록 지원합니다.

구글 클라우드 프리미어 파트너, 클루커스

클루커스는 구글 클라우드 파트너의 가장 높은 레벨인 구글 클라우드 프리미어 파트너사로, 구글 클라우드 기반 종합적인 클라우드 서비스를 제공합니다. 특히 클루커스는 숙련된 Data & AI 전문가 그룹를 통하여 최근 각광받고 있는 생성형 AI 기술을 빠르게 습득하고 있습니다. 생성형 AI 도입과 관련하여 전문가의 상담이 필요하시다면 아래 버튼을 통해 전문가 컨설팅을 신청하세요!

클라우드 기반의 데이터 및 인공지능 서비스 컨설팅이 필요하다면
클루커스에 문의하세요!

참고 문서 :

https://cloud.google.com/blog/ko/products/ai-machine-learning/gemma-model-available-in-vertex-ai-and-via-gke

https://blog.google/technology/developers/gemma-open-models/