대형 언어 모델(LLM)이 Open AI의 ChatGPT 출시로 주목을 받았습니다. 그 이후로 몇몇 회사에서도 LLM을 시작했지만 이제는 더 많은 회사가 소규모 언어 모델(SLM)로 기울고 있습니다.
SLM이 탄력을 받고 있는데 SLM이 무엇이며 LLM과 어떻게 다른가요?
SLM(Small Language Model)은 매개 변수가 더 적은 일종의 인공 지능 모델입니다(이를 훈련 중에 학습된 모델의 값으로 생각하세요). 더 큰 규모의 SLM과 마찬가지로 SLM은 텍스트를 생성하고 다른 작업을 수행할 수 있습니다. 그러나 SLM은 훈련에 더 적은 데이터 세트를 사용하고 매개변수도 적으며 훈련 및 실행에 필요한 계산 능력도 더 적습니다.
SLM은 주요 기능에 중점을 두고 있으며 설치 공간이 작다는 것은 SLM이 다음을 포함한 다양한 장치에 배포될 수 있음을 의미합니다. 모바일 장치와 같은 고급 하드웨어가 없습니다. 예를 들어 Google의 Nano는 모바일 장치에서 실행되도록 처음부터 구축된 온디바이스 SLM입니다. 회사에 따르면 Nano는 크기가 작기 때문에 네트워크 연결 유무에 관계없이 로컬로 실행할 수 있습니다.
Nano 외에도 AI 분야의 선도 기업과 향후 기업의 SLM이 많이 있습니다. 일부 인기 있는 SLM에는 Microsoft의 Phi-3, OpenAI의 GPT-4o mini, Anthropic의 Claude 3 Haiku, Meta의 Llama 3 및 Mistral AI의 Mixtral 8x7B가 포함됩니다.
다른 옵션도 사용할 수 있습니다. LLM이라고 생각할 수도 있지만 실제로는 SLM. 이는 대부분의 회사가 포트폴리오에 둘 이상의 언어 모델을 출시하고 LLM과 SLM을 모두 제공하는 다중 모델 접근 방식을 취하고 있다는 점을 고려할 때 특히 그렇습니다. 한 예로 GPT-4, GPT-4o(Omni), GPT-4o mini 등 다양한 모델이 있는 GPT-4가 있습니다.
SLM을 논의하는 동안 우리는 SLM의 큰 상대인 LLM을 무시할 수 없습니다. SLM과 LLM의 주요 차이점은 매개변수 측면에서 측정되는 모델 크기입니다.
이 글을 쓰는 시점에서 AI 업계에서는 모델이 사용하지 말아야 할 최대 매개변수 수에 대한 합의가 없습니다. SLM으로 간주되기 위한 초과 또는 LLM으로 간주되기 위해 필요한 최소 수를 초과합니다. 그러나 SLM에는 일반적으로 수백만에서 수십억 개의 매개변수가 있는 반면, LLM에는 최대 수조에 달하는 매개변수가 있습니다.
예를 들어, 2020년에 출시된 GPT-3에는 1,750억 개의 매개변수가 있습니다(그리고 GPT-4 모델에는 약 1조 7600억 개가 있다는 소문이 있습니다. 반면 Microsoft의 2024 Phi-3-mini, Phi-3-Small 및 Phi-3-medium SLM은 각각 3.8, 7, 140억 개의 매개변수를 측정합니다.
SLM과 LLM의 또 다른 차별화 요소는 교육에 사용되는 데이터의 양입니다. SLM은 더 적은 양의 데이터를 학습하는 반면, LLM은 대규모 데이터 세트를 사용합니다. 이러한 차이는 복잡한 작업을 해결하는 모델의 기능에도 영향을 미칩니다.
훈련에 사용되는 대규모 데이터로 인해 LLM은 고급 추론이 필요한 다양한 유형의 복잡한 작업을 해결하는 데 더 적합하고 SLM은 단순한 작업에 더 적합합니다. 작업. LLM과 달리 SLM은 훈련 데이터를 덜 사용하지만 작은 패키지로 LLM에서 제공하는 많은 기능을 달성하려면 사용되는 데이터의 품질이 더 높아야 합니다.
대부분의 사용 사례에서 SLM은 기업과 소비자가 다양한 작업을 수행하는 데 사용하는 주류 모델이 되기에 더 나은 위치에 있습니다. 물론 LLM에는 장점이 있으며 복잡한 작업 해결과 같은 특정 사용 사례에 더 적합합니다. 그러나 SLM은 다음과 같은 이유로 대부분의 사용 사례에서 미래입니다.
SLM은 LLM보다 교육에 데이터가 덜 필요하므로 교육 데이터, 재정 또는 둘 모두가 제한된 개인 및 중소기업을 위한 가장 실행 가능한 옵션입니다. LLM에는 많은 양의 훈련 데이터가 필요하며, 더 나아가 훈련과 실행을 모두 위해서는 막대한 컴퓨팅 리소스가 필요합니다.
이를 관점에서 볼 때 OpenAI의 CEO인 Sam Altman은 훈련에 1억 달러 이상이 소요되었음을 확인했습니다. MIT의 한 행사에서 연설하는 동안 GPT-4(Wired 기준). 또 다른 예는 Meta의 OPT-175B LLM입니다. Meta는 CNBC에 따르면 단위당 약 $10,000의 비용이 드는 992개의 NVIDIA A100 80GB GPU를 사용하여 훈련했다고 밝혔습니다. 에너지, 급여 등과 같은 기타 비용을 제외하면 비용은 약 900만 달러에 이릅니다.
이런 수치로 볼 때 중소기업이 LLM을 교육하는 것은 실행 가능하지 않습니다. 이와 대조적으로 SLM은 리소스 측면에서 진입 장벽이 낮고 운영 비용이 저렴하므로 더 많은 기업이 SLM을 채택할 것입니다.
성능도 또 다른 요소입니다. SLM이 컴팩트한 크기로 인해 LLM을 능가하는 영역입니다. SLM은 대기 시간이 짧고 실시간 애플리케이션과 같이 더 빠른 응답이 필요한 시나리오에 더 적합합니다. 예를 들어, 디지털 보조 장치와 같은 음성 응답 시스템에서는 더 빠른 응답이 선호됩니다.
기기에서 실행(자세한 내용은 나중에 설명)한다는 것은 요청이 온라인 서버를 방문했다가 다시 돌아올 필요가 없음을 의미합니다. 쿼리에 응답하면 더 빠른 응답을 얻을 수 있습니다.
생성 AI의 경우 한 가지 변함없는 점은 쓰레기가 들어오면 쓰레기가 나온다는 것입니다. 현재 LLM은 원시 인터넷 데이터의 대규모 데이터 세트를 사용하여 교육되었습니다. 따라서 모든 상황에서 정확하지 않을 수도 있습니다. 이는 ChatGPT 및 유사 모델의 문제점 중 하나이며 AI 챗봇이 말하는 모든 것을 신뢰해서는 안되는 이유입니다. 반면, SLM은 LLM보다 고품질 데이터를 사용하여 훈련되므로 정확도가 더 높습니다.
SLM은 특정 작업이나 영역에 대한 집중적인 훈련을 통해 더욱 세부적으로 조정할 수 있으므로 해당 작업의 정확도가 높아집니다. 더 크고 일반화된 모델에 비해 영역이 넓습니다.
SLM은 LLM보다 컴퓨팅 성능이 덜 필요하므로 엣지 컴퓨팅 사례에 이상적입니다. 이는 큰 컴퓨팅 성능이나 리소스가 없는 스마트폰 및 자율주행차와 같은 엣지 장치에 배포될 수 있습니다. Google의 Nano 모델은 기기에서 실행될 수 있으므로 인터넷에 연결되어 있지 않아도 작동할 수 있습니다.
이 기능은 기업과 소비자 모두에게 윈윈(win-win) 상황을 제시합니다. 첫째, 사용자 데이터가 클라우드로 전송되지 않고 로컬로 처리되므로 개인 정보 보호 측면에서 승리합니다. 이는 우리에 대한 거의 모든 세부 정보를 담고 있는 스마트폰에 더 많은 AI가 통합됨에 따라 중요합니다. AI 작업을 처리하기 위해 대규모 서버를 배포하고 실행할 필요가 없기 때문에 기업에게도 유리합니다.
SLM은 Open AI, Google, Microsoft, Anthropic, Meta 등이 이러한 모델을 출시하고 있습니다. 이러한 모델은 우리 대부분이 LLM을 사용하는 간단한 작업에 더 적합합니다. 그러므로 그들은 미래입니다.
하지만 LLM은 아무데도 가지 않습니다. 대신, 의학 연구와 같이 다양한 영역의 정보를 결합하여 새로운 것을 창조하는 고급 애플리케이션에 사용됩니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3