Grandes modelos de linguagem (LLMs) entraram em cena com o lançamento do ChatGPT da Open AI. Desde então, várias empresas também lançaram seus LLMs, mas agora mais empresas estão se inclinando para modelos de linguagem pequena (SLMs).
SLMs estão ganhando impulso, mas o que são e como diferem dos LLMs?
Um modelo de linguagem pequena (SLM) é um tipo de modelo de inteligência artificial com menos parâmetros (pense nisso como um valor no modelo aprendido durante o treinamento). Tal como os seus homólogos maiores, os SLMs podem gerar texto e realizar outras tarefas. No entanto, os SLMs usam menos conjuntos de dados para treinamento, têm menos parâmetros e exigem menos poder computacional para treinar e executar.
Os SLMs se concentram nas principais funcionalidades e seu pequeno espaço ocupado significa que podem ser implantados em diferentes dispositivos, incluindo aqueles que não possuem hardware de última geração, como dispositivos móveis. Por exemplo, o Nano do Google é um SLM no dispositivo desenvolvido desde o início e executado em dispositivos móveis. Devido ao seu pequeno tamanho, o Nano pode ser executado localmente com ou sem conectividade de rede, de acordo com a empresa.
Além do Nano, existem muitos outros SLMs de empresas líderes e futuras no espaço de IA. Alguns SLMs populares incluem Phi-3 da Microsoft, GPT-4o mini da OpenAI, Claude 3 Haiku da Anthropic, Llama 3 da Meta e Mixtral 8x7B da Mistral AI. SLMs. Isto é especialmente verdadeiro considerando que a maioria das empresas está adotando a abordagem multimodelo de lançar mais de um modelo de linguagem em seu portfólio, oferecendo LLMs e SLMs. Um exemplo é o GPT-4, que possui vários modelos, incluindo GPT-4, GPT-4o (Omni) e GPT-4o mini.
Modelos de linguagem pequena versus modelos de linguagem grande
No momento em que este livro foi escrito, não havia consenso na indústria de IA sobre o número máximo de parâmetros que um modelo não deveria exceder para ser considerado um SLM ou o número mínimo necessário para ser considerado um LLM. No entanto, os SLMs normalmente têm de milhões a alguns bilhões de parâmetros, enquanto os LLMs têm mais, chegando a trilhões.
Por exemplo, o GPT-3, que foi lançado em 2020, tem 175 bilhões de parâmetros (e o Há rumores de que o modelo GPT-4 tem cerca de 1,76 trilhão), enquanto os SLMs 2024 Phi-3-mini, Phi-3-small e Phi-3-medium da Microsoft medem 3,8, 7 e 14 bilhões de parâmetros, respectivamente.
Outro fator de diferenciação entre SLMs e LLMs é a quantidade de dados usados para treinamento. Os SLMs são treinados em quantidades menores de dados, enquanto os LLMs usam grandes conjuntos de dados. Essa diferença também afeta a capacidade do modelo de resolver tarefas complexas.
Devido ao grande volume de dados usados no treinamento, os LLMs são mais adequados para resolver diferentes tipos de tarefas complexas que exigem raciocínio avançado, enquanto os SLMs são mais adequados para tarefas mais simples. tarefas. Ao contrário dos LLMs, os SLMs usam menos dados de treinamento, mas os dados usados devem ser de maior qualidade para alcançar muitos dos recursos encontrados nos LLMs em um pacote minúsculo. Por que modelos de linguagem pequena são o futuro Para a maioria dos casos de uso, os SLMs estão melhor posicionados para se tornarem os modelos convencionais usados por empresas e consumidores para executar uma ampla variedade de tarefas. Claro, os LLMs têm suas vantagens e são mais adequados para determinados casos de uso, como a resolução de tarefas complexas. No entanto, SLMs são o futuro para a maioria dos casos de uso devido aos seguintes motivos.Com esses números, não é viável para pequenas e médias empresas treinar um LLM. Em contraste, os SLMs têm uma barreira de entrada menor em termos de recursos e custam menos para serem administrados e, portanto, mais empresas irão adotá-los. 2. Melhor desempenho
3. Mais preciso
4. Podem ser executados no dispositivo
Os SLMs estão ganhando impulso, com os maiores participantes do setor, como Open AI, Google, Microsoft, Antrópico e Meta, lançando tais modelos. Esses modelos são mais adequados para tarefas mais simples, para as quais a maioria de nós usa LLMs; portanto, eles são o futuro.Mas os LLMs não vão a lugar nenhum. Em vez disso, serão utilizados para aplicações avançadas que combinam informações de diferentes domínios para criar algo novo, como na investigação médica.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3