"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > IA > Além dos LLMs: Veja por que os modelos de linguagem pequena são o futuro da IA

Além dos LLMs: Veja por que os modelos de linguagem pequena são o futuro da IA

Publicado em 01/11/2024
Navegar:862

Grandes modelos de linguagem (LLMs) entraram em cena com o lançamento do ChatGPT da Open AI. Desde então, várias empresas também lançaram seus LLMs, mas agora mais empresas estão se inclinando para modelos de linguagem pequena (SLMs).

SLMs estão ganhando impulso, mas o que são e como diferem dos LLMs?

O que é um modelo de linguagem pequena?

Um modelo de linguagem pequena (SLM) é um tipo de modelo de inteligência artificial com menos parâmetros (pense nisso como um valor no modelo aprendido durante o treinamento). Tal como os seus homólogos maiores, os SLMs podem gerar texto e realizar outras tarefas. No entanto, os SLMs usam menos conjuntos de dados para treinamento, têm menos parâmetros e exigem menos poder computacional para treinar e executar.

Os SLMs se concentram nas principais funcionalidades e seu pequeno espaço ocupado significa que podem ser implantados em diferentes dispositivos, incluindo aqueles que não possuem hardware de última geração, como dispositivos móveis. Por exemplo, o Nano do Google é um SLM no dispositivo desenvolvido desde o início e executado em dispositivos móveis. Devido ao seu pequeno tamanho, o Nano pode ser executado localmente com ou sem conectividade de rede, de acordo com a empresa.

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

Além do Nano, existem muitos outros SLMs de empresas líderes e futuras no espaço de IA. Alguns SLMs populares incluem Phi-3 da Microsoft, GPT-4o mini da OpenAI, Claude 3 Haiku da Anthropic, Llama 3 da Meta e Mixtral 8x7B da Mistral AI. SLMs. Isto é especialmente verdadeiro considerando que a maioria das empresas está adotando a abordagem multimodelo de lançar mais de um modelo de linguagem em seu portfólio, oferecendo LLMs e SLMs. Um exemplo é o GPT-4, que possui vários modelos, incluindo GPT-4, GPT-4o (Omni) e GPT-4o mini.

Modelos de linguagem pequena versus modelos de linguagem grande

Ao discutir SLMs, não podemos ignorar seus grandes equivalentes: LLMs. A principal diferença entre um SLM e um LLM é o tamanho do modelo, que é medido em termos de parâmetros.

No momento em que este livro foi escrito, não havia consenso na indústria de IA sobre o número máximo de parâmetros que um modelo não deveria exceder para ser considerado um SLM ou o número mínimo necessário para ser considerado um LLM. No entanto, os SLMs normalmente têm de milhões a alguns bilhões de parâmetros, enquanto os LLMs têm mais, chegando a trilhões.

Por exemplo, o GPT-3, que foi lançado em 2020, tem 175 bilhões de parâmetros (e o Há rumores de que o modelo GPT-4 tem cerca de 1,76 trilhão), enquanto os SLMs 2024 Phi-3-mini, Phi-3-small e Phi-3-medium da Microsoft medem 3,8, 7 e 14 bilhões de parâmetros, respectivamente.

Outro fator de diferenciação entre SLMs e LLMs é a quantidade de dados usados ​​para treinamento. Os SLMs são treinados em quantidades menores de dados, enquanto os LLMs usam grandes conjuntos de dados. Essa diferença também afeta a capacidade do modelo de resolver tarefas complexas.

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AIDevido ao grande volume de dados usados ​​no treinamento, os LLMs são mais adequados para resolver diferentes tipos de tarefas complexas que exigem raciocínio avançado, enquanto os SLMs são mais adequados para tarefas mais simples. tarefas. Ao contrário dos LLMs, os SLMs usam menos dados de treinamento, mas os dados usados ​​devem ser de maior qualidade para alcançar muitos dos recursos encontrados nos LLMs em um pacote minúsculo.

Por que modelos de linguagem pequena são o futuro

Para a maioria dos casos de uso, os SLMs estão melhor posicionados para se tornarem os modelos convencionais usados ​​por empresas e consumidores para executar uma ampla variedade de tarefas. Claro, os LLMs têm suas vantagens e são mais adequados para determinados casos de uso, como a resolução de tarefas complexas. No entanto, SLMs são o futuro para a maioria dos casos de uso devido aos seguintes motivos.

1. Menor custo de treinamento e manutenção

SLMs precisam de menos dados para treinamento do que LLMs, o que os torna a opção mais viável para indivíduos e pequenas e médias empresas com dados de treinamento, finanças ou ambos limitados. LLMs exigem grandes quantidades de dados de treinamento e, por extensão, precisam de enormes recursos computacionais para treinar e funcionar.

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AIPara colocar isso em perspectiva, o CEO da OpenAI, Sam Altman, confirmou que foram necessários mais de US$ 100 milhões para treinar GPT-4 enquanto discursava em um evento no MIT (conforme Wired). Outro exemplo é o OPT-175B LLM da Meta. Meta diz que foi treinado usando 992 GPUs NVIDIA A100 de 80 GB, que custam cerca de US$ 10.000 por unidade, conforme CNBC. Isso coloca o custo em aproximadamente US$ 9 milhões, sem incluir outras despesas como energia, salários e muito mais.

Com esses números, não é viável para pequenas e médias empresas treinar um LLM. Em contraste, os SLMs têm uma barreira de entrada menor em termos de recursos e custam menos para serem administrados e, portanto, mais empresas irão adotá-los.

2. Melhor desempenho

Desempenho é outro área onde os SLMs vencem os LLMs devido ao seu tamanho compacto. Os SLMs têm menos latência e são mais adequados para cenários onde são necessárias respostas mais rápidas, como em aplicações em tempo real. Por exemplo, uma resposta mais rápida é preferida em sistemas de resposta de voz, como assistentes digitais.

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AIExecutar no dispositivo (mais sobre isso mais tarde) também significa que sua solicitação não precisa ir até servidores on-line e voltar para responda à sua consulta, levando a respostas mais rápidas.

3. Mais preciso

Quando se trata de IA generativa, uma coisa permanece constante: lixo entra, lixo sai. Os LLMs atuais foram treinados usando grandes conjuntos de dados brutos da Internet. Portanto, eles podem não ser precisos em todas as situações. Este é um dos problemas do ChatGPT e modelos semelhantes e é por isso que você não deve confiar em tudo o que um chatbot de IA diz. Por outro lado, os SLMs são treinados usando dados de maior qualidade do que os LLMs e, portanto, têm maior precisão.

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AISLMs também podem ser ajustados ainda mais com treinamento focado em tarefas ou domínios específicos, levando a uma melhor precisão naqueles. áreas em comparação com modelos maiores e mais generalizados.

4. Podem ser executados no dispositivo

SLMs precisam de menos poder computacional do que LLMs e, portanto, são ideais para casos de computação de ponta. Eles podem ser implantados em dispositivos de ponta, como smartphones e veículos autônomos, que não possuem grande poder ou recursos computacionais. O modelo Nano do Google pode ser executado no dispositivo, permitindo que funcione mesmo quando você não tem uma conexão ativa com a Internet.

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AIEssa capacidade apresenta uma situação vantajosa para empresas e consumidores. Em primeiro lugar, é uma vitória para a privacidade, uma vez que os dados dos utilizadores são processados ​​localmente em vez de enviados para a nuvem, o que é importante à medida que mais IA é integrada nos nossos smartphones, contendo quase todos os detalhes sobre nós. Também é uma vitória para as empresas, pois elas não precisam implantar e executar grandes servidores para lidar com tarefas de IA.

Os SLMs estão ganhando impulso, com os maiores participantes do setor, como Open AI, Google, Microsoft, Antrópico e Meta, lançando tais modelos. Esses modelos são mais adequados para tarefas mais simples, para as quais a maioria de nós usa LLMs; portanto, eles são o futuro.

Mas os LLMs não vão a lugar nenhum. Em vez disso, serão utilizados para aplicações avançadas que combinam informações de diferentes domínios para criar algo novo, como na investigação médica.

Declaração de lançamento Este artigo foi reproduzido em: https://www.makeuseof.com/why-small-language-models-are-the-future-of-ai/ Se houver alguma violação, entre em contato com [email protected] para excluí-la
Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3