Home / Tecnologia / Liquid AI lança LFM2.5-350M: modelo compacto de 350 milhões de parâmetros treinado em 28 trilhões de tokens supera rivais maiores em tarefas agenticas.

Liquid AI lança LFM2.5-350M: modelo compacto de 350 milhões de parâmetros treinado em 28 trilhões de tokens supera rivais maiores em tarefas agenticas.

A Liquid AI surpreendeu o mercado ao liberar o LFM2.5-350M, uma versão aprimorada do seu modelo de 350M parâmetros. Com pré-treinamento expandido de 10T para 28T tokens e reforço em larga escala via reinforcement learning, o modelo prioriza eficiência em dispositivos edge, onde memória e compute são limitados. Ele entrega desempenho alto em instruções complexas, extração de dados e chamadas de ferramentas, rodando rápido em hardware comum.

O lançamento aconteceu em 31 de março de 2026, com pesos abertos disponíveis no Hugging Face, LEAP e playground da empresa. A proposta quebra a ideia de que só modelos gigantes trazem inteligência real. Aqui, inteligência densa surge de dados massivos e arquitetura otimizada, não só de mais parâmetros.

O que mudou no LFM2.5-350M

A base continua a arquitetura LFM2, híbrida e projetada para velocidade. Diferente dos Transformers puros, que sofrem com escalonamento quadrático no cache KV, o modelo usa:

  • 10 blocos de convolução LIV (Linear Input-Varying Systems) double-gated para processamento sequencial eficiente e estável.
  • 6 blocos de Grouped Query Attention (GQA) para captura de contexto longo com precisão.

Essa combinação mantém janela de contexto de 32 mil tokens com footprint de memória baixo. O resultado é throughput alto: até 40,4 mil tokens de saída por segundo em uma única GPU H100 em cenários de alta concorrência.

O treinamento intensivo gerou uma densidade de inteligência impressionante, com proporção de cerca de 80 mil tokens por parâmetro. Isso permite que o modelo de 350M supere rivais com mais que o dobro do tamanho em vários benchmarks de conhecimento e instruções.

Desempenho em benchmarks

O LFM2.5-350M brilha em tarefas práticas, especialmente agenticas e estruturadas. Veja os principais resultados comparados à versão anterior (LFM2-350M):

  • GPQA Diamond (conhecimento): 30,64 contra 27,58.
  • MMLU-Pro (conhecimento): 20,01 contra 19,29.
  • IFEval (seguimento de instruções): 76,96 contra 64,96.
  • IFBench: 40,69 contra 18,20.
  • Multi-IF: 44,92 contra 32,92.

Em tarefas aplicadas, como extração de dados (CaseReportBench) e tool use (BFCLv3, BFCLv4 e benchmarks de telecom/retail), os ganhos também foram expressivos. O modelo se destaca em outputs estruturados, como JSON, e workflows com ferramentas, mas a documentação oficial avisa: não é recomendado para matemática avançada, coding complexo ou escrita criativa, onde modelos maiores ainda levam vantagem.

Eficiência em dispositivos reais

A grande força está na execução local. O design reduz drasticamente o KV cache, quebrando o “memory wall” comum em inferência.

Resultados reportados de pico de memória (com quantização Q4 via RunAnywhere):

  • Snapdragon 8 Elite NPU: 169 MB.
  • Snapdragon GPU: 81 MB.
  • Raspberry Pi 5: 300 MB (com Cactus Engine int8).

Em CPUs comuns ou GPUs mobile, a velocidade supera rivais semelhantes, incluindo híbridos SSM ou redes Delta como Qwen3.5-0.8B. Modelos quantizados ficam abaixo de 500 MB, ideais para smartphones, laptops, IoT, veículos e sistemas embarcados.

Para quem o LFM2.5-350M faz sentido

Desenvolvedores que precisam de agentes confiáveis em escala sem depender de nuvem ganham muito. Casos típicos incluem:

  • Extração em massa de dados estruturados de documentos.
  • Function calling e loops agenticos em tempo real.
  • Classificação e roteamento de tarefas com baixa latência.
  • Aplicações offline em dispositivos com restrições de energia ou rede.

Empresas e pesquisadores já exploram fine-tuning com ferramentas como Distil Labs, alcançando precisão de 96-98% em tarefas específicas de tool calling, equiparando ou superando modelos muito maiores.

Limitações claras

O modelo não compete em raciocínio geral pesado ou tarefas criativas. Seu foco é especialista: velocidade e confiabilidade em instruções e dados. Quem busca performance ampla em coding ou matemática deve mirar em variantes maiores da família LFM ou outros LLMs.

Como acessar e rodar

Os pesos base (LFM2.5-350M-Base) e instruídos estão liberados. Documentação oficial explica execução local com ExecuTorch, llama.cpp, vLLM e engines parceiros como RunAnywhere, LM Studio e Cactus Compute. Colaborações com Qualcomm, AMD, Intel e outros ampliam opções de hardware.

Por que isso importa agora

Enquanto a indústria corre atrás de modelos frontier cada vez maiores, a Liquid AI mostra que tamanho não é tudo. Com 28 trilhões de tokens e arquitetura híbrida inteligente, um modelo compacto pode entregar valor real em cenários do dia a dia. Isso abre caminho para IA mais acessível, privada e eficiente, rodando direto no dispositivo do usuário.

O LFM2.5-350M reforça que inovação em eficiência e dados pode superar pura escala de parâmetros. Para equipes que constroem produtos edge-first, essa release representa uma opção prática e poderosa.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *