A Liquid AI surpreendeu o mercado ao liberar o LFM2.5-350M, uma versão aprimorada do seu modelo de 350M parâmetros. Com pré-treinamento expandido de 10T para 28T tokens e reforço em larga escala via reinforcement learning, o modelo prioriza eficiência em dispositivos edge, onde memória e compute são limitados. Ele entrega desempenho alto em instruções complexas, extração de dados e chamadas de ferramentas, rodando rápido em hardware comum.
O lançamento aconteceu em 31 de março de 2026, com pesos abertos disponíveis no Hugging Face, LEAP e playground da empresa. A proposta quebra a ideia de que só modelos gigantes trazem inteligência real. Aqui, inteligência densa surge de dados massivos e arquitetura otimizada, não só de mais parâmetros.
O que mudou no LFM2.5-350M
A base continua a arquitetura LFM2, híbrida e projetada para velocidade. Diferente dos Transformers puros, que sofrem com escalonamento quadrático no cache KV, o modelo usa:
- 10 blocos de convolução LIV (Linear Input-Varying Systems) double-gated para processamento sequencial eficiente e estável.
- 6 blocos de Grouped Query Attention (GQA) para captura de contexto longo com precisão.
Essa combinação mantém janela de contexto de 32 mil tokens com footprint de memória baixo. O resultado é throughput alto: até 40,4 mil tokens de saída por segundo em uma única GPU H100 em cenários de alta concorrência.
O treinamento intensivo gerou uma densidade de inteligência impressionante, com proporção de cerca de 80 mil tokens por parâmetro. Isso permite que o modelo de 350M supere rivais com mais que o dobro do tamanho em vários benchmarks de conhecimento e instruções.
Desempenho em benchmarks
O LFM2.5-350M brilha em tarefas práticas, especialmente agenticas e estruturadas. Veja os principais resultados comparados à versão anterior (LFM2-350M):
- GPQA Diamond (conhecimento): 30,64 contra 27,58.
- MMLU-Pro (conhecimento): 20,01 contra 19,29.
- IFEval (seguimento de instruções): 76,96 contra 64,96.
- IFBench: 40,69 contra 18,20.
- Multi-IF: 44,92 contra 32,92.
Em tarefas aplicadas, como extração de dados (CaseReportBench) e tool use (BFCLv3, BFCLv4 e benchmarks de telecom/retail), os ganhos também foram expressivos. O modelo se destaca em outputs estruturados, como JSON, e workflows com ferramentas, mas a documentação oficial avisa: não é recomendado para matemática avançada, coding complexo ou escrita criativa, onde modelos maiores ainda levam vantagem.
Eficiência em dispositivos reais
A grande força está na execução local. O design reduz drasticamente o KV cache, quebrando o “memory wall” comum em inferência.
Resultados reportados de pico de memória (com quantização Q4 via RunAnywhere):
- Snapdragon 8 Elite NPU: 169 MB.
- Snapdragon GPU: 81 MB.
- Raspberry Pi 5: 300 MB (com Cactus Engine int8).
Em CPUs comuns ou GPUs mobile, a velocidade supera rivais semelhantes, incluindo híbridos SSM ou redes Delta como Qwen3.5-0.8B. Modelos quantizados ficam abaixo de 500 MB, ideais para smartphones, laptops, IoT, veículos e sistemas embarcados.
Para quem o LFM2.5-350M faz sentido
Desenvolvedores que precisam de agentes confiáveis em escala sem depender de nuvem ganham muito. Casos típicos incluem:
- Extração em massa de dados estruturados de documentos.
- Function calling e loops agenticos em tempo real.
- Classificação e roteamento de tarefas com baixa latência.
- Aplicações offline em dispositivos com restrições de energia ou rede.
Empresas e pesquisadores já exploram fine-tuning com ferramentas como Distil Labs, alcançando precisão de 96-98% em tarefas específicas de tool calling, equiparando ou superando modelos muito maiores.
Limitações claras
O modelo não compete em raciocínio geral pesado ou tarefas criativas. Seu foco é especialista: velocidade e confiabilidade em instruções e dados. Quem busca performance ampla em coding ou matemática deve mirar em variantes maiores da família LFM ou outros LLMs.
Como acessar e rodar
Os pesos base (LFM2.5-350M-Base) e instruídos estão liberados. Documentação oficial explica execução local com ExecuTorch, llama.cpp, vLLM e engines parceiros como RunAnywhere, LM Studio e Cactus Compute. Colaborações com Qualcomm, AMD, Intel e outros ampliam opções de hardware.
Por que isso importa agora
Enquanto a indústria corre atrás de modelos frontier cada vez maiores, a Liquid AI mostra que tamanho não é tudo. Com 28 trilhões de tokens e arquitetura híbrida inteligente, um modelo compacto pode entregar valor real em cenários do dia a dia. Isso abre caminho para IA mais acessível, privada e eficiente, rodando direto no dispositivo do usuário.
O LFM2.5-350M reforça que inovação em eficiência e dados pode superar pura escala de parâmetros. Para equipes que constroem produtos edge-first, essa release representa uma opção prática e poderosa.










