A Apple publicou um estudo detalhado no Machine Learning Research apresentando dados e comparativos diretos que mostram o quanto o novo chip M5 aprimorou a execução local de modelos de linguagem em relação à geração anterior, o M4. Segundo a empresa, os avanços vêm principalmente do aumento da largura de banda da memória e dos novos aceleradores neurais integrados à GPU.
Para os testes, a Apple utilizou o MLX, estrutura de código aberto que permite rodar modelos de aprendizado de máquina nativamente em Macs com Apple Silicon. A plataforma foi usada para medir tempos de resposta e comportamento de diferentes arquiteturas, com suporte para treinamento, inferência, geração de texto e otimização de modelos.
O MLX também inclui o MLX LM, módulo dedicado a modelos de linguagem. Com ele, é possível baixar e executar localmente a maioria dos modelos disponíveis na Hugging Face, inclusive com suporte a quantização, método que reduz uso de memória e acelera a inferência.
