
A Intel anunciou o o AutoRound, um algoritmo de quantização pós-treinamento (PTQ) de última geração e, agora, integrado ao LLM Compressor. Para os que desconhecem, trata-se de uma biblioteca para otimizar modelos para implantação com o vllm e disponível no github.
Essa biblioteca incluiu um conjunto abrangente de algoritmos de quantização para quantização somente de pesos e de ativações. Ela também traz integração com modelos e repositórios do Hugging Face, formato de arquivo baseado em safetensors compatível com o vllm. Por fim, há suporte a modelos grandes via accelerate.
Com a colaboração, o time azul espera oferecer maior precisão para quantização com baixa largura de bits. Também há expectativa de ajuste simplificado (reduzindo para centenas de etapas, não milhares) e zero sobrecarga adicional de inferência.
A empresa ainda espera que o fluxo de trabalho seja simplificado, quantizando e disponibilizando modelos com apenas algumas linhas de código. Os interessados podem baixar o software diretamente pelo Github.
Notícias Relacionadas:
- CPU Intel Core Ultra 7 270K Plus é até 5% mais rápida que o a 265K
- Panther Lake nos portáteis: OneXPlayer X1 com Intel Core Ultra 5 338H aparece em vazamento
- Intel lança driver otimizado para Battlefield 6
O que é o AutoRound?

O AutoRound é um algoritmo avançado de quantização pós-treinamento (PTQ) projetado para Modelos de Linguagem de Grande Porte (LLMs). Ele introduz três parâmetros treináveis por tensor quantizado: v (deslocamento/ajuste de arredondamento), α e β (controles de intervalo de recorte aprendidos).
Ele otimiza conjuntamente o arredondamento e o recorte para minimizar os erros de reconstrução da saída em blocos. O método de operação é processando as camadas do decodificador sequencialmente e aplicando o método do gradiente descendente com sinal.
A Intel promete que ele tenha uma precisão superior, especialmente em larguras de bits muito baixas. Além disso, ele vem com suporte a múltiplos tipos de dados: W4A16, MXFP8, MXFP4, FP8, NVFP4, e mais suportes devem ser adicionados.
Também, o AutoRound permite busca de precisão em camadas com bits mistos para otimizar a relação entre precisão e eficiência.
Aplicabilidade em LLMs
O AutoRound permite modelos quantizados em uma variedade de formatos de baixa largura de bits. Especificamente, em modelos projetados para acelerar a inferência em processadores Intel Xeon, aceleradores de IA Intel Gaudi, GPUs Intel Data Center, placas gráficas Intel Arc Série B, bem como outras GPUs (como dispositivos baseados em CUDA).
A Intel está adicionando suporte nativo aos formatos FP8, MXFP8 e MXFP4 à sua GPU de data center de próxima geração, codinome Crescent Island. Os modelos quantizados com AutoRound serão naturalmente dimensionados para aproveitar esses tipos de dados em todo o portfólio de hardware de Inteligência Artificial da Intel.
E isso cria um caminho consistente da inovação algorítmica à implementação no mundo real, além de sinalizar que, claramente, o time azul está se esforçando para desfazer o erro que cometeu com a IA.
Fonte: Intel (Github).
- Categorias
Participe do grupo de ofertas do Adrenaline
Confira as principais ofertas de hardware, componentes e outros eletrônicos que encontramos pela internet. Placa de vídeo, placa-mãe, memória RAM e tudo que você precisa para montar o seu PC. Ao participar do nosso grupo, você recebe promoções diariamente e tem acesso antecipado a cupons de desconto.
Entre no grupo e aproveite as promoções