Arc e Blackwell!

Intel revela AutoRound: tecnologia otimiza LLMs em GPUs Intel e NVIDIA com novos formatos FP8

Tudo indica que o novo CEO tem conseguido superar a crise da empresa e corrigir os rumos do time azul.

Henrique Weizenmann

09/12/2025 11:53 0

Intel revela AutoRound: tecnologia otimiza LLMs em GPUs Intel e NVIDIA com novos formatos FP8 — Créditos: Intel.

Entre no nosso canal de Notícias e Análises

A Intel anunciou o o AutoRound, um algoritmo de quantização pós-treinamento (PTQ) de última geração e, agora, integrado ao LLM Compressor. Para os que desconhecem, trata-se de uma biblioteca para otimizar modelos para implantação com o vllm e disponível no github.

Essa biblioteca incluiu um conjunto abrangente de algoritmos de quantização para quantização somente de pesos e de ativações. Ela também traz integração com modelos e repositórios do Hugging Face, formato de arquivo baseado em safetensors compatível com o vllm. Por fim, há suporte a modelos grandes via accelerate.

Receba ofertas imperdíveis no WhatsApp!

Com a colaboração, o time azul espera oferecer maior precisão para quantização com baixa largura de bits. Também há expectativa de ajuste simplificado (reduzindo para centenas de etapas, não milhares) e zero sobrecarga adicional de inferência.

A empresa ainda espera que o fluxo de trabalho seja simplificado, quantizando e disponibilizando modelos com apenas algumas linhas de código. Os interessados podem baixar o software diretamente pelo Github.

Notícias Relacionadas:

O que é o AutoRound?

Créditos: Intel.

O AutoRound é um algoritmo avançado de quantização pós-treinamento (PTQ) projetado para Modelos de Linguagem de Grande Porte (LLMs). Ele introduz três parâmetros treináveis por tensor quantizado: v (deslocamento/ajuste de arredondamento), α e β (controles de intervalo de recorte aprendidos).

Ele otimiza conjuntamente o arredondamento e o recorte para minimizar os erros de reconstrução da saída em blocos. O método de operação é processando as camadas do decodificador sequencialmente e aplicando o método do gradiente descendente com sinal.

A Intel promete que ele tenha uma precisão superior, especialmente em larguras de bits muito baixas. Além disso, ele vem com suporte a múltiplos tipos de dados: W4A16, MXFP8, MXFP4, FP8, NVFP4, e mais suportes devem ser adicionados.

Também, o AutoRound permite busca de precisão em camadas com bits mistos para otimizar a relação entre precisão e eficiência.

Aplicabilidade em LLMs

O AutoRound permite modelos quantizados em uma variedade de formatos de baixa largura de bits. Especificamente, em modelos projetados para acelerar a inferência em processadores Intel Xeon, aceleradores de IA Intel Gaudi, GPUs Intel Data Center, placas gráficas Intel Arc Série B, bem como outras GPUs (como dispositivos baseados em CUDA).

A Intel está adicionando suporte nativo aos formatos FP8, MXFP8 e MXFP4 à sua GPU de data center de próxima geração, codinome Crescent Island. Os modelos quantizados com AutoRound serão naturalmente dimensionados para aproveitar esses tipos de dados em todo o portfólio de hardware de Inteligência Artificial da Intel.

E isso cria um caminho consistente da inovação algorítmica à implementação no mundo real, além de sinalizar que, claramente, o time azul está se esforçando para desfazer o erro que cometeu com a IA.

Fonte: Intel (Github).

Conteúdo Relacionado

Imagem de GPU Intel Arc editada

E lá vamos nós…

Intel estaria trabalhando em nova GPU de 300W, possivelmente a Arc B770

Categorias
- Reportar Erro neste Post

Participe do grupo de ofertas do Adrenaline

Participe do grupo de ofertas do Adrenaline

Confira as principais ofertas de hardware, componentes e outros eletrônicos que encontramos pela internet. Placa de vídeo, placa-mãe, memória RAM e tudo que você precisa para montar o seu PC. Ao participar do nosso grupo, você recebe promoções diariamente e tem acesso antecipado a cupons de desconto.

Entre no grupo e aproveite as promoções

Tudo sobre Intel

Mudança de planos

Intel desiste de vender sua divisão NEX, voltada para redes e computação edge

Lip-Bu Tan apresenta processos Intel 18A e 14A

Um futuro otimista?

Intel 14A tem recebido elogios de seus clientes iniciais, reporta analista

Placa de vídeo da Intel com 1% escrito ao lado

De grão em grão

Intel Arc finalmente alcança 1% no mercado de GPUs dedicadas

O que esperar de Intel, AMD e NVIDIA na CES 2026?

Só na expectativa!

O que esperar de Intel, AMD e NVIDIA na CES 2026?

Um ano depois, Intel Core Ultra 9 285K tem melhora de até 9% de desempenho no Linux

Melhorou!

Um ano depois, Intel Core Ultra 9 285K tem melhora de até 9% de desempenho no Linux

Criador do Linux escolhe GPU da Intel para o seu novo PC

Surpresa!

Criador do Linux escolhe GPU da Intel para o seu novo PC

Intel pode fabricar chips Apple M-Series a partir de 2027 com processo 18A, dizem insiders

Apple e Intel unidas novamente?

Intel pode fabricar chips Apple M-Series a partir de 2027 com processo 18A, dizem insiders

Resposta da Intel aos Ryzen X3D, bLLC pode vir apenas nos Nova Lake K desbloqueados

Até 144MB de cache

Resposta da Intel aos Ryzen X3D, bLLC pode vir apenas nos Nova Lake K desbloqueados