Índice do Artigo

Arc e Blackwell!

Intel revela AutoRound: tecnologia otimiza LLMs em GPUs Intel e NVIDIA com novos formatos FP8

Tudo indica que o novo CEO tem conseguido superar a crise da empresa e corrigir os rumos do time azul.

Intel revela AutoRound: tecnologia otimiza LLMs em GPUs Intel e NVIDIA com novos formatos FP8
Créditos: Intel.

A Intel anunciou o o AutoRound, um algoritmo de quantização pós-treinamento (PTQ) de última geração e, agora, integrado ao LLM Compressor. Para os que desconhecem, trata-se de uma biblioteca para otimizar modelos para implantação com o vllm e disponível no github.

Essa biblioteca incluiu um conjunto abrangente de algoritmos de quantização para quantização somente de pesos e de ativações. Ela também traz integração com modelos e repositórios do Hugging Face, formato de arquivo baseado em safetensors compatível com o vllm. Por fim, há suporte a modelos grandes via accelerate.

Com a colaboração, o time azul espera oferecer maior precisão para quantização com baixa largura de bits. Também há expectativa de ajuste simplificado (reduzindo para centenas de etapas, não milhares) e zero sobrecarga adicional de inferência.

A empresa ainda espera que o fluxo de trabalho seja simplificado, quantizando e disponibilizando modelos com apenas algumas linhas de código. Os interessados podem baixar o software diretamente pelo Github.

Notícias Relacionadas:

O que é o AutoRound?

Créditos: Intel.

O AutoRound é um algoritmo avançado de quantização pós-treinamento (PTQ) projetado para Modelos de Linguagem de Grande Porte (LLMs). Ele introduz três parâmetros treináveis por tensor quantizado: v (deslocamento/ajuste de arredondamento), α e β (controles de intervalo de recorte aprendidos).

Ele otimiza conjuntamente o arredondamento e o recorte para minimizar os erros de reconstrução da saída em blocos. O método de operação é processando as camadas do decodificador sequencialmente e aplicando o método do gradiente descendente com sinal.

A Intel promete que ele tenha uma precisão superior, especialmente em larguras de bits muito baixas. Além disso, ele vem com suporte a múltiplos tipos de dados: W4A16, MXFP8, MXFP4, FP8, NVFP4, e mais suportes devem ser adicionados.

Também, o AutoRound permite busca de precisão em camadas com bits mistos para otimizar a relação entre precisão e eficiência.

Aplicabilidade em LLMs

O AutoRound permite modelos quantizados em uma variedade de formatos de baixa largura de bits. Especificamente, em modelos projetados para acelerar a inferência em processadores Intel Xeon, aceleradores de IA Intel Gaudi, GPUs Intel Data Center, placas gráficas Intel Arc Série B, bem como outras GPUs (como dispositivos baseados em CUDA).

A Intel está adicionando suporte nativo aos formatos FP8, MXFP8 e MXFP4 à sua GPU de data center de próxima geração, codinome Crescent Island. Os modelos quantizados com AutoRound serão naturalmente dimensionados para aproveitar esses tipos de dados em todo o portfólio de hardware de Inteligência Artificial da Intel.

E isso cria um caminho consistente da inovação algorítmica à implementação no mundo real, além de sinalizar que, claramente, o time azul está se esforçando para desfazer o erro que cometeu com a IA.

Fonte: Intel (Github).

Participe do grupo de ofertas do Adrenaline

Participe do grupo de ofertas do Adrenaline

Confira as principais ofertas de hardware, componentes e outros eletrônicos que encontramos pela internet. Placa de vídeo, placa-mãe, memória RAM e tudo que você precisa para montar o seu PC. Ao participar do nosso grupo, você recebe promoções diariamente e tem acesso antecipado a cupons de desconto.

Entre no grupo e aproveite as promoções