Intel lança SDK de compressão neural para conjuntos de texturas: obtenha texturas até 18 vezes menores.

Durante a GDC 2026, Marissa Dubois, engenheira gráfica da Intel, subiu ao palco para apresentar a abordagem inovadora da Intel para compressão neural de texturas, que apresenta semelhanças com a NTC da NVIDIA. Essa apresentação marcou um avanço significativo em relação ao protótipo de P&D anterior da Intel, demonstrado na GDC 2025, revelando que a tecnologia agora evoluiu para um kit de desenvolvimento de software (SDK) independente e totalmente comercializado.

Denominado Compressão Neural de Conjuntos de Texturas (TSNC, na sigla em inglês), este método representa uma abordagem avançada para o armazenamento de texturas usadas em jogos. As técnicas convencionais de compressão de blocos em GPUs, abrangendo os formatos BC1 a BC7, geralmente aplicam algoritmos fixos. Embora esses métodos sejam rápidos e universalmente adotados, muitas vezes não aproveitam todo o seu potencial de compressão. Em contraste, o TSNC utiliza o poder do aprendizado de máquina, empregando uma pequena rede neural que utiliza o método de descida de gradiente estocástico para codificar e decodificar conjuntos de texturas específicos de forma eficiente. Essa inovação culmina em uma representação compacta do espaço latente, que um perceptron multicamadas compacto pode reconstruir em tempo de execução, permitindo a recuperação dos dados de textura originais, incluindo atributos de difusão, normal, rugosidade, metalicidade, oclusão ambiental e emissão.

A imagem é um diagrama intitulado 'Compressão Neural 101', que detalha o processo de compressão de dados de entrada por meio de um 'Codificador' em 'Valores do espaço latente' e a descompressão desses dados com um 'Decodificador' para produzir 'Dados de saída', com informações sobre a descoberta dos pesos do modelo para as redes do codificador e do decodificador.

Um aspecto fundamental do TSNC é a compreensão de que um conjunto de texturas, que inclui todos os mapas PBR para um material específico, frequentemente contém dados sobrepostos em seus canais. O TSNC aproveita essa redundância de forma inteligente, algo que a compressão de blocos padrão não consegue fazer.

Um gráfico comparativo intitulado "Comparações da Pirâmide de Recursos" exibe vários mapas de textura e variantes de espaço latente para um modelo de abóbora com o logotipo da Intel presente.

Os dois níveis das pirâmides de recursos

No cerne da metodologia de compressão do TSNC está a pirâmide de recursos, composta por quatro texturas de espaço latente codificadas em BC1 que variam em múltiplas configurações de resolução. A Intel apresenta duas variantes distintas, cada uma oferecendo diferentes compromissos entre qualidade e eficiência de compressão:

A variante A apresenta duas imagens latentes em resolução total e duas em meia resolução. Para texturas destinadas a entradas 4K, isso se traduz em duas imagens latentes 4K e duas 2K, resultando em uma impressionante compressão de 9x, reduzindo o tamanho do arquivo de 256 MB para aproximadamente 26, 8 MB. A perda de qualidade perceptual, avaliada usando a ferramenta de análise FLIP da NVIDIA, gira em torno de 5%, com impactos mínimos nos mapas de normais.
A variante B adota uma abordagem mais agressiva, reduzindo as imagens latentes para metade, um quarto e um oitavo da resolução inicial, alcançando assim uma compressão superior a 17x. No entanto, essa variante acarreta uma degradação de qualidade perceptível, onde artefatos BC1 tornam-se visíveis nos mapas de normais e nos canais de oclusão/rugosidade ambiental. O erro perceptual avaliado pelo FLIP situa-se entre 6% e 7%, o que a Intel admite ser “suficiente para ser notado pelo observador”.Consequentemente, a variante B é mais adequada para materiais distantes ou secundários, onde a preservação de detalhes é menos crítica.

Um gráfico intitulado 'Taxa de Compressão da Variante A do TSNC' indica que o TSNC atinge taxas de compressão mais altas (9, 53 a 9, 59x) em comparação com o BCx (4, 79 a 4, 80x) em resoluções de 1k, 2k e 4k.

Um slide intitulado "Taxas de Compressão" compara diferentes formatos de compressão, mostrando que o TSNC atinge taxas de compressão mais altas, de 17, 85x a 18, 05x, em comparação com 4, 79x a 4, 80x para o BCx, com um gráfico ilustrando os dados.

Desde sua introdução como um protótipo de pesquisa baseado em PyTorch, a Intel redesenvolveu completamente o compressor TSNC usando shaders de computação Slang. Essa nova arquitetura permite que os desenvolvedores utilizem o mesmo código de descompressão em diversas plataformas, incluindo Unreal Engine, engines personalizadas e descompressão baseada em CPU.

No que diz respeito às GPUs, a Intel agora oferece suporte à API DirectX 12 Cooperative Vectors da Microsoft, aproveitando os núcleos de matriz XMX integrados nas GPUs das séries A e B para facilitar a inferência de matrizes acelerada por hardware. Para sistemas sem suporte a XMX, a estrutura utiliza uma técnica FMA (multiplicação e adição fundidas) padrão, compatível com arquiteturas Intel e não Intel.

Durante sua apresentação, Dubois descreveu quatro estratégias de implantação para a tecnologia TSNC, cada uma oferecendo um equilíbrio diferente entre utilização de memória e eficiência de espaço em disco:

No momento da instalação — Os arquivos compactados são entregues e descompactados localmente como parte da instalação, mantendo as texturas não compactadas no armazenamento do usuário para otimizar a economia de largura de banda durante a distribuição.
Durante o carregamento — As texturas permanecem compactadas no disco, sendo descompactadas na VRAM durante a fase de carregamento do jogo. Esse método minimiza tanto o tamanho da instalação quanto o uso de VRAM durante o processo de carregamento.
Em tempo de transmissão — Em conjunto com o streaming de texturas, as texturas são descompactadas sob demanda, alcançando um equilíbrio entre eficiência de armazenamento e memória, ao mesmo tempo que adicionam alguma carga de inferência em tempo de execução.
No momento da amostragem, as texturas permanecem permanentemente compactadas na VRAM e são decodificadas pixel a pixel dentro do shader, maximizando a economia de VRAM e incorrendo em um custo de inferência constante.

Cada estratégia de implantação exige uma seleção cuidadosa por parte dos desenvolvedores, com base em seus requisitos específicos e no mecanismo subjacente utilizado.

Um slide de apresentação intitulado 'Estimativas de Tempo de Inferência nos Gráficos Integrados do Pantherlake B390' apresenta um gráfico de barras indicando 'Média de Nanossegundos por Pixel (Quanto menor, melhor)', com o algoritmo LinAlg alcançando uma aceleração de aproximadamente 3, 4x por pixel em comparação com o FMA.

Os testes de desempenho da Intel em um laptop Panther Lake utilizando gráficos integrados B390 durante uma carga de trabalho completa de shaders de computação em 1080p apresentaram os seguintes resultados:

Trajetória FMA: 0, 661 nanossegundos por pixel
Caminho de álgebra linear XMX: 0, 194 nanossegundos por pixel

Isso demonstra um aumento substancial de velocidade de 3, 4x atribuído aos cálculos matriciais acelerados por hardware. As métricas de desempenho favoráveis observadas em sistemas integrados sugerem que a implementação por tempo de amostragem por pixel pode ser mais viável do que se previa anteriormente. Para GPUs dedicadas, pode-se esperar sobrecargas ainda menores. A Intel prevê lançar uma versão Alpha do SDK de Compressão Neural de Conjunto de Texturas ainda este ano, seguida por testes beta e um lançamento público, embora os cronogramas exatos permaneçam incertos.

Fonte e imagens