Dentro do Laboratório de Chips da Amazon em Austin: A História do Trainium e seu Impacto nas Parcerias de IA

Pontos principais
- A Amazon organizou uma visita privada ao seu laboratório de chips em Austin, liderada por Kristopher King e Mark Carroll.
- Os chips Trainium, originalmente para treinamento, agora alimentam a inferência para serviços como o Bedrock.
- Mais de 1,4 milhão de chips Trainium foram implantados em três gerações.
- O modelo Claude da Anthropic é executado em mais de 1 milhão de chips Trainium2; a OpenAI receberá 2 gigawatts de capacidade em um acordo de US$ 50 bilhões.
- O Trainium3, um chip de 3 nanômetros, oferece até 50% de custo operacional reduzido e usa uma rede de malha para reduzir a latência.
- A Apple elogiou chips relacionados da AWS, e uma parceria com a Cerebras adiciona outro chip de inferência aos servidores Trainium.
- Os engenheiros podem mudar modelos para o Trainium com uma alteração simples no PyTorch.
- O laboratório inclui uma estação de solda, equipamentos de teste personalizados e um data center privado com servidores resfriados a líquido.
- O CEO Andy Jassy destacou o Trainium como um negócio de vários bilhões de dólares e uma parte fundamental da estratégia de IA da AWS.
A Amazon convidou um jornalista para uma visita privada ao seu laboratório de chips em Austin, mostrando o desenvolvimento da família de processadores de IA Trainium. Líderes do laboratório, Kristopher King e Mark Carroll, explicaram como o Trainium, originalmente construído para treinamento, agora alimenta a inferência para serviços como o Bedrock e apoia grandes parceiros, como Anthropic, OpenAI e Apple.
Visita ao Laboratório
A divisão de cloud da Amazon, AWS, organizou uma visita aos bastidores do seu laboratório de design de chips em Austin. A visita foi liderada pelo diretor do laboratório, Kristopher King, diretor de engenharia Mark Carroll e coordenador de relações públicas Doron Aronson. A equipe mostrou a instalação onde os chips Trainium são trazidos à vida, um espaço cheio de ventiladores industriais, equipamentos de teste e uma estação de solda. Embora o laboratório não fabrique o silício, é onde ocorre a primeira ativação e validação de cada geração de chips.
Evolução do Trainium
Originalmente criado para acelerar o treinamento de modelos, o Trainium mudou para também lidar com a inferência, o processo de gerar respostas de IA. A segunda geração, Trainium2, agora alimenta a maioria do tráfego de inferência no serviço Bedrock da AWS e executa em mais de um milhão de chips para o modelo Claude da Anthropic. A versão mais recente, Trainium3, é um design de 3 nanômetros produzido pela TSMC e pode entregar desempenho comparável com até 50% de custo operacional reduzido. Combinado com switches Neuron personalizados, os chips se comunicam em uma configuração de malha que reduz a latência.
Parcerias Estratégicas
A carteira de chips da AWS é a base de várias colaborações de IA de alto perfil. A Anthropic há muito tempo confia na cloud da Amazon, e seu modelo Claude é executado em uma grande frota de chips Trainium2. Um novo acordo de US$ 50 bilhões com a OpenAI torna a AWS o provedor exclusivo da ferramenta de construção de agentes de IA Frontier da OpenAI e promete 2 gigawatts de capacidade de Trainium para a startup. A Apple elogiou publicamente chips relacionados da AWS, como o Graviton e o Inferentia, e uma parceria recente com a Cerebras integra o chip de inferência da Cerebras em servidores baseados em Trainium.
Desafios de Engenharia
Levar um novo design de silício à vida envolve um esforço intenso e contínuo. Durante a ativação do Trainium3, os engenheiros descobriram um suporte de refrigeração mal alinhado e tiveram que lixar metal no local para corrigi-lo. O laboratório também possui uma estação de solda para trabalhos de componentes microscópicos e uma suite de ferramentas de teste personalizadas. Os engenheiros destacaram que mover um modelo para o Trainium geralmente requer apenas uma alteração de uma linha no PyTorch antes da recompilação.
Perspectiva Futura
O CEO Andy Jassy repetidamente chamou o Trainium de um negócio de vários bilhões de dólares e uma das tecnologias mais emocionais da AWS. A equipe já está projetando o Trainium4, enquanto apoia implantações maciças, como o Projeto Rainier, um cluster de 500.000 chips lançado no final de 2025 para a Anthropic. Um data center privado perto do laboratório abriga servidores resfriados a líquido que reutilizam o líquido de refrigeração para reduzir o impacto ambiental. A dedicação dos engenheiros — trabalhando 24 horas por dia, 7 dias por semana, em torno de cada ativação — sinaliza o compromisso da Amazon em desafiar a dominância da Nvidia no mercado de chips de IA.