banner
Lar / Notícias / IA generativa e o futuro dos data centers: Parte VI
Notícias

IA generativa e o futuro dos data centers: Parte VI

Jul 18, 2023Jul 18, 2023

CEO da DE-CIX sobre como os data centers precisam se adaptar

Na edição 48 da DCD>Magazine publicamos um artigo sobre IA generativa e seu impacto na infraestrutura digital. Se você chegou diretamente aqui, talvez queira começar do início: IA generativa: hype, oportunidade e o futuro dos data centers // Parte I - Os modelos

Assim como o silício está sendo levado ao limite para lidar com enormes modelos de IA, as redes e a arquitetura dos data centers enfrentam desafios.

“Com esses grandes sistemas, não importa o que aconteça, você não pode encaixá-los em um único chip, mesmo se você for Cerebras”, disse Dylan Patel, da SemiAnalysis. “Bem, como faço para conectar todos esses chips divididos? Se forem 100, isso é administrável, mas se forem milhares ou dezenas de milhares, então você está começando a ter dificuldades reais, e a Nvidia está implantando exatamente isso. Provavelmente são eles ou a Broadcom que têm a melhor rede do mundo.”

Mas as empresas de nuvem também estão cada vez mais envolvidas. Eles têm os recursos para construir seus próprios equipamentos de rede e topologias para dar suporte a clusters de computação crescentes.

A Amazon Web Services implantou clusters de até 20.000 GPUs, com placas de rede Nitro criadas especificamente pela AWS. “E implantaremos vários clusters”, disse Chetan Kapoor, da empresa. “Essa é uma das coisas que acredito que diferencia a AWS neste espaço específico. Aproveitamos nossa tecnologia Nitro para ter nossos próprios adaptadores de rede, que chamamos de Elastic Fabric Adapters.”

A empresa está em processo de implementação de sua segunda geração de EFA. “E também estamos no processo de aumentar a largura de banda por nó, cerca de 8× entre A100s e H100s”, disse ele. “Vamos subir para 3.200 Gbps, por nó.”

Na Google, um ambicioso esforço plurianual para reformular as redes da sua enorme frota de centros de dados está a começar a dar frutos.

A empresa começou a implantar a tecnologia de comutação óptica personalizada Mission Apollo em uma escala nunca vista antes em um data center.

As redes tradicionais de data centers usam uma configuração de coluna e folha, onde os computadores são conectados a switches (folhas) no topo do rack, que são então conectados à coluna, que consiste em switches de pacotes eletrônicos. O Projeto Apollo substitui a coluna vertebral por interconexões inteiramente ópticas que redirecionam os feixes de luz com espelhos.

“As necessidades de largura de banda para treinamento e, em alguma escala, inferência, são simplesmente enormes”, disse Amin Vahdat, do Google.

Nosso maior recurso já analisa a próxima onda da computação

A Apollo permitiu que a empresa construísse “topologias de rede que correspondam mais de perto aos padrões de comunicação desses algoritmos de treinamento”, disse ele. “Configuramos redes especializadas e dedicadas para distribuir parâmetros entre os chips, onde enormes quantidades de largura de banda acontecem de forma síncrona e em tempo real.”

Isso tem vários benefícios, disse ele. Nessa escala, chips únicos ou racks falham regularmente e “um switch de circuito óptico é bastante conveniente para reconfigurar a resposta, porque agora meus padrões de comunicação correspondem à topologia lógica da minha malha”, disse ele.

“Posso dizer ao meu interruptor do circuito óptico: 'pegue alguns outros chips de outro lugar, reconfigure o interruptor do circuito óptico para conectar esses chips no orifício que falta e depois continue.' Não há necessidade de reiniciar todo o cálculo ou, na pior das hipóteses, começar do zero.”

A Apollo também ajuda a implantar capacidade de forma flexível. O TPUv4 da empresa pode ser dimensionado para blocos de 4.096 chips. “Se eu agendar 256 aqui, 64 ali, 128 aqui, outros 512 ali, de repente, vou criar alguns buracos, onde tenho um monte de 64 blocos de fichas disponíveis.”

Em uma arquitetura de rede tradicional, se um cliente quisesse 512 desses chips, não conseguiria usá-los. “Se eu não tivesse um interruptor de circuito óptico, estaria perdido, teria que esperar a conclusão de alguns trabalhos”, disse Vahdat. “Eles já estão ocupando partes da minha malha e não tenho 512 contíguos, embora possa ter 1.024 chips disponíveis.”