Los innovadores chips impulsando la revolución informática

En este mes de marzo, una multitud entusiasta de 12,000 personas llenó un estadio en San José, California. «Espero que se den cuenta de que esto no es un concierto», bromeó Jensen Huang, director ejecutivo de la empresa de fabricación de chips Nvidia en Santa Clara.

Durante la siguiente media hora, Huang preparó a la multitud para escuchar las últimas noticias sobre las unidades de procesamiento de gráficos (GPU), el chip de computadora principal de su empresa, que ha sido clave para los avances en inteligencia artificial (IA) en la última década. Huang mostró el modelo 2022 de la empresa, el ‘superchip’ Hopper. «Hopper cambió el mundo», dijo. Luego, tras una pausa dramática, mostró otro rectángulo negro brillante del tamaño de una nota adhesiva: «Este es Blackwell». La multitud aplaudió.

En 2022, Hopper superó a la competencia en todas las categorías, desde la clasificación de imágenes hasta el reconocimiento de voz, en MLPerf, una batería de pruebas a veces llamada los ‘Juegos Olímpicos de la IA’. Tan pronto como salió al mercado, Hopper se convirtió en el chip preferido por las empresas que buscan potenciar su IA. Ahora, Nvidia promete que Blackwell será, para ciertos problemas, varias veces más rápido que su predecesor. «Creo que Blackwell nos llevará a este próximo nivel de rendimiento a través de una combinación de más potencia y también de cómo se comunican los chips entre sí», dice Dave Salvator, director de marketing de productos en el Grupo de Computación Acelerada de Nvidia.

Si bien las esperanzas y preocupaciones giran en torno al impacto de la IA, el mercado de los chips de IA sigue creciendo. En la actualidad, Nvidia suministra más del 80% de ellos; en 2023, vendió 550,000 chips Hopper. Con un costo de al menos US$30,000 cada uno, los potentes chips se destinaron a centros de datos, en lugar de computadoras personales. Este año, el valor de mercado de la empresa se disparó a más de $2 billones, convirtiéndola en la tercera empresa más valiosa del mundo, por delante de gigantes como Amazon y Alphabet, la empresa matriz de Google.

Hombre con una chaqueta de cuero y gafas sosteniendo un chip de computadora en un escenario de conferencia.

El director ejecutivo de Nvidia, Jensen Huang, muestra la nueva unidad de procesamiento de gráficos Blackwell de la empresa de tecnología.Crédito: David Paul Morris/Bloomberg/Getty

El chip Blackwell de Nvidia forma parte de una ola de desarrollos de hardware, resultado de empresas que intentan mantenerse al día con, y apoyar, la revolución de la IA. En la última década, gran parte del avance en IA no ha venido tanto de trucos de codificación ingeniosos, sino del principio simple de que más grande es mejor. Los modelos de lenguaje grandes cada vez se han entrenado en conjuntos de datos cada vez mayores, requiriendo cada vez más potencia informática. Según algunas estimaciones, el último modelo de la empresa estadounidense OpenAI, el GPT-4, necesitó 100 veces más potencia informática para entrenarse que su predecesor.

Empresas como Meta han construido centros de datos que dependen de las GPU de Nvidia. Otros, incluyendo Google e IBM, junto con multitud de empresas más pequeñas, han diseñado sus propios chips de IA; Meta también está trabajando en el suyo. Mientras tanto, los investigadores están experimentando con una variedad de diseños de chips, incluidos algunos optimizados para trabajar en dispositivos más pequeños. A medida que la IA se aleja de los centros de computación en la nube y entra en dispositivos móviles, «no creo que las GPU sean suficientes ya», dice Cristina Silvano, ingeniera informática de la Universidad Politécnica de Milán en Italia.

Estos chips tienen algo en común: diversos trucos, como la computación en paralelo, una memoria más accesible y abreviaturas numéricas, que les ayudan a superar las barreras de velocidad de la computación convencional.

Cambio de chip

Gran parte de la revolución del aprendizaje profundo de la última década se puede atribuir a un alejamiento del caballo de batalla convencional de la computación: la unidad central de procesamiento (CPU).

Una CPU es básicamente una pequeña máquina que sigue órdenes. «Básicamente mira una instrucción y dice, ‘¿Qué me dice esto que haga?'», dice Vaughn Betz, ingeniero informático de la Universidad de Toronto en Canadá. En el nivel más básico, una CPU ejecuta instrucciones cambiando transistores, simples interruptores eléctricos que representan un ‘1’ como encendido y un ‘0’ como apagado. Con solo esta operación binaria, los transistores pueden realizar cálculos increíblemente complejos.

El poder y la eficiencia de una CPU dependen principalmente del tamaño de sus transistores: los transistores más pequeños cambian más rápido y se pueden empacar más densamente en un chip. Hoy en día, los transistores más avanzados miden apenas 45 x 20 nanómetros, no mucho más grandes que sus bloques de construcción atómicos. Las CPUs de última generación albergan más de 100 millones de transistores en un milímetro cuadrado y pueden realizar alrededor de un trillón de operaciones de punto flotante por segundo.

Las CPUs han mejorado exponencialmente desde la década de 1970. A medida que los transistores se reducían, su densidad en un chip se duplicaba cada dos años (una tendencia conocida como la ley de Moore), y los transistores más pequeños se volvían más rápidos (resultado de una tendencia llamada escalamiento de Dennard). El progreso en las CPUs fue tan rápido que hizo que diseñar circuitos especiales de otros tipos de chips resultara inútil. «Para cuando diseñabas un circuito especial, la CPU ya era dos veces más rápida», dice Jason Cong, ingeniero informático de la Universidad de California, Los Ángeles. Pero alrededor de 2005, los transistores más pequeños dejaron de volverse más rápidos y, en los últimos años, los ingenieros empezaron a preocuparse de que no pudieran hacer que los transistores fueran mucho más pequeños, ya que los dispositivos comenzaron a chocar con las leyes fundamentales de la física (ver ‘la desaceleración de la CPU’).

La desaceleración de la CPU: Dos gráficos que muestran cómo el número de transistores en un chip y la velocidad del chip han aumentado desde 1970.

Fuente: Karl Rupp

La desaceleración del progreso de la CPU llevó a los ingenieros informáticos a considerar seriamente otros tipos de chips. Las versiones iniciales de las GPUs existían desde finales de la década de 1970, diseñadas para realizar cálculos repetitivos para videojuegos, como renderizar el color de los píxeles en la pantalla lo más rápido posible. Mientras que las CPUs procesan instrucciones secuencialmente, las GPUs procesan más instrucciones en paralelo.

En general, las CPUs tienen unos pocos ‘núcleos’ potentes en los que se realizan los cálculos. Cada una de estas unidades de procesamiento individuales recibe instrucciones y está respaldada por múltiples cachés que almacenan datos a corto plazo. Esta arquitectura hace que las CPUs sean ideales para cálculos complejos. Las GPUs, en contraste, tienen cientos o miles de núcleos más pequeños, cada uno respaldado por menos sistemas accesorios, como cachés (ver ‘la ventaja de la GPU’). Tener muchos núcleos más pequeños permite a las GPUs realizar muchos cálculos simples y repetitivos en paralelo mucho más rápido que una CPU. (Este enfoque diferente para realizar cálculos para las GPUs implica un código informático diferente. Salvator señala que Nvidia tiene el doble de ingenieros trabajando en código que en hardware.)

La ventaja de la GPU: Dos diagramas que comparan la composición de las unidades centrales de procesamiento y las unidades de procesamiento de gráficos.

Fuente: Universidad de Cornell.

En 2012, Geoffrey Hinton, un científico informático de la Universidad de Toronto y uno de los primeros defensores de las redes neuronales, algoritmos inspirados en el cerebro, desafió a su entonces estudiante Alex Krizhevsky a ganar la competencia anual ImageNet, con el objetivo de entrenar a una computadora para identificar correctamente imágenes de objetos cotidianos. En ese momento, los programas que usaban CPUs lograban una precisión del 75%, como máximo. Krizhevsky se dio cuenta de que una IA de redes neuronales entrenada con GPUs podría hacerlo mejor, dado que el corazón de aprendizaje automático es hacer cálculos simples y repetitivos.

Krizhevsky y sus colaboradores1 utilizaron dos GPUs para entrenar su red neuronal, llamada AlexNet. Su IA tenía 60 millones de parámetros (variables internas que los modelos de IA utilizan para hacer predicciones), lo cual era inédito en ese momento. AlexNet arrasó con la competencia, alcanzando una precisión del 85% y sorprendiendo al mundo con su capacidad para distinguir de manera fiable entre imágenes similares, como las de leopardos y jaguares. Un año o dos después, todos los participantes de ImageNet estaban utilizando GPUs; desde entonces, los investigadores de IA han confiado mucho en esos chips.

Aunque las GPUs, al igual que las CPUs, siguen estando limitadas por las restricciones de los transistores, su capacidad para realizar cálculos en paralelo les ha permitido acelerar las tareas de IA. Para entrenar el modelo de lenguaje grande GPT-3, que tiene 175 mil millones de parámetros, los investigadores de OpenAI tuvieron que utilizar 1,024 GPUs durante un mes entero, lo que costó varios millones de dólares. En total, esas GPUs realizaron 1023 operaciones de punto flotante. El mismo entrenamiento habría durado cientos o miles de veces más en CPUs comparables. «Con más cómputo, podrías entrenar una red más grande y comenzaron a volverse mucho mejores», dice Betz. GPT-4, por ejemplo, lanzado en marzo de 2023, tiene asombrosamente 1.8 billones de parámetros, un aumento de diez veces respecto a su predecesor.

Aunque las GPUs han sido fundamentales para la revolución de la IA, no son la única opción disponible. A medida que las aplicaciones de IA se han multiplicado, también lo han hecho los chips de IA.

Contribuyendo con chips

A veces no hay tiempo suficiente para introducir instrucciones en un chip. Las matrices de compuertas programables en campo (FPGAs) están diseñadas para que un ingeniero informático pueda programar los circuitos del chip para seguir órdenes específicas en lugar de instrucciones. «Mientras que un chip como una CPU o una GPU debe esperar instrucciones externas, un FPGA simplemente lo hace», dice Betz.

Para Cong, un FPGA es «como una caja de Legos». Un ingeniero puede construir un circuito FPGA por circuito en cualquier diseño que pueda imaginar, ya sea para un sensor de lavadora de ropa o para la IA que guía un vehículo autónomo. Sin embargo, en comparación con los chips de IA que tienen circuitos no ajustables, como las GPUs, las FPGAs pueden ser más lentas y menos eficientes. Empresas como Altera, una subsidiaria de Intel en San José, comercializan FPGAs para una variedad de aplicaciones de IA, incluida la imágenes médicas, y los investigadores las han encontrado útiles para tareas especializadas, como el manejo de datos en colisionadores de partículas. La facilidad de programación de las FPGAs también las hace útiles para la prototipación, dice Silvano. Ella a menudo diseña chips de IA utilizando FPGAs antes de intentar el arduo proceso de fabricarlos.

Silvano también trabaja en una categoría de chips de IA mucho más pequeños, mejorando su eficiencia computacional de manera que puedan mejorar dispositivos móviles. Aunque sería ideal simplemente poner una GPU completa en un teléfono móvil, dice, los costos energéticos y el precio lo hacen prohibitivo. Los chips de IA compactos

Deja un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR