Biología digital
—We actually made a map of the country, on the scale of a mile to the mile!
—Have you used it much? —I enquired.
—It has never been spread out.
Sylvie and Bruno Concluded, Chapter XI.
§
Las rulíadas
Acabo de escuchar a Stephen Wolfram improvisar una versión computacional del cuento Del rigor en la ciencia: si en una «rulíada» (ruliad en inglés, es decir, el entrelazamiento de todo lo que es computacionalmente posible, el resultado de seguir todas las reglas computacionales posibles de todas las formas posibles) existe un agente sin límites computacionales (computationally unbounded), entonces ese agente es la rulíada misma. En otras palabras: para que un agente tenga identidad e inteligibilidad, este debe ser computacionalmente limitado. O en otras: un agente computacionalmente infinito se confunde con aquello mismo que computa. Dicho de otra forma:
«Los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él. Las Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil».
§
Computationally bounded agents
Para seguir con la idea de que somos agentes computacionalmente limitados, hablemos de algunas comparativas interesantes:
. Aprendizaje. La retropropagación es un algoritmo de aprendizaje mucho más eficiente que el que sea que utilice el cerebro humano. Un modelo GPT-4 tiene alrededor de un billón de parámetros, mientras que en el cerebro humano hay alrededor de 100 billones de sinapsis y, aun así, GPT-4 sabe muchísimo más que un humano. Incluso si nos limitáramos a las áreas de Brodmann exclusivamente vinculadas al lenguaje, las cuales son 3 (las de Broca y la de Wernicke, o sea, el 14 % de todas las áreas), entonces estaríamos hablando de ~14 billones de sinapsis.
. FLOPS. La energía necesaria para activar una neurona con trifosfato de adenosina es de [Wang et al., 2017]. El cuerpo completo de un humano promedio utiliza alrededor de 100 Watts estando en reposo, y la tasa metábolica del cerebro representa el 20 % de esa cifra. De ahí, parece que tan solo el 5 % es actividad neuronal. En suma, un solo Watt es dedicado a la actividad neuronal, de manera que el humano puede generar hasta millones de activaciones neuronales por segundo. Asumiendo que cada neurona tiene 1,000 sinapsis (o sea, 1,000 MAC —operaciones Multiply-Accumulate—), eso nos da un total de 2,000 FLOPS —operaciones de coma flotante por segundo; en este caso, una suma y una multiplicación— por neurona. En conjunto, los 4 millones de neuronas son apenas capaces de 8 GFLOPS. Incluso si concediéramos que el cerebro humano usa el 1 % de sus neuronas en un determinado momento, tendríamos 1 billón de sinapsis, es decir, 1 TFLOPS. En cualquier caso, una GPU 3090 del 2020 tiene una capacidad de 35.6 TFLOPS, es decir, 30 veces mayor a ese generoso hipotético.
. Overhead. Aquí la analogía ya es más complicada, pero parece que en el cerebro —o al menos en el mío— hay una sobrecarga (overhead) computacional significativa y un bajo ancho de banda (o alto coste por transferencia de datos). Cuando estoy concentrado y alguien me interrumpe para hablarme, me toma demasiado tiempo —y fastidio— poder responder, como si tuviera que detener la ejecución del programa, remover gran parte de lo que estaba usando de la memoria RAM, cargar los datos del nuevo tema que me plantearon desde el disco duro, preparar las nuevas instrucciones y, finalmente, computar la respuesta. El tiempo para completar ese tipo de operación está fundamentalmente determinado por todos esos preparativos, no por la computación misma. Lo peor es tener que volver a hacer lo mismo y por un costo todavía más alto cuando se quiere volver al mismo nivel de concentración previo.
. OK LLM. No aprendiste algo nuevo, solo comprimiste la distribución probabilística de un fenómeno [Solomonoff, 1988]. No es que no sepas qué decir, solamente alcanzaste tu límite máximo de tokens. No intentaste recordar algo, solamente computaste una búsqueda de similitud vectorial. Tus padres no te educan, solo están haciendo prompt engineering. No sigues el ejemplo de los demás, solo empleas el aprendizaje few-shot. No tienes déficit de atención, solo tienes una context window limitada. No tuviste una crisis existencial, más bien cambiaste la función de pérdida para optimizar tu felicidad. Y, finalmente, para despejar las telarañas mentales de quienes personifican a estos modelos: no es que estén mintiendo o «alucinen», simplemente recibieron un input fuera de la distribución.
§
Hutter Prize
La idea de Hutter tiene sentido en esa misma línea: la compresión de datos es la mejor manera posible de que un agente computacionalmente limitado interactúe con una rulíada. Las leyes científicas son las reglas computacionales que mejor comprimen [Nannen, 2010, Schmidhuber, 2009] (i. e., que describen la mayor cantidad de fenómenos con el menor volumen y la menor pérdida de información posible) una cantidad significativa de fenómenos en el universo.