A mediados del siglo XX, comenzaron la carrera espacial, y a mediados de la década de 2020, estamos en medio de la carrera de IA. Nadie está sentado quieto, con fiestas en todo el mundo presionando para los próximos grandes avances.
Los científicos chinos ahora están haciendo una gran afirmación de haber hecho uno propio. Según lo informado por el Independent, SpikingBrain1.0 es un nuevo modelo de lenguaje grande (LLM) de China, que normalmente podría no ser tan emocionante. Pero no se supone que esto sea un LLM normal. Se informa que SpikingBrain1.0 es hasta 100 veces más rápido que los modelos actuales, como los detrás de ChatGPT y Copilot.
Todo lo que opera el modelo, que es algo completamente nuevo. Se está promocionando como el primer LLM “con forma de cerebro”, pero ¿qué significa eso realmente? Primero, un poco de antecedentes sobre cómo funciona la cosecha actual de LLM.
Tenga paciencia conmigo en este caso, espero que pueda tener sentido y lo más simple posible. Esencialmente, la cosecha actual de LLM mira todas las palabras en una oración a la vez. Están buscando patrones, relaciones entre palabras, cualquiera que sea su posición en la oración.
Utiliza un método conocido como atención. Tome una oración como esta:
“El jugador de béisbol giró el bate y golpeó un jonrón”.
Usted, como humano, lee esa frase e instantáneamente sabes lo que significa, porque tu cerebro inmediatamente asocia el “béisbol” con las palabras que vienen después. Pero para un LLM, la palabra “bate” por sí solo podría ser un bate de béisbol o el animal. Sin examinar el resto de la oración, no podría hacer esa diferenciación.
La atención en un LLM mirará toda la oración y luego traerá las relaciones entre las palabras para comprenderla. Identificará los otros términos, como “Swung” y “Baseball Player”, para identificar la definición correcta y hacer mejores predicciones.
Esto se conecta con los datos de entrenamiento para el LLM, donde habrá aprendido que el “béisbol” y el “bate” a menudo van juntos.
Sin embargo, examinar oraciones completas a la vez requiere recursos. Y cuanto mayor sea la entrada, más recursos necesarios para entenderlo. Esta, en parte, es la razón por la cual los LLM actuales generalmente necesitan cantidades masivas de potencia informática. Cada palabra se compara con cualquier otra palabra, y consume muchos recursos.
SpikingBrain1.0 afirma imitar el enfoque del cerebro humano, centrándose solo en palabras cercanas, similar a cómo abordaríamos el contexto de una oración. Un cerebro dispara las células nerviosas que necesita; No se ejecuta a plena potencia todo el tiempo.
El resultado neto es un proceso más eficiente, con sus creadores que reclaman entre 25x y 100x ganancias de rendimiento sobre los LLM actuales. En comparación con algo como ChatGPT, se supone que este modelo responde selectivamente a las entradas, reduciendo sus requisitos de recursos para operar.
Como se escribe en el trabajo de investigación:
“Esto permite un pretraben continuo con menos del 2 por ciento de los datos al tiempo que alcanza el rendimiento comparable a los modelos de código abierto convencionales”.
Quizás igualmente interesante, al menos para China, es que el modelo se ha construido para no confiar en el cálculo de GPU del hardware NVIDIA. Se ha probado en un chip producido localmente de una empresa china, Metax.
Por supuesto, hay mucho que considerar, pero al menos en el papel, SpikingBrain1.0 podría ser una próxima evolución lógica de LLM. Se ha hecho mucho del impacto que la IA tendrá en el medio ambiente, con vastas requisitos de energía e requisitos igualmente vastos para enfriar estos centros de datos masivos.
Es bastante malo ejecutar LLM en Ollama en casa con un RTX 5090. Mi oficina se calienta y con una tarjeta gráfica que puede atraer cerca de 600W, no es eficiente. Escala que pensó en un centro de datos lleno de GPU.
Este es un desarrollo interesante si todo logra ser preciso. Podría ser el próximo salto hacia adelante, pero solo si el equilibrio de precisión y eficiencia está allí. Sin embargo, los tiempos emocionantes seguro.