Hermes 4: el modelo open source sin censura que le gana a ChatGPT en matemáticas

Mientras OpenAI, Google y Anthropic se pelean por quién tiene el modelo más grande, más caro y más controlado, un grupo que casi nadie conoce acaba de soltar algo que les debería quitar el sueño: un modelo de IA que les gana en benchmarks, es completamente abierto, y responde a casi todo lo que le preguntes.

Se llama Hermes 4. Lo hizo Nous Research, una startup que opera casi en las sombras dentro del movimiento open source. Y la semana pasada, sin hacer ruido, lo publicaron para que cualquiera lo descargue, lo modifique y lo use. Gratis.

Los números que importan

96,3%

MATH-500 (razonamiento)

81,9%

AIME'24 (competencia matemática)

57,1%

RefusalBench (no censura)

405B

Parámetros (modelo más grande)

Para ponerlo en perspectiva: en RefusalBench — un test que mide cuántas veces un modelo se niega a responder — Hermes sacó 57,1%. GPT-4o sacó 17,67%. Claude Sonnet 4 sacó 17%. O sea: mientras los modelos corporativos te dicen "no puedo ayudarte con eso" tres de cada cuatro veces, Hermes te responde.

Razonamiento híbrido: pensá y después hablá

Lo más interesante de Hermes 4 no son los números — es cómo piensa. Tiene un modo que Nous Research llama "razonamiento híbrido": podés elegir si querés una respuesta rápida o si querés que el modelo piense paso a paso antes de contestar.

Cuando activa el modo razonamiento, genera su proceso de pensamiento dentro de tags <think> antes de darte la respuesta final. Es parecido a lo que hace o1 de OpenAI, pero con una diferencia clave: vos podés ver cómo piensa. Transparencia total. OpenAI te muestra el resultado; Hermes te muestra el camino.

"El desafío es hacer que las trazas de pensamiento sean útiles y verificables sin que el razonamiento se descontrole" — Rohan Paul, investigador de IA

Cómo lo entrenaron: 3,5 millones de razones

Detrás de Hermes 4 hay dos sistemas que Nous Research construyó desde cero:

DataForge: un generador de datos sintéticos que toma información cruda (por ejemplo, un artículo de Wikipedia) y la transforma en ejemplos complejos de entrenamiento. Puede convertir un artículo en un rap, generar preguntas sobre ese rap, y crear respuestas verificadas.
Atropos: un framework open source de aprendizaje por refuerzo. Funciona como cientos de ambientes de entrenamiento especializados donde el modelo practica matemáticas, código, uso de herramientas y escritura creativa. Solo las respuestas correctas pasan al dataset final.

El resultado: 3,5 millones de muestras de razonamiento + 1,6 millones de muestras normales. Todo entrenado en 192 GPUs Nvidia B200 durante 71.616 horas de cómputo. Es mucho, pero es una fracción de lo que gastan las big tech.

Y ahora: Hermes Agent

Como si el modelo no fuera suficiente, el 25 de marzo — hace 4 días — Nous Research lanzó Hermes Agent: un framework de agentes de IA que evoluciona con vos.

No es un chatbot estático. Es un sistema que aprende de tus preferencias, se adapta a tus workflows, y mantiene contexto a largo plazo. Pensalo como un asistente personal que se vuelve más inteligente cuanto más lo usás — pero open source, en tu máquina, sin mandar tus datos a ningún servidor ajeno.

El código está en GitHub, abierto a la comunidad. Cualquiera puede descargarlo, modificarlo, y correrlo.

¿Y a nosotros qué nos cambia?

Todo. Hermes 4 es la demostración práctica de que no necesitás ser OpenAI ni Google para tener IA de primer nivel. Los números están ahí: le gana a ChatGPT en matemáticas, es transparente en su razonamiento, y no tiene un comité corporativo decidiendo qué podés preguntar y qué no.

Para emprendedores: podés correr un modelo estado del arte sin pagar suscripción mensual a nadie
Para empresas: tus datos se quedan en tu servidor, no en la nube de una big tech
Para Argentina: con TurboQuant de Google comprimiendo modelos y Hermes demostrando que open source compite de igual a igual, la soberanía tecnológica dejó de ser un eslogan y se convirtió en una opción real

La pregunta ya no es si la IA open source puede competir. La pregunta es cuánto tiempo más van a tardar las empresas en darse cuenta de que no necesitan pedirle permiso a nadie para usarla.

Hermes 4: el modelo open source sin censura que le gana a ChatGPT en matemáticas y no le rinde cuentas a nadie

Los números que importan

Razonamiento híbrido: pensá y después hablá

Cómo lo entrenaron: 3,5 millones de razones

Y ahora: Hermes Agent

¿Y a nosotros qué nos cambia?