Volver a Insights
    Estrategia IA
    9 min

    LLM Council: la idea de Andrej Karpathy que cambia cómo hacemos preguntas a la IA

    LLM Council es el proyecto open source de Andrej Karpathy donde varios modelos de IA debaten, se evalúan entre sí y producen una respuesta final consensuada. Así funciona.

    Por Rubitec
    Inteligencia ArtificialLLMsEstrategiaHerramientas

    Andrej Karpathy quería leer un libro. No quería hacerlo solo. Quería hacerlo acompañado de varios modelos de IA, cada uno ofreciendo su perspectiva, criticando a los otros y llegando a una conclusión compartida.

    Para conseguirlo, escribió un programa en un fin de semana. Lo llamó LLM Council. Lo publicó en GitHub con una advertencia directa: "No voy a soportarlo de ninguna manera. Está aquí tal cual, para inspiración de otros."

    En menos de 24 horas era trending. Con razón.

    Quién es Karpathy y por qué importa

    Andrej Karpathy es uno de los investigadores de IA más influyentes del mundo. Fue director de IA en Tesla durante los años del Autopilot. Fue miembro fundador de OpenAI. Hoy es una figura independiente que publica proyectos, videos y reflexiones que la comunidad sigue con una atención casi religiosa.

    Cuando Karpathy publica algo, aunque sea un "hack de fin de semana", la industria presta atención. No porque el código sea perfecto, sino porque sus intuiciones sobre hacia dónde va la IA suelen ser correctas antes de que el consenso las alcance.

    LLM Council es un ejemplo de eso.

    Qué es LLM Council

    LLM Council es una aplicación web local y open source que, en apariencia, se parece a ChatGPT. Una caja de texto. Un botón de enviar. Una respuesta.

    Pero lo que ocurre por debajo es radicalmente diferente. En vez de enviar tu pregunta a un solo modelo, la envía a un consejo de varios modelos simultáneamente. Luego esos modelos se evalúan entre sí. Y finalmente, un "Chairman LLM" designado sintetiza todo y produce la respuesta final.

    Es, en esencia, una reunión de directivos de IA. Cada uno habla, cada uno critica a los demás, y el presidente cierra con las conclusiones.

    Cómo funciona el proceso en tres etapas

    El flujo del LLM Council tiene una elegancia que vale la pena entender en detalle.

    Etapa 1: Opiniones individuales. Tu pregunta se envía en paralelo a todos los modelos del consejo. En la configuración por defecto de Karpathy: GPT-5.1 de OpenAI, Gemini 3 Pro de Google, Claude Sonnet 4.5 de Anthropic y Grok 4 de xAI. Cada uno responde de forma independiente, sin ver las respuestas de los otros. Esto garantiza diversidad de perspectivas desde el principio.

    Etapa 2: Revisión entre pares. Aquí está la innovación clave. El sistema toma las respuestas de todos los modelos, las anonimiza (se convierten en "Respuesta A", "Respuesta B", etc.) y se las envía a cada modelo para que las evalúe y clasifique. Los modelos no saben qué respuesta es suya. Esto elimina el sesgo de favoritismo y fuerza una evaluación más objetiva.

    Cada modelo produce una crítica detallada y un ranking final. El sistema agrega todos los rankings para calcular qué respuesta fue considerada mejor en conjunto.

    Etapa 3: Síntesis final. El Chairman LLM (por defecto, Gemini 3 en la configuración de Karpathy) recibe la pregunta original, todas las respuestas individuales y todos los rankings de la fase de revisión. Con ese contexto completo, produce la respuesta definitiva: una síntesis que incorpora los puntos fuertes de cada modelo y resuelve las contradicciones.

    El usuario ve todo el proceso: puede inspeccionar cada respuesta individual, ver cómo cada modelo evaluó a los demás y finalmente leer la respuesta del Chairman.

    Por qué este enfoque es más robusto que preguntar a un solo modelo

    Cuando le haces una pregunta a ChatGPT o a Claude, estás confiando en un único conjunto de sesgos, un único estilo de razonamiento y un único conjunto de datos de entrenamiento. Si ese modelo tiene un punto ciego en ese tema, tú no lo sabes.

    LLM Council ataca ese problema desde varios ángulos.

    Primero, la diversidad inicial: distintos modelos tienen distintas fortalezas. GPT-5.1 tiende a destacar en razonamiento estructurado. Claude es particularmente bueno con matices y código. Gemini tiene ventajas en tareas multimodales. Al combinarlos, el sistema captura un espectro más amplio de capacidades.

    Segundo, la revisión entre pares actúa como filtro de calidad. Los investigadores han observado que los modelos suelen ser mejores evaluando respuestas que generándolas. Al forzar esa evaluación cruzada, el sistema añade una capa de control que el uso individual no tiene.

    Tercero, la anonimización es crítica. Si los modelos supieran cuál respuesta es la suya, habría un incentivo implícito para valorarla mejor. Al eliminar esa información, el sistema obtiene evaluaciones más honestas.

    El resultado en los experimentos de Karpathy fue revelador: en sus pruebas de lectura, los modelos consistentemente clasificaron a GPT-5.1 como el más preciso y perspicaz, mientras que Claude quedó sistemáticamente en último lugar (dato que generó debate en la comunidad). Lo interesante no es el ranking en sí, sino que los modelos fueron capaces de hacer esa evaluación de forma autónoma y consistente.

    Lo que implica para las empresas

    El LLM Council no es un producto comercial. Karpathy fue explícito: es un experimento personal, sin soporte, sin garantías. Pero sus implicaciones para organizaciones que dependen de decisiones críticas son significativas.

    Pensemos en los casos de uso donde el coste de una respuesta incorrecta es alto: análisis legal, evaluación financiera, diagnóstico médico, decisiones estratégicas. En todos estos casos, el paradigma de preguntar a un solo modelo y confiar en la respuesta tiene limitaciones obvias.

    Lo que propone LLM Council, aunque de forma rudimentaria, es exactamente lo que hacen los humanos en decisiones importantes: consultar a varios expertos, pedir que se critiquen entre sí, y que alguien con visión de conjunto sintetice las perspectivas. La diferencia es que esto puede ocurrir en segundos y con los mejores modelos del mundo.

    VentureBeat lo planteó en estos términos tras analizar el proyecto: el LLM Council esboza inadvertidamente la capa que le falta a la orquestación de IA empresarial. El mercado tiene modelos excelentes. Lo que no tiene aún es infraestructura estandarizada para que esos modelos colaboren de forma confiable en la toma de decisiones.

    Otra implicación que señaló Karpathy de forma colateral: el proyecto usa OpenRouter como capa de abstracción para conectar con todos los proveedores. Eso significa que cambiar de modelo es editar una línea de configuración. La arquitectura protege contra el vendor lock-in de forma casi trivial. Algo que las empresas que construyen sobre un único proveedor deberían considerar.

    El concepto más amplio: ensembles de modelos

    LLM Council es una implementación específica de una idea más general que la investigación lleva tiempo explorando: los ensembles de modelos.

    En machine learning clásico, los ensembles (combinar múltiples modelos para producir una predicción más robusta que cualquiera individualmente) llevan décadas siendo una técnica estándar. La intuición es sencilla: si varios modelos independientes cometen errores distintos, su combinación tiende a cancelar esos errores.

    Trasladar esa lógica a los LLMs es lo que hace LLM Council, con la particularidad de que añade la evaluación entre pares como mecanismo de ponderación. No es solo combinar respuestas. Es dejar que los propios modelos decidan cuál es mejor.

    A medida que los modelos se vuelven más especializados (algunos mejores en código, otros en análisis, otros en creatividad), este patrón de debate, crítica y síntesis se vuelve más valioso, no menos.

    Un "vibe coded" hack con implicaciones serias

    Karpathy describió el proyecto como "99% vibe coded", código generado principalmente por IA como experimento rápido. Y añadió algo más revelador: "El código es efímero ahora. Las librerías han terminado. Pídele a tu LLM que lo cambie como quieras."

    Esto no es solo un comentario técnico. Es una declaración sobre cómo va a cambiar el desarrollo de software. Si el código puede ser generado, modificado y descartado por IA en ciclos cortos, el valor ya no está en el código sino en la arquitectura conceptual, en saber qué construir y por qué.

    LLM Council es, en ese sentido, un doble ejemplo: tanto del patrón de orquestación multi-modelo que probablemente va a dominar los próximos años, como del nuevo paradigma de desarrollo donde una idea sólida puede materializarse en un fin de semana con la IA como pair programmer.

    Para las empresas españolas que están pensando cómo integrar la IA en su modelo de negocio, el mensaje de fondo es este: la ventaja competitiva no va a estar en el modelo que uses. Va a estar en cómo orquestes varios modelos para tomar mejores decisiones que la competencia.

    LLM Council, con toda su informalidad, apunta exactamente en esa dirección.


    ¿Quieres entender cómo la orquestación de modelos de IA puede aplicarse a las decisiones de tu empresa? En Rubitec trabajamos con directivos que quieren ir más allá del chatbot. Hablemos.

    La IA no espera. Tu competencia tampoco.

    La diferencia entre las empresas que liderarán su sector y las que no se decide ahora. No en 2027. Ahora.

    Sin compromiso. 30 minutos. Te decimos si podemos ayudarte, y si no, te orientamos igualmente.