Model Context Protocol (MCP): aumentando los LLMs

Durante los últimos meses hemos visto cómo los modelos de lenguaje (LLMs) han evolucionado a un ritmo difícil de seguir. Lo que hace un año nos parecía magia (resúmenes automáticos, generación de código o creación de imágenes inspirada en nuestro pintor favorito) hoy es un terreno relativamente común. Sin embargo, si rascamos un poco bajo la superficie, rápidamente nos encontramos con una limitación fundamental que persiste: los LLMs no saben nada más allá de sobre lo que han sido entrenados… a no ser que les ayudemos.

Ahí es donde entra en juego una pieza que empieza a sonar con fuerza: Model Context Protocol, o MCP, un concepto relativamente nuevo que puede marcar un antes y un después en la forma en que los LLMs interactúan con el entorno.

¿Qué es MCP?

MCP es un protocolo que permite a los LLMs acceder en tiempo real a información externa y a funcionalidades de sistemas que no están incluidas en su modelo base. Es decir, no se trata de entrenar o re-entrenar al modelo, sino de darle una nueva ventana al mundo, a nuestro mundo particular.

Imagina que tienes una IA con un conocimiento enciclopédico… pero aislada en una sala sin ventanas. Puede razonar, generar texto y conectar ideas como nadie, pero no tiene forma de ver qué está ocurriendo ahí fuera, ni de interactuar con tu empresa, tus sistemas o tus datos actualizados. MCP es precisamente esa serie de ventanas y herramientas que le permiten mirar hacia afuera y actuar dentro de entornos reales.

Pero, ¿por qué es importante?

Con MCP, los modelos pasan de ser asistentes genéricos a convertirse en agentes con un contexto operativo real, habilitando posibilidades hasta entonces cerradas a ellos como, por ejemplo:

Consultar el historial de un cliente y ofrecer respuestas personalizadas.
Leer la documentación técnica interna de un producto alojado en Confluence o Notion.
Ejecutar una secuencia de comandos en un sistema para automatizar tareas repetitivas.
Recomendar acciones basadas en el comportamiento reciente de un usuario.

Ya no se trata solo de generar texto, sino de tomar decisiones informadas y realizar acciones concretas basadas en información específica de "tu mundo".

¿Cómo funciona en la práctica?

Habitualmente nos referimos a MCP como un estándar aunque esta definición puede tener algún matiz ya que, a día de hoy no existe una norma ISO que lo respalde y surge más como un acuerdo que define una serie de convenciones claras que son soportadas y aceptadas por modelos como los de OpenAI, Anthropic o Mistral. Es decir, se trata de un estándar de facto que está integrado en los principales modelos del mercado habilitándoles, durante una conversación, invocar funciones externas predefinidas y operar sobre sus resultados.

Estas funciones pueden ser APIs internas o externas, comandos del sistema o integraciones con herramientas de terceros. El modelo recibe la definición de esas funciones de forma transparente para el usuario como parte del prompt (input inicial) y decide cuándo usarlas en función del contexto.

Además, existen frameworks como LangChain, que permiten construir estas “extensiones” de manera modular y portable entre entornos, empujando esta filosofía y habilitando la orquestación de flujos complejos.

¿Y en qué se diferencia de RAGs y fine-tuning?

Si sigues el mundillo de la IA, seguramente algunas de las ventajas que te he comentado te habrán recordado a otros conceptos relacionados como RAGs o fine-tuning.

Para intentar explicar mejor parecidos y diferencias, te hago un breve resumen de estos dos conceptos:

Fine-tuning: consiste en ajustar los pesos del modelo base con nuevos datos. Es útil cuando quieres que el modelo aprenda patrones o lenguaje muy específicos, pero es costoso, rígido y no escala bien para datos que cambian con frecuencia.
RAG (Retrieval-Augmented Generation): combina un LLM con un sistema de recuperación de información. Cuando llega una consulta, se buscan los documentos más relevantes (por ejemplo, en una base de vectores) y se los pasa al modelo para que genere la respuesta en base a ellos. Es flexible y dinámico, pero está limitado a leer y responder.

MCP, en cambio, va más allá: no solo aporta contexto, también habilita acciones. Es decir, un modelo con MCP puede entender qué tiene que hacer y hacerlo, si le das acceso.

Te pongo un ejemplo:

Pongamos que un usuario pregunta: “¿Cuánto he facturado este trimestre y qué clientes aún no han pagado?”

Un modelo fine-tuned podría saber interpretar esa pregunta y responder con una plantilla genérica, pero no accedería a tus datos reales.
Un enfoque RAG podría recuperar documentos financieros o informes pasados y generar un resumen.
Con MCP, el modelo podría llamar directamente a tu sistema contable, hacer la consulta en tiempo real, y generar una respuesta actualizada… incluso iniciar una acción, como enviar recordatorios de pago si tú lo permites.

Además, MCP puede ser mucho más eficiente en el uso de tokens que un enfoque basado en RAG, algo clave cuando trabajamos con grandes volúmenes de información. Si no estás familiarizado, los tokens son las unidades mínimas de texto que utilizan los modelos para procesar y generar lenguaje; cada palabra, signo o fragmento cuenta, y el coste —tanto económico como de rendimiento— crece con cada token incluido en la conversación. En un RAG, toda la información recuperada debe ser “inyectada” en el prompt, ocupando espacio de contexto. MCP, en cambio, permite delegar la consulta a una función externa y solo devuelve lo estrictamente necesario. Esto se traduce en respuestas más ligeras, rápidas y baratas, especialmente cuando la cantidad de información es amplia.

Aplicaciones de MCP al mundo real™️️

Se me ocurren algunos ejemplos donde podríamos aplicar MCP:

Asistente de RRHH: responde preguntas sobre vacaciones pendientes, consulta tu calendario laboral, programar reuniones, etc.
Asistente financiero personal: accede a tus gastos del último mes, detectando gastos "anómalos" y te sugiere cambios o cancelaciones. Podrías automatizar incluso transacciones (cuenta de ahorro o inversión).
Agente para desarrollo interno: permite a un desarrollador preguntar por información relativa al estado e historial de los sistemas. Podrías preguntarle cambios y fecha del último despliegue, por ejemplo.

¿No hay contras?

Pues como siempre, esta clase de tecnologías nos habilitan a realizar integraciones muy interesantes pero también generan nuevos desafíos que debemos tener en cuenta.

Tal vez, sobre el que más se ha hablado es todo lo relacionado con seguridad y gobernanza. MCP abre la puerta a interacciones más potentes, pero también más delicadas. ¿Quién define qué puede hacer el modelo? ¿Cómo se audita? No es trivial permitir que una IA tenga acceso a sistemas internos. Hay que establecer límites claros y mecanismos de control.

Además, debemos tener muy en cuenta técnicas como el prompt hacking y tomar contramedidas para asegurarnos que las medidas de control y gestión de permisos realmente son robustas.

Mi pequeño resumen

MCP puede ser visto como una mejora incremental: la gran herramienta / protocolo de integración de la IA. Y sin dejar de ser cierto, creo que puede ser mucho más que eso. Puede ser una palanca fundamental que transforme la interacción hombre-máquina. Abre la posibilidad de que los modelos de lenguaje dejen de ser solo herramientas de consulta, y se conviertan en agentes capaces de entender y operar en nuestro entorno digital.

Si esto madura como parece que está haciendo, podríamos estar ante una nueva capa de interacción, más allá de la interfaz gráfica o los diferentes API REST: una interfaz basada en lenguaje, con capacidad de acción y adaptada al contexto de cada usuario.

Aún así, también nos deja alguna pregunta / reflexión que creo que es interesante:

¿Estamos construyendo nuestras APIs pensando en que una IA las pueda consumir?
¿Qué ocurre con los datos?
¿Cuándo deberíamos dejar que una IA actúe… y cuándo no?
¿Nos sentimos cómodos permitiendo a una IA acceder a nuestra información personal / empresarial?

Me encantaría saber tu opinión.

Un saludo,

Ricardo