Model Context Protocol (MCP): aumentando los LLMs
Ricardo Vega / 22 abril 2025
⏰ 7 minutos
Ricardo Vega / 22 abril 2025
⏰ 7 minutos
Durante los últimos meses hemos visto cómo los modelos de lenguaje (LLMs) han evolucionado a un ritmo difícil de seguir. Lo que hace un año nos parecía magia (resúmenes automáticos, generación de código o creación de imágenes inspirada en nuestro pintor favorito) hoy es un terreno relativamente común. Sin embargo, si rascamos un poco bajo la superficie, rápidamente nos encontramos con una limitación fundamental que persiste: los LLMs no saben nada más allá de sobre lo que han sido entrenados… a no ser que les ayudemos.
Ahí es donde entra en juego una pieza que empieza a sonar con fuerza: Model Context Protocol, o MCP, un concepto relativamente nuevo que puede marcar un antes y un después en la forma en que los LLMs interactúan con el entorno.
MCP es un protocolo que permite a los LLMs acceder en tiempo real a información externa y a funcionalidades de sistemas que no están incluidas en su modelo base. Es decir, no se trata de entrenar o re-entrenar al modelo, sino de darle una nueva ventana al mundo, a nuestro mundo particular.
Imagina que tienes una IA con un conocimiento enciclopédico… pero aislada en una sala sin ventanas. Puede razonar, generar texto y conectar ideas como nadie, pero no tiene forma de ver qué está ocurriendo ahí fuera, ni de interactuar con tu empresa, tus sistemas o tus datos actualizados. MCP es precisamente esa serie de ventanas y herramientas que le permiten mirar hacia afuera y actuar dentro de entornos reales.
Con MCP, los modelos pasan de ser asistentes genéricos a convertirse en agentes con un contexto operativo real, habilitando posibilidades hasta entonces cerradas a ellos como, por ejemplo:
Ya no se trata solo de generar texto, sino de tomar decisiones informadas y realizar acciones concretas basadas en información específica de "tu mundo".
Habitualmente nos referimos a MCP como un estándar aunque esta definición puede tener algún matiz ya que, a día de hoy no existe una norma ISO que lo respalde y surge más como un acuerdo que define una serie de convenciones claras que son soportadas y aceptadas por modelos como los de OpenAI, Anthropic o Mistral. Es decir, se trata de un estándar de facto que está integrado en los principales modelos del mercado habilitándoles, durante una conversación, invocar funciones externas predefinidas y operar sobre sus resultados.
Estas funciones pueden ser APIs internas o externas, comandos del sistema o integraciones con herramientas de terceros. El modelo recibe la definición de esas funciones de forma transparente para el usuario como parte del prompt (input inicial) y decide cuándo usarlas en función del contexto.
Además, existen frameworks como LangChain, que permiten construir estas “extensiones” de manera modular y portable entre entornos, empujando esta filosofía y habilitando la orquestación de flujos complejos.
Si sigues el mundillo de la IA, seguramente algunas de las ventajas que te he comentado te habrán recordado a otros conceptos relacionados como RAGs o fine-tuning.
Para intentar explicar mejor parecidos y diferencias, te hago un breve resumen de estos dos conceptos:
MCP, en cambio, va más allá: no solo aporta contexto, también habilita acciones. Es decir, un modelo con MCP puede entender qué tiene que hacer y hacerlo, si le das acceso.
Te pongo un ejemplo:
Pongamos que un usuario pregunta: “¿Cuánto he facturado este trimestre y qué clientes aún no han pagado?”
Además, MCP puede ser mucho más eficiente en el uso de tokens que un enfoque basado en RAG, algo clave cuando trabajamos con grandes volúmenes de información. Si no estás familiarizado, los tokens son las unidades mínimas de texto que utilizan los modelos para procesar y generar lenguaje; cada palabra, signo o fragmento cuenta, y el coste —tanto económico como de rendimiento— crece con cada token incluido en la conversación. En un RAG, toda la información recuperada debe ser “inyectada” en el prompt, ocupando espacio de contexto. MCP, en cambio, permite delegar la consulta a una función externa y solo devuelve lo estrictamente necesario. Esto se traduce en respuestas más ligeras, rápidas y baratas, especialmente cuando la cantidad de información es amplia.
Se me ocurren algunos ejemplos donde podríamos aplicar MCP:
Pues como siempre, esta clase de tecnologías nos habilitan a realizar integraciones muy interesantes pero también generan nuevos desafíos que debemos tener en cuenta.
Tal vez, sobre el que más se ha hablado es todo lo relacionado con seguridad y gobernanza. MCP abre la puerta a interacciones más potentes, pero también más delicadas. ¿Quién define qué puede hacer el modelo? ¿Cómo se audita? No es trivial permitir que una IA tenga acceso a sistemas internos. Hay que establecer límites claros y mecanismos de control.
Además, debemos tener muy en cuenta técnicas como el prompt hacking y tomar contramedidas para asegurarnos que las medidas de control y gestión de permisos realmente son robustas.
MCP puede ser visto como una mejora incremental: la gran herramienta / protocolo de integración de la IA. Y sin dejar de ser cierto, creo que puede ser mucho más que eso. Puede ser una palanca fundamental que transforme la interacción hombre-máquina. Abre la posibilidad de que los modelos de lenguaje dejen de ser solo herramientas de consulta, y se conviertan en agentes capaces de entender y operar en nuestro entorno digital.
Si esto madura como parece que está haciendo, podríamos estar ante una nueva capa de interacción, más allá de la interfaz gráfica o los diferentes API REST: una interfaz basada en lenguaje, con capacidad de acción y adaptada al contexto de cada usuario.
Aún así, también nos deja alguna pregunta / reflexión que creo que es interesante:
Me encantaría saber tu opinión.
Un saludo,
Ricardo