ObservabilityCON 2026: Grafana apuesta por la IA para transformar la observabilidad

23 de abril de 2026

ObservabilityCON es el evento de referencia en torno al ecosistema de Grafana Cloud y la observabilidad moderna. Esta edición de 2026 ha marcado un claro punto de inflexión: la inteligencia artificial ya no es un simple complemento, sino que se convierte en el motor central de la solución. Entre la reducción de costes, la simplificación de las herramientas y la automatización de la gestión de incidencias, esto es lo que hay que recordar.

Telemetría adaptativa: menos ruido, más valor

Controlar los costes de la observabilidad

Uno de los principales retos a los que se enfrentan hoy en día los equipos técnicos es el creciente coste de la observabilidad. Cuanto más grande es una infraestructura, más se dispara el volumen de datos recopilados —métricas, registros y trazas— y, con él, la factura.

GrafanaCloud da respuesta a este problema con Adaptive Telemetry, un enfoque que consiste en recopilar únicamente los datos que realmente son útiles. Lanzado de forma gradual desde 2023, ahora abarca:

Las métricas (desde 2023)
Los registros (desde 2024)
Los historiales y los perfiles (desde 2025)

La idea es sencilla: en lugar de almacenarlo todo y clasificarlo después, el sistema evalúa en tiempo real si un dato merece conservarse, basándose en criterios de relevancia (anomalías, retrasos, errores…).

En la misma línea, Grafana presenta Grafana Focus, un proyecto desarrollado en colaboración con la FinOps Foundation, cuyo objetivo es unificar y estandarizar la lectura de los informes de observabilidad. Se trata de una herramienta muy esperada por los equipos de FinOps y los directores de sistemas de información, que tienen dificultades para conciliar los costes de infraestructura con su uso real.

Nota: todavía no existe un proveedor oficial de Terraform para estas nuevas herramientas.

Otra novedad dirigida a grandes empresas: Grafana Bring Your Own Cloud. A diferencia del modelo SaaS clásico, en el que los datos pasan por los servidores de Grafana, esta oferta gestionada permite a las grandes organizaciones almacenar sus datos directamente en su propio entorno de nube. Un modelo que responde a los requisitos de soberanía de datos y a las estrictas políticas de seguridad de determinados sectores.

Reducir la complejidad: Grafana se vuelve más accesible

Grafana es una herramienta extremadamente potente, pero que históricamente ha resultado compleja de dominar. Como resumió uno de los ponentes: «Usar Grafana es como trabajar la madera: se puede hacer de todo, pero hay que empezar desde cero».

Para cambiar esta situación, se han presentado varias iniciativas:

Paneles de control listos para usar para los casos de uso más habituales: supervisión de Linux, Kubernetes, aplicaciones web... Ya no es necesario crear los paneles de control desde cero.
Observabilidad de bases de datos: un nuevo componente dedicado al análisis detallado de las bases de datos. Permite visualizar y analizar las consultas SQL, identificar las consultas lentas y comprender el impacto de la base de datos en el rendimiento general de una aplicación.
Knowledge Graph: una plataforma horizontal que mapea automáticamente los servicios, sus dependencias y sus interacciones. Permite responder a preguntas como «¿Qué servicios se ven afectados si esta base de datos deja de funcionar?» o «¿Cuál es la ruta crítica entre estos dos microservicios?».
Insights: un motor de detección automática de anomalías, como latencias inusuales, cambios en la configuración o comportamientos anormales, sin necesidad de configurar manualmente reglas de alerta para cada caso.
Root Cause Analysis Workbench: un portal centralizado que recopila todos los problemas detectados y propone medidas correctivas. El objetivo es ofrecer a los equipos una visión unificada de los incidentes en curso, independientemente de su origen.
Fleet Manager & Instrumentation Hub: a través de un agente ligero, es posible supervisar todos los recursos de computación (contenedores, instancias EC2, funciones Lambda y servicios gestionados) y centralizar todos los datos en Grafana Cloud.

Grafana Assistant: la IA al servicio de todos los perfiles

Sin duda, es el anuncio más esperado y comentado de esta ObservabilityCON. Grafana Assistant es el asistente de IA integrado directamente en la plataforma Grafana Cloud. Disponible oficialmente desde enero de 2026, tiene un precio de 20 $ por usuario al mes.

Una adopción ya generalizada

Con 17 000 usuarios diarios, el entusiasmo es palpable. Las opiniones de la comunidad son muy positivas y cada día surgen nuevos casos de uso durante las fases de prueba de concepto (POC). Se ha citado un ejemplo especialmente llamativo: durante una prueba de concepto, se produjo un incidente en producción y fue el asistente quien identificó la causa raíz antes incluso de que los equipos tuvieran tiempo de movilizarse.

¿Para quién?

El asistente se ha diseñado para que resulte útil a todo tipo de usuarios, no solo a los expertos:

Funcionalidades innovadoras

El asistente no se limita a responder preguntas. Se ha ampliado con nuevas funciones:

Análisis de trazas: además de las métricas y los registros, el asistente ahora puede analizar las trazas para identificar problemas de rendimiento distribuidos.
Conexión SQL: posibilidad de consultar directamente bases de datos relacionales desde el asistente.
Sistema de reglas: instrucciones permanentes proporcionadas a la IA para definir su comportamiento; por ejemplo, «responde siempre en francés», «da prioridad a las alertas de nivel crítico» o «aplica siempre estas buenas prácticas de nomenclatura». Una herramienta muy útil para estandarizar las prácticas a nivel de toda la organización.
MCP (Model Context Protocol): el asistente puede conectarse a herramientas externas como GitHub o Jira y, en general, a cualquier herramienta compatible con MCP. Esto allana el camino para flujos de trabajo de gestión de incidencias totalmente integrados.
Infrastructure Memory: un conjunto de agentes de IA que analizan continuamente la infraestructura, almacenan sus conocimientos en una base de datos y permiten que el asistente responda de forma mucho más contextualizada y precisa. Los conocimientos se almacenan en caché, lo que también mejora los tiempos de respuesta.
Integración con Slack y Teams: el asistente puede interactuar directamente en los canales de comunicación del equipo. Se trata de ChatOps nativo, por lo que ya no es necesario cambiar de herramienta para obtener un diagnóstico.
Guías de procedimientos: será posible enseñar al asistente los procedimientos específicos de su organización. En concreto, se pueden describir los pasos a seguir ante un tipo concreto de incidente, y el asistente los aplicará automáticamente.
Aprendizaje a partir del historial: el asistente podrá aprovechar los análisis retrospectivos y las investigaciones anteriores para mejorar sus análisis futuros. Cuanto más lo utilice tu organización, más preciso será.
Creación de diagramas Mermaid: el asistente puede generar diagramas de arquitectura o de flujo directamente en la interfaz.
Se respeta el modelo RBAC: el asistente opera dentro de los límites de los derechos de cada usuario. No hay riesgo de que un usuario acceda a datos a los que no tiene autorización a través de la IA.

Investigaciones automatizadas: la función estrella

La función «Investigaciones» es una de las más impresionantes. Cuando se detecta una interrupción en uno o varios servicios, el usuario puede iniciar una investigación completa. En un plazo de entre 5 y 10 minutos, el agente:

Recopila y correlaciona las señales disponibles (métricas, registros, trazas)
Formula hipótesis y las comprueba
Identifica la causa probable
Genera un informe estructurado con un esquema conceptual, visualizaciones y medidas recomendadas

No es una caja negra: el asistente expone su razonamiento paso a paso, lo que permite a los equipos validar o corregir su análisis.

Grafana IRM: unificar la gestión de incidencias

La gestión de incidencias suele estar fragmentada entre varias herramientas: una herramienta de alertas, una herramienta de gestión de tickets, un canal de comunicación, una herramienta de análisis posterior... Grafana IRM (Incident Response & Management) pretende centralizarlo todo en una única plataforma.

El ciclo de vida completo de un incidente

Así es como se gestiona una incidencia con IRM:

Detección: se activa una alerta basada en los SLO o en las reglas de alerta configuradas.
Notificación: se contacta automáticamente con las personas adecuadas según los turnos de guardia, y se resuelve el problema sin intervención manual.
Creación de la incidencia: se crea una incidencia desde la aplicación móvil o directamente en Grafana. Se abre automáticamente un canal de Slack específico.
Investigación: desde que se produjo el incidente, se puede iniciar una investigación con Grafana Assistant. Los resultados se envían directamente al canal de Slack.
Documentación: un modelo de lenguaje grande (LLM) genera un informe de incidencias estructurado, con la posibilidad de utilizar plantillas personalizadas.
Vista de 360°: el equipo dispone de una visión completa de las métricas y los registros relacionados con el incidente, los SLO del servicio en cuestión, el tiempo medio de resolución histórico, los responsables del servicio y las dependencias con respecto a otros servicios.
Análisis posterior: se ha generado el informe, que puede incorporarse a Grafana Assistant para mejorar futuras investigaciones.

Integraciones y disponibilidad

IRM se integra de forma bidireccional con las herramientas de ITSM existentes: ServiceNow, Jira y otras. Las incidencias se pueden crear y actualizar desde ambos lados.

IRM no está disponible en versión de código abierto; AlertManager sigue siendo la alternativa de código abierto para la gestión de alertas.
Parte de las funcionalidades están disponibles en el plan gratuito para los tres primeros usuarios.

Adaptive Telemetry: la inteligencia al servicio de la recopilación de datos

Adaptive Traces: quédate solo con lo que importa

Los rastros son datos extremadamente valiosos para comprender el comportamiento de una aplicación distribuida. Permiten seguir una solicitud de principio a fin, a través de todos los servicios por los que pasa, e identificar con precisión dónde y por qué se produce un error o una ralentización.

¿Cuál es el problema? Los registros son voluminosos, prolijos y su almacenamiento resulta costoso. En un sistema con mucho tráfico, guardar el 100 % de los registros no es viable desde el punto de vista económico ni necesario desde el punto de vista técnico.

Adaptive Traces resuelve este dilema con un enfoque inteligente:

Esperamos a que el registro esté completo antes de evaluarlo
Se aplican una serie de criterios: ¿presenta el registro alguna anomalía? ¿Una latencia anómala? ¿Un error?
Si es así, se conserva. Si no, se descarta.
La IA perfecciona continuamente los criterios de selección mediante reglas de telemetría predictiva

El resultado: menos almacenamiento, menos costes, pero una señal más limpia y más útil.

Perfiles: sumergirse en el código

Los perfiles (a través de Grafana Pyroscope) son una dimensión complementaria que a menudo se infrautiliza. Mientras que los rastros muestran dónde se produce un problema en la arquitectura, los perfiles revelan por qué ocurre en el código: qué función consume demasiada CPU, qué asignación de memoria es excesiva o qué llamada constituye un cuello de botella.

Grafana ofrece ahora un muestreo inteligente de los perfiles: los perfiles se recopilan de forma intensiva únicamente cuando se detectan anomalías, lo que permite centrar el análisis donde realmente es útil, especialmente durante los lanzamientos o los periodos de alta carga.

OpenTelemetry en Grafana Cloud: simplificar la implementación

OpenTelemetry se ha convertido en el estándar de facto para la instrumentación de aplicaciones modernas. Ofrece un marco unificado para recopilar métricas, registros y trazas, independientemente del lenguaje o la plataforma. Sin embargo, su implementación sigue siendo compleja: hay que integrar numerosos componentes, realizar configuraciones específicas para cada entorno, crear flujos de trabajo…

Como resumió uno de los participantes: «Es como tener delante una caja enorme de LEGO, pero sin las instrucciones».

Grafana ofrece ahora una experiencia simplificada para implementar OpenTelemetry directamente desde la interfaz, siguiendo un enfoque por capas:

1. La capa de infraestructura

Grafana Alloy (el colector de telemetría de Grafana) unifica la recopilación de registros y métricas enriqueciendo los datos con metadatos del entorno (clúster, espacio de nombres, pod, región…). Sirve como canalización unificada para Prometheus y Loki, lo que simplifica considerablemente la configuración.

2. La capa de servicios

Se obtiene una visión clara del estado de cada servicio y de la topología del sistema: cómo se comunican los servicios entre sí, cuáles son sus dependencias y cuáles son los flujos de datos.

3. La capa de aplicación

Hay bibliotecas de instrumentación disponibles para la mayoría de los lenguajes más comunes. El nivel de madurez varía según el lenguaje; por ejemplo, los protocolos REST siguen siendo más difíciles de instrumentar que las llamadas gRPC.

Lo que hay que tener en cuenta

GrafanaCON Open Source se celebrará este año en Barcelona, con especial atención a la comunidad de código abierto y a las contribuciones al ecosistema.
Grafana Tempo, el motor de rastreo distribuido de Grafana, merece una atención especial en los próximos meses, sobre todo por las novedades relacionadas con los Adaptive Traces.
La cuestión de las alternativas de código abierto a Grafana Assistant sigue sin resolverse, ya que durante el evento no se mencionó oficialmente ninguna herramienta equivalente.
Los equipos que utilicen la versión Enterprise pueden solicitar la integración de funciones que inicialmente solo estaban disponibles en la nube, como el Asistente de IA. La implementación es sencilla: basta con una licencia en forma de hash, incluso en un entorno de cliente.
Tras el cese de MinIO, Grafana no se ha pronunciado sobre un posible cambio de tecnología. Habrá que estar atentos a los canales oficiales en las próximas semanas.

En resumen

ObservabilityCON 2026 confirma que Grafana ya no se posiciona únicamente como una herramienta de visualización, sino como una plataforma de observabilidad inteligente e integrada. La IA, a través de Grafana Assistant, ocupa ahora un lugar central en el producto, accesible para todos, capaz de analizar el conjunto de señales y cada vez más autónoma en la resolución de incidencias.

Para las organizaciones que desean modernizar su enfoque de la observabilidad, las señales son claras: el futuro pasa por la telemetría adaptativa, la correlación automática de señales y los asistentes capaces no solo de diagnosticar, sino también de actuar.

Antoine ORRU
Consultor de DevOps

14 de octubre de 2025

WAX CONF 2025: Estandarización y automatización de arquitecturas a gran escala

Más información

23 de septiembre de 2025

Del protocolo a la vulnerabilidad: Keepalived pone de manifiesto las limitaciones de VRRP