12.5.2025
Der Betrieb moderner IT-Infrastrukturen steht heute vor enormen Herausforderungen. Immer vielfältigere Systemlandschaften, steigende Anforderungen an Verfügbarkeit sowie eine exponentiell wachsende Menge an Monitoring-Daten verlangen nach intelligenten und skalierbaren Lösungen. Klassische Monitoring-Ansätze geraten hierbei zunehmend an ihre Grenzen, insbesondere wenn es um die schnelle Erkennung und Analyse von Ursachenketten im Störungsfall geht.
Genau an dieser Stelle setzt der Einsatz von AIOps – Artificial Intelligence for IT Operations – an. Mithilfe von Machine-Learning-Algorithmen, Mustererkennung und intelligenter Korrelation von Events sollen nicht nur Symptome identifiziert, sondern auch deren Ursachen automatisiert aufgedeckt werden.
Ein konkretes Beispiel für diesen Ansatz ist die Integration eines sogenannten MCP-Servers (Meta-Correlation-Point) in bestehende Monitoring-Landschaften wie Icinga. Im Zentrum steht die automatisierte Root-Cause-Analyse, die durch Korrelationstechniken auf verschiedenen Abstraktionsebenen möglich wird. Perspektivisch ist der MCP-Server integraler Bestandteil des geplanten Produkts AIR-OPS von RISE, das AIOps in industrietauglicher Weise operationalisiert.
COMMOC auf Basis Icinga hat sich in der Praxis als flexibles, skalierbares und quelloffenes Monitoring-System etabliert. Es erlaubt die umfassende Überwachung von Hosts, Services und Applikationen über verteilte Instanzen hinweg. Die Stärke von COMMOC liegt vor allem in seiner Modularität und der engen Integration in bestehende Systemumgebungen. Doch trotz aller Leistungsfähigkeit bleibt ein zentrales Problem bestehen: die Identifikation der eigentlichen Störungsursache, insbesondere in hochdynamischen und vernetzten IT-Umgebungen.
Während COMMOC sehr gut darin ist, Symptome in Form von Zustandsänderungen oder Schwellenwertüberschreitungen zu detektieren und zu visualisieren, fehlt ihm von Haus aus eine semantische Intelligenz zur Ursachenanalyse. Es entsteht eine Art Alarmflut, bei der Operatoren zwar wissen, dass ein Problem besteht, aber nicht sofort wo und warum.
An dieser Stelle kommt der MCP-Server ins Spiel. Als zentrales Element einer AIOps-Strategie fungiert er als Meta-Correlation-Point – eine Instanz, die strukturierte Monitoring-Events aus verschiedenen Quellen empfängt, anreichert, gewichtet, historisiert und vor allem korreliert. Ziel ist es, die Vielzahl einzelner Symptome zu einem aussagekräftigen Gesamtbild zu verdichten und auf dieser Grundlage automatisiert Root-Cause-Hypothesen zu generieren.
Der MCP-Server bildet das Herzstück einer intelligenten AIOps-Architektur und folgt einem mehrstufigen Analyseprozess, der auf strukturiertem Datenfluss und maschinellem Lernen basiert. Zu Beginn steht die Datenaggregation: Der Server empfängt eine Vielzahl an Events aus unterschiedlichen Quellen – darunter klassische Monitoring-Systeme wie Icinga, Logdaten, SNMP-Traps sowie systemeigene Statusmeldungen. All diese Eingangsdaten werden zunächst normalisiert und in ein konsistentes Ereignismodell überführt, das die Grundlage für die weitere Analyse bildet.
Darauf aufbauend erfolgt die Kontextanreicherung, bei der die rohen Eventdaten um zusätzliche Informationen ergänzt werden. Hierzu zählen unter anderem Daten aus Configuration Management Databases (CMDBs), bestehende Topologie-Modelle, Konfigurationsstände und historische Verläufe. Dieses Kontextwissen ist essenziell, um Zusammenhänge besser zu verstehen und semantische Interpretationen zu ermöglichen.
Im nächsten Schritt folgt die Korrelation und Gewichtung der erfassten Informationen. Der MCP-Server analysiert zeitliche Koinzidenzen, erkennt logische und topologische Abhängigkeiten und vergleicht aktuelle Muster mit bekannten historischen Ereignissen. Diese Methodik ermöglicht es, Zusammenhänge zwischen einzelnen Events zu erkennen. Ergänzend dazu erfolgt eine Bewertung der Relevanz durch Gewichtung und die Berechnung von Wahrscheinlichkeiten, was eine Priorisierung potenzieller Ursachen deutlich erleichtert.
Auf dieser Basis generiert der Server im Rahmen der Root-Cause-Bestimmung konkrete Hypothesen über die wahrscheinlichste Ursache einer Störung. Diese Hypothesen können in geeigneter Form visualisiert oder direkt an Betriebsteams übermittelt werden – etwa als Handlungsempfehlung oder automatisierter Incident-Vorschlag.
Ein entscheidender Aspekt ist der lernfähige Betrieb des Systems. Bestätigte Root-Cause-Analysen und Betriebserfahrungen werden über integrierte Feedback-Mechanismen in das zugrundeliegende Machine-Learning-Modell zurückgeführt. Dadurch verbessert sich die Analysegenauigkeit kontinuierlich und passt sich dynamisch an neue Systemverhältnisse und Fehlerbilder an.
Ein konkreter Anwendungsfall demonstriert die Stärke des MCP-Servers: In einer produktiven Umgebung werden mittels COMMOC mehrere hundert Hosts und tausende Services überwacht. Eines Tages schlagen zeitgleich über 100 Servicechecks fehl – verteilt auf verschiedene Hosts und Applikationen. Die COMMOC-Oberfläche zeigt eine Vielzahl von roten und gelben Zuständen, ohne jedoch die Ursache einzugrenzen.
Der MCP-Server verarbeitet parallel die eintreffenden Events und stellt fest, dass sämtliche betroffenen Services auf virtuelle Maschinen entfallen, die sich auf einem bestimmten Cluster-Knoten eines Hypervisors befinden. Eine Korrelation mit historischen Events zeigt, dass ähnliche Muster in der Vergangenheit mit Netzwerksegmentausfällen auf der Management-Schnittstelle des betreffenden Knotens zusammenhingen.
Innerhalb von Sekunden generiert der MCP-Server die Hypothese: „Netzwerkproblem auf Hypervisor-Knoten X wahrscheinlichste Ursache für Serviceausfälle.“ Diese Hypothese wird mit einer Vertrauenswahrscheinlichkeit versehen und an den Betrieb übermittelt. Das Team kann daraufhin gezielt eingreifen – ein erheblicher Zeitgewinn im Vergleich zu manuellen Root-Cause-Analysen.
Das vorherige Beispiel ist nur eines von vielen. AIR-OPS kann die mächtige REST-API von COMMOC bzw. ICINGA nutzen um eine Vielzahl von natürlichsprachlichen Fragen über die eigene Infrastruktur zu beantworten. Es handelt sich um alle jene Fragen die Experten im Zuge einer Root-Cause-Analyse stellen - und deren Antworten sie dann durch Bedienen von Werkzeugen selbst erarbeiten müssen. Diese Arbeit nimmt in Zukunft AIR-OPS ab. Hier nur ein Auszug aus den Fragestellungen die AIR-OPS über die eigene Infrastruktur beantworten kann:
"Welche Hosts oder Services haben in den letzten 24 Stunden besonders viele Events erzeugt?"
"Wie häufig ist der Service „mysql-check“ in den letzten 30 Tagen in einen „WARNING“-Status gewechselt?"
"Gibt es wiederkehrende Ausfallzeiten zu bestimmten Tageszeiten oder Wochentagen?"
"Welche Services oder Hosts zeigen instabile Zustände mit mehr als 5 Statuswechseln pro Tag?"
"Gibt es Services, die länger als 1 Stunde in einem „CRITICAL“-Status verblieben sind?"
"Gab es Host- oder Service-Gruppen mit synchron auftretenden Eventspitzen?"
"Gibt es Services, deren „CRITICAL“-Events stets mit einem „DOWN“-Status eines bestimmten Hosts korrelieren?"
"Wie hat sich die Anzahl der Events im Vergleich zur Vorwoche verändert?"
"Gab es im letzten Monat eine signifikante Zunahme von kritischen Events bei einem bestimmten Host?"
Auf den ersten Blick erscheint die Beantwortung dieser Fragen mit den vorhandenen Überwachungswerkzeugen wie Zauberei - in Anlehnung an das bekannteste Zitat von Arthur Clark: „Jede hinreichend fortgeschrittene Technologie ist von Zauberei nicht zu unterscheiden".
AIR-OPS von RISE nutzt die Abfrageschnittstelle von COMMOC um diese Fragen zu beantworten. Hier nur eines von vielen konkreten Beispielen aus unserem MCP-Server zur Frage "Flapping-Services der letzten 14 Tage eines bestimmten Hosts". Nachfolgend in einfacher Form zum selber ausprobieren (ersetzen Sie USERNAME,PASSWORD,ICINGA_API_URL und HOSTNAME):
curl -k -u USERNAME:PASSWORD -H Accept: application/json
-H Content-Type: application/json
-X POST https://ICINGA_API_URL:5665/v1/objects/services
-d {
filter: flapping == true && last_state_change >= now() - 1209600,
attrs: [host.name, HOSTNAME, flapping, last_state_change]
}
Keine Zauberei, sondern intelligente Verknüpfung vorhandener Möglichkeiten.
Der MCP-Server ist derzeit Bestandteil mehrerer Pilotprojekte und wird perspektivisch Teil des umfassenden AIOps-Produkts AIR-OPS von RISE sein. AIR-OPS verfolgt das Ziel, AIOps in einer industrietauglichen, skalierbaren und integrierbaren Form bereitzustellen. Dabei stehen folgende Aspekte im Vordergrund:
AIR-OPS ist eine moderne, modulare AIOps-Plattform, die gezielt für den Einsatz in komplexen IT-Landschaften entwickelt wurde. Ihre Architektur ist in verschiedene funktionale Einheiten gegliedert, darunter der Event-Hub zur Aufnahme von Ereignisdaten, der MCP-Server für die Analyse und Modellierung, eine leistungsfähige Visualisierungseinheit sowie ein integriertes Feedback-Modul. Diese modulare Struktur erlaubt es Unternehmen, die Lösung schrittweise einzuführen und gezielt mit bereits vorhandenen Tools wie Icinga, Grafana, Elastic oder Splunk zu kombinieren. So entsteht eine flexible, wachstumsfähige Lösung, die sich nahtlos in bestehende Umgebungen einfügt.
Ein wesentliches Unterscheidungsmerkmal von AIR-OPS ist der Einsatz von Explainable AI. Anders als klassische Blackbox-Verfahren legt die Plattform großen Wert auf die Transparenz und Nachvollziehbarkeit ihrer Entscheidungen. Ursache-Wirkungs-Zusammenhänge werden explizit aufgezeigt, wodurch Anwender ein besseres Verständnis für die Ergebnisse gewinnen. Diese Erklärbarkeit fördert nicht nur die Akzeptanz im Betrieb, sondern ist auch aus Sicht der Auditierbarkeit ein entscheidender Vorteil – insbesondere in regulierten Branchen.
Auch hinsichtlich der Integration zeigt sich AIR-OPS äußerst anschlussfähig. Die Plattform unterstützt eine Vielzahl offener Schnittstellen, darunter REST, WebHooks und syslog. Dadurch lässt sie sich problemlos in heterogene Systemlandschaften und moderne DevOps-Pipelines einbinden. Diese Offenheit stellt sicher, dass AIR-OPS kein isoliertes System bleibt, sondern sich organisch in bestehende IT-Prozesse integriert.
In Bezug auf Performance und Skalierbarkeit ist AIR-OPS für anspruchsvolle Umgebungen ausgelegt. Durch die Verwendung asynchroner Verarbeitung und eine containerisierte Architektur kann die Plattform auch große Mengen an Events effizient verarbeiten. Die horizontale Skalierung der Verarbeitungseinheiten erlaubt eine bedarfsgerechte Erweiterung der Kapazitäten – ein klarer Vorteil in dynamischen Infrastrukturen mit hoher Eventdichte.
Ein weiterer zentraler Aspekt ist die Sicherheit. Als Produkt eines europäischen Herstellers erfüllt AIR-OPS die gängigen Anforderungen an Datenschutz, Nachvollziehbarkeit und Integrationssicherheit. Gerade für KRITIS-nahe Sektoren, in denen regulatorische Vorgaben besonders strikt sind, stellt dies einen bedeutenden Mehrwert dar.
Doch trotz all dieser Stärken ist die Einführung von AIOps kein Selbstläufer. Der Übergang von klassisch-regelbasierten Ansätzen hin zu datengetriebenen, probabilistischen Modellen erfordert ein Umdenken in der Organisation. Eine der häufigsten Herausforderungen liegt in der Datenqualität: AIOps-Systeme benötigen saubere, gut strukturierte und mit Kontext angereicherte Daten. Fehlende Metadaten oder inkonsistente Topologien beeinträchtigen die Analysequalität erheblich. Unsere Monitoringlösungen COMMOC, LOMOC and SIEMOC wurden daher gezielt entwickelt, um eine „AIOps-Ready“-Datenbasis zu schaffen – das stabile Fundament für einen wirksamen KI-Einsatz.
Ein weiteres Hindernis ist die Komplexität der Modellierung. Die initiale Erstellung von Korrelationstopologien und Gewichtungsmodellen kann ressourcenintensiv sein. Hier setzt der MCP-Server an, der mit intelligenten Assistenten eine schrittweise Modellbildung unterstützt und so den Einstieg erheblich erleichtert.
Nicht zu unterschätzen ist auch die Akzeptanz im IT-Betrieb. KI-gestützte Entscheidungen müssen nachvollziehbar und vertrauenswürdig sein. AIR-OPS begegnet dieser Herausforderung durch transparente, erklärbare Resultate – ein entscheidender Faktor, um Vorbehalte abzubauen und das Vertrauen der Nutzer zu gewinnen.
Schließlich muss AIOps als integraler Bestandteil bestehender Prozesse gedacht werden. Es darf keine Parallelwelt entstehen, sondern muss sich nahtlos in vorhandene ITSM-, CMDB- und Monitoring-Strukturen einfügen. Offene Schnittstellen und praxiserprobte Prozessadapter sind hierfür essenziell und ein integraler Bestandteil des AIR-OPS-Ökosystems.
Mit Lösungen wie dem MCP-Server und dem in Entwicklung befindlichen AIR-OPS-Produkt bewegt sich RISE konsequent in Richtung eines intelligenten, adaptiven IT-Betriebs. Perspektivisch könnten derartige Systeme nicht nur Ursachen erkennen, sondern auch selbstständig Maßnahmen einleiten – von der Lastverlagerung über das Rollback bis zur Eskalation an Menschen.
Ziel ist es, durch eine Kombination aus domänenspezifischem Wissen, algorithmischer Intelligenz und operativer Einbettung ein Betriebsmodell zu etablieren, das nicht mehr nur reaktiv, sondern proaktiv und in Teilen sogar präventiv agiert. Besonders in Umgebungen mit hoher Komplexität, kurzen Reaktionszeiten und begrenzten Personalressourcen wird dies zum entscheidenden Wettbewerbsvorteil.
Die Kombination aus etablierten Monitoring-Frameworks wie Icinga und modernen AIOps-Komponenten wie dem MCP-Server zeigt eindrucksvoll, wie sich Effizienz und Qualität im IT-Betrieb steigern lassen. Durch automatisierte Root-Cause-Analysen können Ausfallzeiten reduziert, Fehler schneller lokalisiert und Ressourcen gezielter eingesetzt werden.
Mit AIR-MOC bereitet RISE ein zukunftsweisendes Produkt vor, das die Prinzipien von AIOps auf eine neue Ebene hebt – erklärbar, integrierbar und produktionsreif. Für Unternehmen, die den nächsten Schritt in Richtung intelligentem IT-Betrieb gehen wollen, bieten sich damit neue, realistische Perspektiven.