Alle 14 Tage aktuelle News aus der IT-Szene >
Im Datacenter der TU Graz kommt ein Allegro Network Multimeter 1200 zur Netzwerkdiagnose zum Einsatz.
Foto: Allegro Das Allegro-Dashboard zeigt Traffic-Spitzen Die Technische Universität Graz verfügt mit ihren über 100 Instituten und Organisationseinheiten über ein weit verzweigtes heterogenes Netzwerk. Mehr als 15.000 Studierende, über 3.000 Angestellte und Gäste aus aller Welt erwarten ein stabiles Netzwerk und eine schnelle Internetverbindung. Gerade im Forschungsbereich ist ein weltweiter Informationsaustausch über das Internet rund um die Uhr unerlässlich. Die Verantwortung für das reibungslose Netzwerk obliegt dem Team von Philipp Rammer, Service Owner Netzwerk am Zentralen Informatikdienst (ZID) der TU Graz. Er berichtet, wie man eine solche Aufgabe stemmt und welches Tool er für die permanente Qualitätssicherung und das schnelle Debuggen von Fehlern einsetzt.
Das Rechenzentrum einer Universität ist mit dem Nervensystem im menschlichen Körper vergleichbar, denn hier laufen alle Netzwerke und Daten zusammen. Ein reibungsloser Betrieb ist also wichtig, weil bei einem Ausfall direkt im Rechenzentrum große Teile der Universität lahmgelegt wären. Insgesamt sind fast alle nur erdenklichen Anwendungen im Einsatz, egal ob verschiedenste File- und Webservices, Video-Konferenzen, VoIP, Lizenzserver oder große Backups.
Bis vor kurzem arbeiteten die Netzverantwortlichen mit mehreren redundanten Tools, um das Netzwerk bei Laune zu halten, was mit viel Wartungsaufwand und zusätzlichen Applikationen, Servern und Datenbanken einherging. Daher hatten sie sich auf die Suche nach einer Alternative gemacht und mehrere Geräte getestet. Eines der Geräte war ein Allegro Network Multimeter 1200.
„Selbst mit diesem für ein Datacenter einer Universität recht kleinen Gerät war schnell klar, dass das Tool genau unseren Anforderungen entspricht", erläutert Philipp Rammer die erste Testphase. „Es erlaubt uns, den Überblick zu behalten und unerwarteten Verkehr zu identifizieren. Lastspitzen lassen sich granular untersuchen und Fehler entdecken, bevor sie zum Problem werden. Tritt doch ein Problem auf, können sehr schnell und einfach die zugehörigen Teilnehmer identifiziert und Verbindungen analysiert werden, bis hin zu einem Packet Capture. Der Testlauf mit dem Allegro 1200 hat uns überzeugt, die Appliance für das Monitoring des gesamten Datacenters verwenden zu wollen.“
Seit kurzem läuft nun der größere Bruder Allegro 3500 dauerhaft im Datacenter mit. Es ist für die Analyse und das Monitoring von Gigabit-Verbindungen im Datacenter optimiert. Das System ist auf hohe Aufzeichnungs-, Analyse- und Speicherraten spezialisiert und hat einen Durchsatz von bis zu 100 GBit/s. Es dient den Kollegen von der IT zum Troubleshooting, falls Probleme entstehen und zur langfristigen Optimierung des Netzwerkes. Die Daten werden dabei kurzzeitig und bedarfsbezogen gespeichert – meist auch nur die Headerdaten. Sind die Speicher voll, werden die Daten wieder überschrieben.
Die Installation des Allegro 3500 im Rechenzentrum der TU Graz lief einfach und problemlos ab, wie Philipp Rammer berichtet. „Wir haben das Allegro 3500 in wenigen Minuten in Betrieb genommen. Mittels des WLAN-Accesspoints kann direkt ohne weitere Verkabelung die initiale Grundkonfiguration vorgenommen werden. Über ein angeschlossenes LAN-Kabel wird ansonsten automatisch eine IP zugewiesen, so dass auch so die Grundkonfiguration einfach erfolgen kann.“ Teil des Bedienkonzeptes ist es, dass nur wenige Einstellungen vorgenommen werden müssen und das Messgerät in den Grundeinstellungen direkt einsetzbar ist.
Das Dashboard des Webinterface stellt die wichtigsten Parameter auf einen Blick dar, darunter die aktivsten IP- und MAC-Adressen, die bandbreitenintensivsten Verbindungen und Protokolle. Das Menü ist analog des OSI-Schichten-Modells angelegt, so dass die einzelnen Analyse-Module gut zu finden sind. Das Allegro Network Multimeter liefert Echtzeitstatistiken und selektive Paketfilterung über die Layer 2 bis 7 in Echtzeit und im Historienmodus.
Philipp Rammer beschreibt, wie er nach wenigen Minuten die ersten auffälligen Parameter entdeckt: „Schon nach zehn Minuten haben wir über die Echzeit-Netzwerk-Statistiken des Analysetools die ersten fehlerhaften Clients gefunden, die unseren DHCP-Server beeinträchtigt haben. Das wurde mit einem Blick auf das Protokoll sofort deutlich. Wir haben zu Beginn der Inbetriebnahme rein aus Interesse zum Beispiel die verschiedenen Quality-of-Service-Klassen durchgesehen und eine große Verbindung mit 10 MBit/s entdeckt, was für netzwerk-kritischen DHCP-Traffic sehr viel ist.“
So war eine erste Schwachstelle schnell ausgemacht. Grundsätzlich stellt ein Client, der 10 MBit/s DHCP-Traffic durch das Netz schickt, kein Problem dar – solange der Server dem Traffic standhält. Ungewöhnlich ist es aber allemal. Es könnte sich auch mit der Zeit zu einem Problem entwickeln, wenn der DHCP-Server ausfällt und die IP-Adressvergabe an die Endgeräte nicht mehr funktioniert. Mithilfe moderner Analysetools lässt sich eine solche Schwachstelle erkennen und abwenden, bevor ein Problem entsteht. Ein frühzeitiges Erkennen verhindert so mögliche Ausfallzeiten. In diesem Fall wurde das Problem behoben, in dem der Client identifiziert und korrekt konfiguriert wurde.
Ein anderer Anwendungsfall betrifft eine auffällige Datenmenge, die beim täglichen Monitoring ins Auge fiel. Es handelte sich um eine für einen Rechner außergewöhnlich große 1,3 Gbit/s-Verbindung im Internet-Downlink. In den graphischen Statistiken im Monitoring fiel dies sofort als großer Ausreißer aus der Normalnetzwerklast auf. Solche Vorfälle können Hinweise auf Sicherheitsprobleme oder Fehlkonfigurationen sein. „Mit einem Klick haben wir uns vom Dashboard zu den Peers navigiert und sofort erkannt, zwischen welchen beiden Systemen der Traffic stattfindet“, erläutert Philipp Rammer die Situation. „Ein Telefonanruf bei den Kollegen genügte, um uns zu versichern, dass es sich um geplanten Traffic handelt. Es lag also kein Problem vor, hätte aber eines sein können. Die Kenntnis und Analyse solcher Lastspitzen ist wertvoll für die langfristige Qualitätssicherung unseres Netzwerkes.“ Zur Identifizierung solcher Probleme reicht keine globale Übersicht über die Netzwerkauslastung. Das Allegro Network Multimeter kann hier in Echtzeit für einzelne Netzwerkteilnehmer die Last auflösen und so in Zukunft zusammen mit anderen Tools wertvolle Informationen über Verkehrsanomalien liefern.
Das Allegro 3500 ist im Datacenter installiert, zwischen dem Datacenter-Router und dem Application Delivery Controller (ADC) bzw. der Firewall, so dass neben Client-Server-Verbindungen auch die Daten zwischen Servern gemessen und debuggt werden können. Hier ereignete sich der dritte Anwendungsfall. Ein Dienst, der über einen HAProxy/Reverse Proxy auf dem ADC bereitgestellt wird, zeigte ein völlig unerklärliches Verhalten zwischen mehreren Clients und dem Server. Für die Analyse wurden aus 10 TB kurzfristig aufgezeichneten Daten die 16 Pakete herausgefiltert, die Aufschluss über das Fehlverhalten gaben. Daraus wurde sofort ersichtlich, dass der TCP-Port am ADC falsch konfiguriert war, auf den die Daten geleitet wurden. „Sobald wir das Problem ausgemacht hatten, war die Lösung sehr einfach“, beschreibt Philipp Rammer die schnelle Fehlersuche mit dem Allegro Network Multimeter. „Durch die hohe Granularität der Messungen lassen sich Fehler extrem schnell diagnostizieren, in diesem Fall dauerte es nur 2 Minuten.“
An der TU Graz gibt es großes Traffic-Aufkommen. Obwohl das Allegro 3500 hohe Datenmengen neben der Live-Analyse auch für nachträgliches Troubleshooting aufzeichnen kann, ist es aus verschiedenen Gründen nicht sinnvoll, den gesamten Verkehr aufzuzeichnen. Im ersten Schritt haben daher Philipp Rammer und sein Team die Datenmenge, die beim Mitschneiden entsteht, mit Hilfe von Filtern angepasst und auf die wirklich wichtigen Parameter reduziert. Das Allegro Network Multimeter lässt sich hierfür einfach und feingranular steuern. So haben sie z.B. die Paketlängen beschnitten, einige VLANs ausgeklammert, den RAM-Cache für kurze Lastspitzen angepasst usw., bis eine Konfiguration erreicht war, die wesentlich weniger Daten produziert und trotzdem alle relevanten Informationen liefert.
Im zweiten Schritt haben sie das Allegro 3500, das wahlweise mit oder ohne Festplatten verkauft wird, mit weiteren Festplatten ausgestattet. Hierfür eignen sich handelsübliche Festplatten, die in größeren Firmen oft auch vorrätig sind. Das Allegro 3500 hat dafür ein Fassungsvermögen von 36 Festplatten.
Philipp Rammer ist sehr zufrieden mit dem Allegro 3500. Bisher kam es noch nicht zu schwerwiegenden Netzwerkproblemen. Trotzdem ist es schon jetzt zu einem wichtigen Instrument für die Administratoren geworden, weil mit dessen Hilfe Probleme mit dem Netzwerk gefunden, aber gegebenenfalls auch ausgeschlossen werden können, erzählt Philipp Rammer. „Sehr hilfreich sind die Response Time Charts, die genau darüber informieren, ob ein Problem wirklich im eigenen Service besteht oder vielleicht doch an anderer Stelle. Wenn eine TCP-Statistik für die letzten drei Stunden die Handshake-Zeit von 20 oder weniger Millisekunden aufweist, ist das ein hilfreicher Anhaltspunkt dafür, ob ein Netzwerkproblem vorliegen könnte oder eben nicht, weil z.B. etwas bei der Datenverarbeitung auf Betriebssystem- oder Applikationsebene schiefläuft.“ Das erleichtert im Endeffekt sowohl dem Netzwerk- als auch den Applikationsbetriebsteams die Fehlersuche durch schnellere Eingrenzung der Fehlerdomäne enorm.
Für solche Fälle bietet das Allegro Network Multimeter das Analyse-Modul TCP Zero Window. Ein Client schickt eine große Datenmenge, der Server empfängt diese und bestätigt, dass er sie bekommen hat. Die übergeordnete Applikation kann diese Daten jedoch nicht verarbeiten. Der Server meldet dann ein TCP Zero Window. Das heißt, das Netzwerk funktioniert einwandfrei, aber der Endpunkt kommt mit der Verarbeitung der Daten nicht nach.
Ein gutes Beispiel dafür ist ein Backup: Der Rechner schickt mit 1 GBit/s das Backup, aber der Server kann das nicht so schnell annehmen. Der TCP-Empfangspuffer wird immer voller und schließlich meldet der Netzwerktreiber des Servers, dass er keinen Platz mehr hat, Daten entgegenzunehmen, weil der übergeordnete Dienst zu langsam ist. Solch ein Szenario wird vom Allegro Network Multimeter erkannt. Die Messungen zeigen, dass es kein Netzwerkproblem ist, sondern dass das Endgerät am Leistungslimit liegt.
Insgesamt macht das Allegro Network Multimeter den IT-Verantwortlichen der TU Graz das Leben deutlich einfacher, wie Philipp Rammer bestätigt: „Das Schöne ist, dass es trotz seiner mächtigen Performance so unkompliziert ist. Uns gefällt auch, dass es ein Web-Interface ohne zusätzliche lokale Applikation, Server, Datenbanken und Sonstiges ist, was gewartet werden müsste. Das war für uns ein essentielles Kaufargument, denn das ist neu. Vor dem Einsatz des Allegro Network Multimeter gestaltete sich die Netzwerkanalyse sehr mühsam.“