Logfileanalyse mit dem SEO Logfile Analyser?

Die Logfile Analyse kann über verschiedene Programme erfolgen. Bei kleinen Seiten, mit wenig Traffic wird bestenfalls mit einem Tabellenprogramm und anschließender Segmentierung gearbeitet. Bei größeren Projekten sollten aber Tools eingesetzt werden die auch große Datenmengen verarbeiten können. Hier kommt neben Open Source-Programmen und SaaS-Tools, wie z. B.: BotLogs von Ryte der SEO Logfile Analyser aus dem Hause Screaming Frog ins Spiel.

Zunächst gibt es aber einen kleinen Abriss, was sich hinter Logdateien eigentlich verbirgt.

Was ist eine Logdatei?

Eine Logdatei, wie im Deutschen zu einem Logfile gesagt wird, werden die grundlegenden Zugriffe auf einer Website, serverseitig protokolliert. Diese Datei liefert eine Vielzahl an wichtigen KPIs, die das Verhalten auf einer Website von Crawlern und Benutzern sichtbar macht.

Die Logdatei liefert sozusagen den Fußabdruck des Crawlers.

Je nach Einstellung des Servers sind folgende Daten in einem Logfile auffindbar:

  • Hostname, sowie IP-Adresse
  • Herkunftsland
  • Herkunftsregion
  • Welcher Browser wird verwendet
  • Mit welchem Betriebssystem wird zugegriffen
  • Kommt der Nutzer über einen direkten Zugriff, oder per Verweis einer anderen Website (Backlink), oder sogar über andere Werbemaßnahmen, wie Google Ads, Facebook Ads, oder BingAds, usw.
  • Welche Suchmaschine hat den Zugriff verursacht
  • Was war das eingegebene Suchwort, mit dem auf die Seite zugegriffen wurde
  • Wie hoch war die Verweildauer des Nutzers auf der Seite und wie viele Seiten wurden innerhalb dieser Sitzung aufgerufen
  • Last but not least, welche Seite hat der Nutzer besucht, die dann die Ausstiegsseite war

Um eine SEO-Logfile-Analyse zu erstellen, müssen auf alle Fälle die nachfolgenden Werte in der Datei erhoben werden:

  1. IP-Adresse
  2. Zeit und Datum
  3. URI
  4. Status Code
  5. Datenmenge
  6. Dauer des Downloads
  7. Referrer
  8. User Agent

Der Aufbau eines Logfiles – Viele Werte, aber für was stehen diese?

Ein Logfile ist nach einer ganz bestimmten Syntax, seitens des Servers aufgebaut. Eine Zeile in der Logdatei ist nach folgendem Schema aufgereiht:

%h %I %u %t „%r“ %>s %b

Viel Prozent und ein grober Buchstabensalat wie unschwer zu erkennen ist. Um dies verständlicher zu machen und um Licht ins Dunkel zu bringen, dafür gibt es die nachfolgende Tabelle:

%h IP-Adresse des Zugreifenden
%I Identität des Zugreifenden, dieser Wert wird standardmäßig nicht ermittelt und hat auch Datenschutz Gründe. Gerade in Firmen bedarf es der Zustimmung der Belegschaft, oder des Betriebsrates um hier genaue Nutzernamen mit aufzunehmen. Da dieses Feld meist leer bleibt, ist an dieser Stelle oft ein Minus (-) zu finden, das eine fehlende Angabe im Logfile kennzeichnet.
%u Benutzer-ID des Clients, die beispielsweise bei Verzeichnisschutz mit HTTP-Authentifizierung zugeordnet wird; normalerweise nicht vergeben.
%t Zeitstempel des Zugriffszeitpunktes
%r Informationen über die HTTP-Anfrage (Methode, angeforderte Ressource und Protokoll-Version)
%>s Statuscode, hier kann analysiert werden, ob die Seite erreichbar ist (200), weitergeleitet (301/302), oder nicht erreichbar ist (4xx/5xx).
%b Gibt an, wie viele Bytes bei dem Zugriff übertragen wurden.

Wer liefert die Logfiles aus?

Ohne ein großes Geheimnis daraus zu machen, die Daten liegen auf dem Server. Je nach Serverkonfiguration liegen die Dateien in einem Ordner im Root-Verzeichnis. Meist lautet der Ordner „logs“. Wo genau die Logfiles gespeichert und wie lange diese vorrätig gehalten werden, wir in der httpd.conf-Datei auf dem Server eingestellt.

Wenn nichts anderes eingestellt wurde, werden die Logfiles täglich, in komprimierter Version abgespeichert. Komprimiert deshalb da bei großen Seiten schnell mehrere Megabyte, bis Gigabyte auflaufen können. Je nach Servereinstellung werden zwei Verschiedene Logfiles angelegt, die Access- und die Errorlogs.

Um an die Daten heranzukommen, bedarf es eigentlich nur einem Zugang zum Server. Da dies für Inhouse-SEOs meist schnell und einfach geht, haben externe Dienstleister, wie z. B.: Agenturen es hier etwas schwieriger, da der Zugriff auf den Server nicht immer gestattet wird und die Bereitstellung so ein langwieriger Prozess werden kann.

Vor- und Nachteile einer Logfile Analyse?

Wo Licht ist, ist bekanntlich auch Schatten. So verhält sich das auch bei der Logfile Analyse.

Die Vorteile der Logfile Analyse

  • Je länger die Daten gespeichert werden, desto bessere Analysen können erstellt werden. Durch entsprechende Einstellungen auf dem Server ist somit eine lange Datenaufzeichnung garantiert.
  • Wenn kein externer Dienstleister mit zu Rate gezogen wird, dann bleiben die Daten immer in der eigenen Hand. So bleiben die Daten immer unter eigener Kontrolle.
  • Sollten sich Probleme bei ggf. Downloads einstellen, kann über die Logfile Analyse geprüft werden, um Welche Datei es sich handelt und wieviel Bytes heruntergeladen worden sind.
  • Auch Crawler, die nicht von Suchmaschinen geschickt werden, sind in den Logfiles auffindbar. Hier werden über den User-Agent die nötigen Daten mit übergeben, sodass gezielte Ausschlüsse für Crawler erfolgen können.
  • Zur Erstellung von Logfiles sind keine JavaScript-Codes nötig. Die Aufzeichnung erfolgt serverseitig und völlig autark. Dadurch, dass keine JavaScript-Codes implementiert werden, gibt es auch keine technischen Probleme bei der Aufzeichnung, im Gegensatz zu anderen Webanalysetools wie z. B.: Google Analytics, wo das Tracking ausgeschlossen werden kann.
  • Bei kleineren Logfiles betet sich die Lösung über ein Tabellenprogramm (Excel) an. Wichtig hierbei ist, dass Segmente gebildet werden um für die nötige Übersichtlichkeit sorgen zu können. Es muss ja nicht gleich mit Kanonen auf Spatzen geschossen werden.

Die Nachteile der Logfile Analyse

  • Proxys und er Einsatz von Caching verhindern die Aufzeichnung von Logfiles. Nur direkte Serverzugriffe können in die Logfiles aufgenommen werden. Daher besteht auch eine Differenz mit dem Traffic in den Logfiles und anderen Analyse Tools.
  • Logfiles können nur genau aufgezeichnet werden, wenn immer die Umgebung auf dem neuesten Stand und durch den Webmaster alle nötigen Updates regelmäßig durchgeführt werden. Nur so können unkorrekte Zahlen vermieden werden.
  • Logfiles brauchen Platz. Auch wenn diese komprimiert aufgezeichnet und abgespeichert werden, muss dennoch ausreichend Speicherplatz vorhanden sein. Daher gilt es hier immer darauf zu achten, ggf. einen Zwischenspeicher für ältere Logfiles einzurichten, damit die Serverlast verringert wird.
  • Sobald der Traffic steigt, steigt auf die Datenmenge der Logfiles. Somit wird ein Tabellenprogramm, wie Excel, nicht mehr ausreichen, um die Analyse erstellen zu können. Somit ist der Analyst gezwungen, auf andere Programme auszuweichen, wie z. B. den SEO Logfile Analyser, oder aber SaaS-Lösungen.
  • In der Logdatei finden sich nur direkte Aktivitäten auf der Seite wieder. Ausführungen auf der Seite durch Widgets, oder aber AJAx, werden nicht in den Logfiles auftauchen, da es sich dabei nicht um echte Serverabfragen handelt.
  • Die Ungenaue Zuordnung der Seitenbesuche (Visits) ist bei den Logfiles sehr problematisch. Dies rührt vom Einsatz von dynamischen IP-Adressen her. Meist haben Firmen eine statische IP-Adresse, worüber diese dann auch ausfindig gemacht werden können. Bei Privatpersonen ist das in der Regel anders, diese bekommen jeden Tag vom Provider eine neue IP-Adresse Zugewiesen, was dann die Trafficzählung über die Logfiles schwierig gestaltet. Dies gilt ebenso für mehrere Nutzer, die über ein und dieselbe IP auf eine Website zugreifen.
  • Logfiles bieten weniger Daten als andere, implementierte Webanalysetools. Wichtige KPIs, wie z. B.: die Absprungraten werden in den Logfiles nicht mitgeliefert und können daher darüber nicht ausgewertet werden.

Was bringt die Logfile Analyse für SEO?

Welcher Bot kommt auf die Seite und wie wird die Seite gecrawlt? Diese Frage sollte sich jeder, der Suchmaschinenoptimierung betreibt einmal stellen. Durch gezielte Logfile Analysen kann so festgestellt werden, ob und wann neue Seiten das erste Mal gecrawlt wurden. Die Logfile Analyse deckt so auf, ob es Seiten gibt, die noch nie einen Besuch des Suchmaschinen-Bots hatte. Dies kann mit der Seitenstruktur einhergehen. Je weniger Klicks ich zur Zielseite benötige, desto besser kann ich gefunden werden. Nach diesem Prinzip geht auch der Bot vor. Maximal drei Klicks von der Einstiegsseite aus, sollte es dauern, um auf der gewünschten Zielseite anzukommen.

Jeder SEO sollte im Rahmen der Arbeiten an einem Kunden eine Logfile Analyse durchführen. Dies mag anfänglich etwas länger dauern, wenn man auf diesem Gebiet ein Neuling ist, aber mit der nötigen Routine stellen sich auch hier Fortschritte ein und der Aufwand wird sich schnell verringern.

Gerade im Hinblick auf das Crawling-Budget liefert die Logdatei einen großen Mehrwert. So kann hier ausgelesen werden, welche Seiten, welche Statuscodes zurückliefern. Durch gezielte Analyse kann so verschenktes Potenzial, ggf. durch dauerhaftes Crawling von 404-Seiten, besser eingesetzt werden.

Logfileanalyse mit dem SEO Logfile Analyser

Der Screaming Frog bietet neben dem Spider noch ein weiteres Tool, den SEO Logfile Analyser. Um damit beginnen zu können, wird zunächst die Logdatei benötigt. Diese muss wie oben beschrieben vom Server, respektive Hoster abgeholt werden.

Nachdem der SEO Logfile Analyser installiert ist und die erste Berührung damit gemacht wurden, können nun erste SEO-Analysen damit gemacht werden.

1. Auflistung aller Seiten, nach Häufigkeit des Crawlings durch den Google Bot?

Der Reiter „URLs“ zeigt alle Seiten an, die von Bots, wie z. B. dem Google-Bot, nach Einstellung der Filter, aufgerufen werden. So kann für den jeweiligen Bot ausgegeben werden, welcher Statuscode die Seite geliefert hat und wann das Crawling erfolgte. Auch wird ausgegeben, wie groß die durchschnittliche Response Time war. So verdeutlicht sich das Bild, wie wichtig die einzelnen Seiten im Internet sind. Durch gezielte Maßnahmen, ggf. Verringerung der Klicktiefe, kann so schon ein besseres Crawling hergestellt werden.

2. Welche Seite liefert welchen Statuscode?

Im Bereich „Response Codes“ werden die Informationen zu den Statuscodes der einzelnen Seiten abgebildet. So kann mit einem zusätzlichen Filter die Art des jeweiligen Codes ausgegeben werden. Wenn nach „Inconsistent“ gefiltert wird, bekommt der Analyst die URLs angezeigt, wo sich der Statuscode innerhalb des analysierten Zeitraums geändert hat. Um noch tiefer in die Analyse zu gehen, kann auf eine URL geklickt werden und über die Detailansicht sich alle Änderungen des Statuscodes anhand des Zeitstempels anzeigen lassen. Durch diese Maßnahme können Trafficeinbußen aus der organischen Suche aus der Vergangenheit aufbereitet und verdeutlicht werden.

3. Welche Seiten besucht der Google bot, obwohl diese nicht intern verlinkt sind?

Ein großer Vorteil ist, mit Hilfe der IMPORT-Funktion auch die Screaming Frog Crawling-Daten eingeladen werden können. So gibt es die Möglichkeit den View-Bereich anzupassen:

  • Log File: Alle URLs aus dem Logfile werden angezeigt.
  • Matched with URL Data: Die URLs, die sich sowohl in dem Logfile, als auch in den Crawling-Daten des Screamin Friogs befinden werden ausgegeben.
  • Not in URL Data: Anzeige aller URLs, aus der Logfile die nicht gecrawlt werden können.
  • Not in Log File: Ausgabe aller Screaming Frog-URLs, die nicht im Logfile vorhanden sind.

Dank dieser verschiedenen Ansichtsmodi, die besonders werthaltig sind, besteht so die Möglichkeit, Seiten aufzuspüren die vom Google-Bot besucht wurden / werden, aber nirgends intern verlinkt sind. Auch können so Seiten aufgespürt werden, die ggf. durch JavaScript-Rendering nicht interpretiert werden können.

4. Wird meine Seite mit Mobile-First-Indexing gecrawlt?

Der dem allseits bekannte Google-Mitarbeiter John Müller empfiehlt im Webmaster Hangout unbedingt die Nutzung von Logfiles, um festzustellen, dass die Seite im mobilen Index aufgenommen wurde. Laut John Müller crawlt der mobile Googlebot die Seite viel häufiger als der Desktop-Bot. Diese Information ist im Hauptreiter „URLs“ den Spalten „Googlebot“, „Googlebot Mobile“ und „Googlebot Smartphone“ zu entnehmen.

Fazit

Logfile Analysen sind ein wertvolles Instrument um seine Seite im Griff zu haben. gerade in der Suchmaschinenoptimierung bietet dies Logfile Analyse einen erheblichen Mehrwert, um gezielt sehen zu können, welche Seiten gut vom Bot besucht werden und welche nicht. Anhand dieser Auswertung können Maßnahmen erarbeitet werden, um das Crawling besser zu steuern. Wie schon häufiger erwähnt, ist es wichtig, mit maximal drei Klicks auf der gewünschten Seite zu sein. Gerade unter diesem Gesichtspunkt sollte jeder eine Logfile Analyse erstellen und seine Seite entsprechen umbauen.

markus-fritzsche-campixx
Markus Fritzsche

Markus Fritzsche ist ausgebildeter Fachinformatiker für Anwendungsentwicklung und beschäft sich mit der Erstellung von neuen Websiten und leistet eine Vielzahl an IT-Support. Er ist seit 2012 im Online Marketing Tätig, hier mit dem Schwepunkt SEO.