SEO Technisches Marketing

Crawling und Indexierung

Kurz erklärt

Crawling ist der Prozess, bei dem Suchmaschinen-Bots Webseiten entdecken. Indexierung bedeutet, dass die Inhalte in den Suchindex aufgenommen werden und in Ergebnissen erscheinen können.

Was ist Crawling?

Crawling ist der Vorgang, bei dem Suchmaschinen-Bots wie der Googlebot systematisch das Web durchsuchen. Sie folgen Links von Seite zu Seite, laden HTML, CSS und JavaScript herunter und entdecken so neue und aktualisierte Inhalte. Der Googlebot besteht aus verschiedenen Crawlern: dem primaeren Crawler fuer Desktop, dem Smartphone-Crawler (primaer fuer Mobile-First-Indexierung) und spezialisierten Crawlern fuer Bilder, Videos und News.

Was ist Indexierung?

Nach dem Crawling analysiert Google den Seiteninhalt, extrahiert Text, Bilder, Videos und Meta-Daten und entscheidet, ob die Seite in den Suchindex aufgenommen wird. Nur indexierte Seiten koennen in den Suchergebnissen erscheinen. Nicht jede gecrawlte Seite wird indexiert: qualitativ minderwertige, doppelte oder technisch fehlerhafte Inhalte werden oft ausgeschlossen.

Der Weg von Crawling zu Ranking

  1. Discovery: Google entdeckt die URL (ueber Links, Sitemap oder Search Console)
  2. Crawling: Googlebot laedt die Seite herunter
  3. Rendering: JavaScript wird ausgefuehrt (bei JS-lastigen Seiten)
  4. Indexierung: Inhalt wird analysiert und im Index gespeichert
  5. Ranking: Bei passender Suchanfrage wird die Seite in den Ergebnissen platziert

Crawl-Budget

Das Crawl-Budget beschreibt, wie viele Seiten der Googlebot innerhalb eines bestimmten Zeitraums auf einer Website crawlt. Bei grossen Websites (Shops mit Tausenden URLs, News-Portale) ist die Optimierung des Crawl-Budgets entscheidend:

  • Unwichtige Seiten (Filter-Kombinationen, Paginierung) per robots.txt oder noindex ausschliessen
  • Server-Response-Zeiten unter 200ms halten
  • Interne Verlinkung auf wichtige Seiten konzentrieren
  • 404-Fehler und Redirect-Ketten bereinigen

Steuerung: robots.txt und Meta-Tags

Die robots.txt im Root-Verzeichnis gibt Suchmaschinen-Bots Anweisungen, welche Bereiche gecrawlt werden duerfen. Wichtig: robots.txt verhindert nur das Crawling, nicht die Indexierung. Fuer Nicht-Indexierung ist das noindex Meta-Tag oder der X-Robots-Tag HTTP-Header zustaendig.

XML-Sitemap

Eine XML-Sitemap listet alle wichtigen URLs auf und hilft Suchmaschinen, diese effizient zu entdecken. Sie wird in der Google Search Console eingereicht und sollte nur kanonische, indexierbare URLs enthalten.

Google Search Console als Kontroll-Tool

Die Search Console zeigt unter Seiten (fruehr: Abdeckung), welche Seiten indexiert sind, welche ausgeschlossen wurden und warum. Der URL-Prueftool zeigt den Indexierungsstatus einer einzelnen URL und ermoeglicht manuelle Indexierungsanfragen.