Crawling und Indexierung
Kurz erklärt
Crawling ist der Prozess, bei dem Suchmaschinen-Bots Webseiten entdecken. Indexierung bedeutet, dass die Inhalte in den Suchindex aufgenommen werden und in Ergebnissen erscheinen können.
Was ist Crawling?
Crawling ist der Vorgang, bei dem Suchmaschinen-Bots wie der Googlebot systematisch das Web durchsuchen. Sie folgen Links von Seite zu Seite, laden HTML, CSS und JavaScript herunter und entdecken so neue und aktualisierte Inhalte. Der Googlebot besteht aus verschiedenen Crawlern: dem primaeren Crawler fuer Desktop, dem Smartphone-Crawler (primaer fuer Mobile-First-Indexierung) und spezialisierten Crawlern fuer Bilder, Videos und News.
Was ist Indexierung?
Nach dem Crawling analysiert Google den Seiteninhalt, extrahiert Text, Bilder, Videos und Meta-Daten und entscheidet, ob die Seite in den Suchindex aufgenommen wird. Nur indexierte Seiten koennen in den Suchergebnissen erscheinen. Nicht jede gecrawlte Seite wird indexiert: qualitativ minderwertige, doppelte oder technisch fehlerhafte Inhalte werden oft ausgeschlossen.
Der Weg von Crawling zu Ranking
- Discovery: Google entdeckt die URL (ueber Links, Sitemap oder Search Console)
- Crawling: Googlebot laedt die Seite herunter
- Rendering: JavaScript wird ausgefuehrt (bei JS-lastigen Seiten)
- Indexierung: Inhalt wird analysiert und im Index gespeichert
- Ranking: Bei passender Suchanfrage wird die Seite in den Ergebnissen platziert
Crawl-Budget
Das Crawl-Budget beschreibt, wie viele Seiten der Googlebot innerhalb eines bestimmten Zeitraums auf einer Website crawlt. Bei grossen Websites (Shops mit Tausenden URLs, News-Portale) ist die Optimierung des Crawl-Budgets entscheidend:
- Unwichtige Seiten (Filter-Kombinationen, Paginierung) per robots.txt oder noindex ausschliessen
- Server-Response-Zeiten unter 200ms halten
- Interne Verlinkung auf wichtige Seiten konzentrieren
- 404-Fehler und Redirect-Ketten bereinigen
Steuerung: robots.txt und Meta-Tags
Die robots.txt im Root-Verzeichnis gibt Suchmaschinen-Bots Anweisungen, welche Bereiche gecrawlt werden duerfen. Wichtig: robots.txt verhindert nur das Crawling, nicht die Indexierung. Fuer Nicht-Indexierung ist das noindex Meta-Tag oder der X-Robots-Tag HTTP-Header zustaendig.
XML-Sitemap
Eine XML-Sitemap listet alle wichtigen URLs auf und hilft Suchmaschinen, diese effizient zu entdecken. Sie wird in der Google Search Console eingereicht und sollte nur kanonische, indexierbare URLs enthalten.
Google Search Console als Kontroll-Tool
Die Search Console zeigt unter Seiten (fruehr: Abdeckung), welche Seiten indexiert sind, welche ausgeschlossen wurden und warum. Der URL-Prueftool zeigt den Indexierungsstatus einer einzelnen URL und ermoeglicht manuelle Indexierungsanfragen.
Weitere Fachbegriffe
Qualitätsfaktor (Quality Score)
Der Qualitätsfaktor ist Googles Bewertung der Relevanz von Keywords, Anzeigen und Landingpages in Google Ads auf einer Skala von 1 bis 10.
Strukturierte Daten (Schema.org)
Strukturierte Daten sind standardisierte Markierungen im HTML-Code, die Suchmaschinen helfen, den Inhalt einer Seite besser zu verstehen – und können zu Rich Snippets in den Suchergebnissen führen.
Social Media Marketing
Social Media Marketing nutzt soziale Netzwerke wie Facebook, Instagram, LinkedIn und TikTok, um Markenbekanntheit aufzubauen, Leads zu generieren und Zielgruppen gezielt anzusprechen.
Technisches SEO
Technisches SEO stellt sicher, dass Suchmaschinen eine Website problemlos crawlen, rendern und indexieren können – die technische Grundlage für gute Rankings.
GEO (Generative Engine Optimization)
GEO (Generative Engine Optimization) optimiert Inhalte so, dass sie von KI-gestützten Suchsystemen wie ChatGPT, Perplexity oder Google AI Overviews als Quelle zitiert werden.
SEO (Suchmaschinenoptimierung)
SEO (Search Engine Optimization) umfasst alle Maßnahmen, die dazu dienen, Webseiten in den organischen – also unbezahlten – Suchergebnissen von Google, Bing und anderen Suchmaschinen möglichst weit oben zu platzieren.