A/B-Testing
Kurz erklärt
A/B-Testing (Split-Testing) vergleicht zwei Varianten einer Webseite, Anzeige oder E-Mail, um herauszufinden, welche Version besser performt.
Methodik von A/B-Tests
A/B-Testing vergleicht zwei oder mehr Varianten einer Seite, eines Creatives oder eines Flows unter kontrollierten Bedingungen. Eine klare Hypothese, ein fixes Messfenster und saubere Traffic-Split-Logik sind die Basis. Varianten sollten jeweils nur eine Hauptvariable aendern, damit Ursache und Wirkung interpretierbar bleiben.
Statistische Signifikanz
Signifikanz bedeutet nicht automatisch Geschaeftsrelevanz, aber sie reduziert Zufallsfehler. Typische Kennzahlen sind Konfidenzniveau (oft 95 %), p-Wert und Konfidenzintervalle fuer die Differenz der Konversionsraten. Bei kleinen Stichproben wachsen Laufzeiten schnell: Ohne ausreichend Conversions pro Variante bleiben Ergebnisse unsicher. Power-Analysen vor dem Test helfen, Mindeststichproben grob zu planen.
Mehr als nur Signifikanz
- Praktische Relevanz: Ein statistisch signifikanter Lift von 0,1 % kann je nach Volumen wertvoll oder vernachlaessigbar sein
- Segmentierung: Gesamtwinner koennen in einzelnen Segmenten scheitern; Auswertung nach Geraet, Quelle oder Nutzergruppe ergaenzen
- Seasonality: Kampagnen, Feiertage und Wetter koennen Ergebnisse verzerren
Multivariate Tests
Multivariate Tests (MVT) kombinieren mehrere Elemente gleichzeitig und messen Wechselwirkungen. Sie benoetigen deutlich mehr Traffic als einfache A/B-Tests. Fractional factorial Designs reduzieren Variantenzahl. MVT lohnt sich, wenn Interaktionen erwartet werden, etwa Headline plus Hero-Bild plus CTA.
Tools und Infrastruktur
- Google Optimize (eingestellt): Viele Teams wechselten zu VWO, Optimizely, AB Tasty oder Eigenentwicklungen
- Server-seitiges Testing: Feature Flags und Edge-Experimente fuer konsistente Erlebnisse
- Analytics-Anbindung: GA4, BigQuery oder Warehouse-Exports fuer robuste Auswertung
- QA und Consent: Varianten muessen technisch und rechtlich sauber ausgespielt werden
Experiment-Design und Governance
Ein Experiment-Register mit Owner, Startdatum, Traffic-Anteil und Stop-Regeln verhindert parallele Tests auf derselben URL, die sich gegenseitig verfaelschen. Sticky Bucketing sorgt dafuer, dass Nutzer stabil einer Variante zugeordnet bleiben. Dokumentierte Learnings helfen, wiederkehrende Fehler zu vermeiden und Wissen im Team zu verteilen.
Qualitaetssicherung vor Livegang
- Technik: Ladezeiten, CLS und JavaScript-Fehler je Variante messen
- Tracking: Events und Dimensions pro Variante validieren
- Barrierefreiheit: Kontraste und Fokusreihenfolge pruefen
Organisation und Kultur
Testing braucht Entscheidungsrechte: Wer darf einen Gewinner ausrollen und wann? Transparenz gegenueber Stakeholdern reduziert Skepsis. Kleine, haeufige Tests schlagen selten grosse Big-Bang-Experimente, weil sie schneller lernen und Risiko streuen.
Weitere Fachbegriffe
Core Web Vitals
Core Web Vitals sind Googles zentrale Metriken für die Nutzererfahrung (Page Experience) – sie messen Ladegeschwindigkeit, Interaktivität und visuelle Stabilität einer Webseite.
Suchintention (Search Intent)
Die Suchintention beschreibt das Ziel, das ein Nutzer mit einer Suchanfrage verfolgt. Google bewertet, ob ein Inhalt zur Suchintention passt – und rankt entsprechend.
Crawling und Indexierung
Crawling ist der Prozess, bei dem Suchmaschinen-Bots Webseiten entdecken. Indexierung bedeutet, dass die Inhalte in den Suchindex aufgenommen werden und in Ergebnissen erscheinen können.
Impressionen
Eine Impression zählt jedes Mal, wenn eine Anzeige oder ein Suchergebnis auf dem Bildschirm eines Nutzers angezeigt wird – eine der grundlegendsten Metriken im digitalen Marketing.
Display Advertising
Display Advertising umfasst grafische Werbeanzeigen (Banner, Videos) auf Websites, in Apps und auf Plattformen – ideal für Brand Awareness und Remarketing.
Hreflang
Hreflang-Tags signalisieren Suchmaschinen, in welcher Sprache und für welches Land eine Seite vorgesehen ist – unverzichtbar für mehrsprachige Websites.