Analytics & Tracking

A/B-Testing

Kurz erklärt

A/B-Testing (Split-Testing) vergleicht zwei Varianten einer Webseite, Anzeige oder E-Mail, um herauszufinden, welche Version besser performt.

Methodik von A/B-Tests

A/B-Testing vergleicht zwei oder mehr Varianten einer Seite, eines Creatives oder eines Flows unter kontrollierten Bedingungen. Eine klare Hypothese, ein fixes Messfenster und saubere Traffic-Split-Logik sind die Basis. Varianten sollten jeweils nur eine Hauptvariable aendern, damit Ursache und Wirkung interpretierbar bleiben.

Statistische Signifikanz

Signifikanz bedeutet nicht automatisch Geschaeftsrelevanz, aber sie reduziert Zufallsfehler. Typische Kennzahlen sind Konfidenzniveau (oft 95 %), p-Wert und Konfidenzintervalle fuer die Differenz der Konversionsraten. Bei kleinen Stichproben wachsen Laufzeiten schnell: Ohne ausreichend Conversions pro Variante bleiben Ergebnisse unsicher. Power-Analysen vor dem Test helfen, Mindeststichproben grob zu planen.

Mehr als nur Signifikanz

  • Praktische Relevanz: Ein statistisch signifikanter Lift von 0,1 % kann je nach Volumen wertvoll oder vernachlaessigbar sein
  • Segmentierung: Gesamtwinner koennen in einzelnen Segmenten scheitern; Auswertung nach Geraet, Quelle oder Nutzergruppe ergaenzen
  • Seasonality: Kampagnen, Feiertage und Wetter koennen Ergebnisse verzerren

Multivariate Tests

Multivariate Tests (MVT) kombinieren mehrere Elemente gleichzeitig und messen Wechselwirkungen. Sie benoetigen deutlich mehr Traffic als einfache A/B-Tests. Fractional factorial Designs reduzieren Variantenzahl. MVT lohnt sich, wenn Interaktionen erwartet werden, etwa Headline plus Hero-Bild plus CTA.

Tools und Infrastruktur

  • Google Optimize (eingestellt): Viele Teams wechselten zu VWO, Optimizely, AB Tasty oder Eigenentwicklungen
  • Server-seitiges Testing: Feature Flags und Edge-Experimente fuer konsistente Erlebnisse
  • Analytics-Anbindung: GA4, BigQuery oder Warehouse-Exports fuer robuste Auswertung
  • QA und Consent: Varianten muessen technisch und rechtlich sauber ausgespielt werden

Experiment-Design und Governance

Ein Experiment-Register mit Owner, Startdatum, Traffic-Anteil und Stop-Regeln verhindert parallele Tests auf derselben URL, die sich gegenseitig verfaelschen. Sticky Bucketing sorgt dafuer, dass Nutzer stabil einer Variante zugeordnet bleiben. Dokumentierte Learnings helfen, wiederkehrende Fehler zu vermeiden und Wissen im Team zu verteilen.

Qualitaetssicherung vor Livegang

  • Technik: Ladezeiten, CLS und JavaScript-Fehler je Variante messen
  • Tracking: Events und Dimensions pro Variante validieren
  • Barrierefreiheit: Kontraste und Fokusreihenfolge pruefen

Organisation und Kultur

Testing braucht Entscheidungsrechte: Wer darf einen Gewinner ausrollen und wann? Transparenz gegenueber Stakeholdern reduziert Skepsis. Kleine, haeufige Tests schlagen selten grosse Big-Bang-Experimente, weil sie schneller lernen und Risiko streuen.