A/B-Testing – Wann ist stabil wirklich stabil?

prudsys, prudsys RDE, Omnichannel, Handel, E-Commerce, Echtzeit, Personalisierung, A/B-Test

A/B-Testing ist ein wichtiges Instrument, um die Effizienz von Personalisierung zu messen. Die prudsys RDE wurde bereits 2005 mit einem vollintegrierten A/B-Testing ausgestattet, welches den Mehrwert von Personalisierung automatisch misst. A/B-Tests sind jedoch methodisch anspruchsvoll und müssen daher sorgfältig ausgeführt werden. Diesem wichtigen Thema wollen wir uns widmen und gehen heute auf ein kurioses Phänomen vorstellen: das Simpson Paradoxon.

In der Praxis werden zunehmend A/B-Tests benutzt, um die Effizienz von Personalisierungsverfahren zu testen. Dabei wird ein Teil aller Websessions zufällig der Gruppe der Personalisierung zugeordnet, die wir im weiteren „Personalisierungsgruppe“ nennen werden und der restliche Teil der Sessions dient als Kontrollgruppe. Je nach Aufgabenstellung kann die Kontrollgruppe leer sein (also ohne Personalisierung) oder einem anderen Personalisierungsverfahren zugeordnet sein. Dabei wird bei der Gruppenzuordnung der Sessions im Allgemeinen ein festes Verhältnis zwischen der Anzahl der Sessions in beiden Gruppen vorgegeben, z.B. 50:50 oder 90:10. Dieses Verhältnis bezeichnen wir als Sessionquotienten s_q.

 

Nun können für beide Gruppen statistische Kennzahlen wie Anzahl der Klicks, Warenkörbe oder der Umsatz berechnet werden. Zur Berechnung des Mehrwerts der Personalisierung wird nun das Verhältnis der gewünschten Kennzahlen k_q durch den Sessionquotienten s_q dividiert. Betrachten wir ein einfaches Beispiel für den Mehrumsatz durch Personalisierung. Es sollen 90% der Sessions der Personalisierungsgruppe zugeordnet ein und 10% der Kontrollgruppe, also s_q = 9. Der Umsatz in der Personalisierungsgruppe betrage 9.500 EUR und in der Kontrollgruppe 1.000 EUR, also k_q = 9,5. Dann ergibt sich der prozentuale Mehrumsatz m der Personalisierung als

m = (k_q / s_q – 1)*100%= (9,5 / 9,0 – 1)*100% = 5,56%.

Wir wollen heute einen kuriosen Effekt betrachten: das Simpson Paradoxon. Es ist in der Statistik bekannt und wurde erstmals 1951 von Edward Hugh Simpson untersucht. Im Bereich der A/B-Tests von Empfehlungsmaschinen äußert es sich in unterschiedlichen qualitativen Ergebnissen beim Übergang zu kumulierten Kennzahlen.

Wir wollen das Simpson Paradoxon an einem einfachen Beispiel von 2 Tagen eines A/B-Tests in einem Webshop illustrieren:

Personalisierungsgruppe Kontrollgruppe
Zeitraum Sessions Umsatz Sessions Umsatz Mehrumsatz
  1. Tag
10 500 20 2000 -50%
  1. Tag
20 3900 10 2000 -2,5%
Summe 30 4400 30 4000 +10%

Obwohl die Personalisierungsgruppe an beiden Tagen prozentual schlechter als die Kontrollgruppe abgeschnitten hat, ging sie am Ende mit +10% scheinbar als klarer Sieger aus dem Rennen. Die Ursache liegt darin, dass der Sessionquotient s_q an beiden Tagen unterschiedlich war: Am ersten war s_q = 10:20 = 0,5; am zweiten Tag hingegen galt s_q = 20:10 = 2,0.

Vordergründige Ursache des Paradoxons ist die Tatsache, dass die Einzelergebnisse mit unterschiedlichem Gewicht in das Gesamtergebnis eingehen. Inhaltlich ist das Paradoxon zumeist ein Hinweis auf nicht erfasste Einflussfaktoren. In unserem Fall sind das genau die unterschiedlichen Sessionquotienten und die Abhilfe besteht darin, diese immer konstant zu halten. Das unterstreicht einmal mehr die Notwendigkeit der maximalen Konstanz aller Umweltbedingungen.

 

Weiterführende Beiträge:

Mathematik für A/B-Tests im E-Commerce: Wieviel mehr ist mehr?

A/B-Testing in der Praxis: Fünf Schritte für eine erfolgreiche Umsetzung

4 Kommentare

Trackbacks & Pingbacks

  1. […] im Juni hatten wir uns im Blogbeitrag „A/B-Testing – Wann ist stabil wirklich stabil?“ mit den Herausforderungen bei der Durchführung von A/B-Tests im E-Commerce auseinandergesetzt. Am […]

  2. […] A und B beeinflussen. Weisen Sie deshalb die Kollegen auf den laufenden Test hin! Im Beitrag “A/B-Testing – Wann ist stabil wirklich stabil?” erfahren Sie mehr über die Notwendigkeit der maximalen Konstanz aller […]

  3. […] im Juni hatten wir uns im Blogbeitrag „A/B-Testing – Wann ist stabil wirklich stabil?“ mit den Herausforderungen bei der Durchführung von A/B-Tests im E-Commerce auseinandergesetzt. Am […]

Dein Kommentar

Want to join the discussion?
Feel free to contribute!

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *