,

10 Tipps für aussagekräftigere A/B-Tests: Recommendation Engines richtig miteinander vergleichen

10 Tipps für bessere A/B-Tests: Recommendation Engines richtig miteinander vergleichen - powered by prudsys RDE

Ausgangssituation

Sie sind ein Händler mit einem Onlineshop und nutzen eine Recommendation Engine. Jetzt wollen Sie herausfinden, ob sich die Lösung, die Sie einsetzen, im Vergleich mit einer konkurrierenden Personalisierungslösung bewährt. Also testen Sie Ihre vorhandene Software (wir nennen Sie ab jetzt Recommendation Engine A) mittels A/B-Test1 gegen eine zweite Personalisierungslösung (ab jetzt Recommendation Engine B). In diesem Test-Szenario vergleichen Sie Logik und Qualität von Empfehlungen aus zwei verschiedenen Tools miteinander.

Besonderheiten beim A/B-Testing von zwei Recommendation Engines

Wir gehen davon aus, dass Sie sich mit dem A/B-Testing innerhalb Ihrer Personalisierungslösung1 auskennen. Wenn Sie zwei Softwarelösungen gegeneinander testen, gibt es zusätzliche Störquellen, für die wir Sie mit diesem Artikel sensibilisieren wollen.

Um die Qualität von Empfehlungen aus zwei Softwarelösungen überhaupt miteinander vergleichen zu können, brauchen Sie vor allem „saubere“ und tatsächlich vergleichbare Daten aus beiden Recommendation Engines.

Ein Beispiel: Beide Personalisierungslösungen bieten Ihnen den Empfehlungstyp Topseller. ABER: Recommendation Engine A wählt Topseller aus den Verkäufen der letzten drei Tage und Recommendation Engine B aus den Verkäufen der letzten 30 Tage aus. Das kann einen Einfluss auf die Qualität der Daten haben. Es ist wichtig, dass die gesammelten Daten vergleichbar sind.

Warum schreiben wir diesen Artikel?

Wir sind selbst Anbieter einer Personalisierungslösung für den Omnichannel-Handel. Unsere Mitarbeiter verfügen über langjährige Erfahrungen mit Recommendation Engines und haben schon eine Vielzahl von A/B-Tests durchgeführt. Wir kennen die verschiedenen Störquellen, die bei unterschiedlichen Lösungen auftreten. Das führt im schlimmsten Fall dazu, dass Sie Äpfel mit Birnen vergleichen. Wir möchten, dass auch Sie die wichtigsten Störquellen kennen und wissen, wie man sie eliminiert.

Top-3 Tipps beim Testen von verschiedenen Recommendation Engines

Die Grundvoraussetzung für die Entscheidung für eine der beiden Recommendation Engines ist ein „sauberer“ Test, in dem vergleichbare Daten mit beiden Softwarelösungen erhoben und verglichen werden. Unsere Top-3-Tipps sind:

Tipp 1: Achten Sie darauf, dass beide Recommendation Engines das Gleiche messen.
Tipp 2: Vergewissern Sie sich, dass sich die beiden Recommendation Engines im Test nicht gegenseitig beeinflussen.
Tipp 3: Stellen Sie sicher, dass die Art der technischen Integration das Testergebnis nicht verfälscht.

Ein „sauberer“ A/B-Test setzt voraus, dass alle Parameter in beiden Test-Szenarien identisch sind und sich lediglich durch die zu testende Größe unterscheiden. Schauen Sie bitte an den folgenden Stellen genau hin, ob diese Voraussetzung erfüllt ist.

1 Messen beide Recommendation Engines das Gleiche?

Auf der Basis welcher KPIs vergleichen Sie die beiden Lösungen? Die meisten Unternehmen ziehen den Umsatz aus Empfehlungen als wichtigste KPI für den Vergleich heran. Achten Sie unbedingt darauf, dass sich die Werte aus beiden Lösungen vergleichen lassen. Messen beide Recommendation Engines das Gleiche? Nur dann ergibt der direkte Vergleich der beiden Werte Sinn.

Ein Beispiel:

Recommendation Engine A Recommendation Engine B
Ausgangssituation Ein Onlineshopper befindet sich auf der Produktdetailseite von Produkt A. Hier sieht er eine Empfehlung für Produkt B in der Rubrik „Das könnte Sie auch interessieren“. Er überlegt Produkt A zu kaufen und legt es in den Warenkorb.
Szenario Dann klickt der Kunde die Empfehlung für Produkt B an. Es gefällt ihm und er legt auch Produkt B in den Warenkorb. Der Kunde verlässt den Onlineshop. Einige Tage später trifft er zufällig wieder auf Produkt B.

Der Artikel gefällt ihm und er legt ihn in den Warenkorb, in dem sich noch Produkt A befindet.

Wichtig: Der Kunde hat die Empfehlung für Produkt B auf der Seite von A während der ersten Session nicht geklickt. Sie wurde ihm lediglich bei seinem ersten Besuch angezeigt. Es ist nicht nachvollziehbar, ob er die Empfehlung von Produkt B überhaupt wahrgenommen hat.

Kauf Der Kunde schließt den Kauf von Produkt A und Produkt B innerhalb von 12 Stunden nach dem ersten Betreten des Onlineshops ab. Der Kunde schließt den Kauf der Produkte A und B innerhalb von 30 Tagen nach dem ersten Betreten des Onlineshops ab.
Warenwert Produkt A: 100 Euro
Produkt B: 10 Euro
Produkt A: 100 Euro
Produkt B: 10 Euro
Definition Conversion Conversion = Empfehlung klicken + Kauf innerhalb 12 Stunden Conversion = Empfehlung sehen + Kauf innerhalb 30 Tagen
Berechnung Umsatz aus Empfehlungen Der Umsatz aus Empfehlungen berechnet sich nur aus den Produkten, die der Kunde vorher als Empfehlung gesehen, geklickt und gekauft hat. Der Betrachtungszeitraum beträgt 12 Stunden. Der Umsatz aus Empfehlungen berechnet sich aus allen Produkten im Warenkorb. Der Betrachtungszeitraum beträgt 30 Tage.
Wert Umsatz aus Empfehlungen 10 Euro 110 Euro

Das Beispiel zeigt an den fett markierten Stellen deutliche Unterschiede in den Mess- und Berechnungsmethoden. Nur, wenn Sie diese Unterschiede kennen, können Sie sie auch in Ihrem Vergleich berücksichtigen. Ansonsten ist der Umsatz aus Empfehlungen nicht vergleichbar, da beide Werte auf zwei vollkommen unterschiedlichen Wegen zustande gekommen sind.

Learning 1: Messung und Berechnung der KPIs sollten in beiden Lösungen gleich sein. Unterschiede wirken sich auf das Ergebnis und damit die Vergleichbarkeit aus. Beachten Sie hierzu auch Tipp 4.

2 Beeinflussen sich die Recommendation Engines im Test gegenseitig?

Die bestehende Personalisierungslösung (Recommendation Engine A) ist voll in den Onlineshop integriert2 und spielt Empfehlungen auf vielen Flächen im Onlineshop aus. Recommendation Engine B spielt ihre Empfehlungen nur auf wenigen Flächen aus. Auf seinem Weg durch den Onlineshop sieht der Kunde Empfehlungen von Recommendation Engine A, obwohl er eigentlich in Testgruppe B ist. Die Präsenz der Empfehlungen von Lösung A kann die Messung verzerren, da sie den Kunden visuell beeinflussen.

Der eigentliche Test der beiden Lösungen findet auf der Produktdetailseite statt. Je nach der Zuordnung zur Testgruppe A oder B sieht der Kunde hier Empfehlungen der jeweiligen Recommendation Engine. Im Worst-Case-Szenario klickt Kunde B eine Empfehlung aus Lösung A z. B. auf der Startseite, gelangt auf eine Produktdetailseite, die von Lösung B bespielt wird. Kauft er den Artikel, wird der Umsatz Recommendation Engine B zugeschrieben. Wie groß ist der Einfluss dieses Faktors? Wie stark wirkt er sich auf das Ergebnis aus?

Learning 2: Es gibt immer eine Beeinflussung durch die bestehenden Recommendation Engine, da sie Empfehlungen auf vielen Flächen ausspielt. Das kann sich auf das Testergebnis auswirken.

Learning 3: Vergleichen Sie nur Ergebnisse von Reco-Flächen, auf denen Sie beide Lösungen gegeneinander testen. Minimieren Sie Messverzerrungen durch gegenseitige Beeinflussung der Recommendation Engines. Beachten Sie dazu auch Learning 1.

3 Beeinflusst die Art der technischen Integration der Recommendation Engines das Testergebnis?

Die bestehende Personalisierungslösung (Recommendation Engine A) ist voll in den Onlineshop integriert2 und spielt an vielen Stellen Empfehlungen aus. Für Testgruppe B werden diese mit Empfehlungen von Recommendation Engine B überschrieben. Das wirkt sich in zweifacher Hinsicht auf das Testergebnis aus:

  1. Recommendation Engine A „sieht“ nicht, dass die Empfehlungen ausgetauscht werden, da dies erst nach der Ausspielung ihrer Recommendations erfolgt. Bei 100% Ausspielung werden die Empfehlungen nur in 50% der Fälle tatsächlich angezeigt. Damit verschlechtern sich systembedingt die Klickraten und Conversion Rates.
  2. Der Austausch kann zu einer Zeitverzögerung bei der Anzeige der Empfehlungen führen, in der der Kunde entweder keine oder kurzzeitig Empfehlungen aus Lösung A sieht. Auch das kann sich auf das Testergebnis auswirken.

Learning 4: Die Art der technischen Integration der beiden Recommendation Engines beeinflusst das Messergebnis. Nur bei exakt gleicher Integration bzw. durch eine transparente Testdurchführung in Abstimmung mit beiden Anbietern kann dieser Einfluss minimiert werden.

Einfache Lösung: Holen Sie beide Anbieter mit ins Boot und greifen Sie auf deren Kompetenz und vor allem auf deren Erfahrung zurück. Planen Sie den Test gemeinsam und minimieren Sie dadurch mögliche Störfaktoren. Schaffen Sie sich eine saubere Datengrundlage für Ihre Entscheidung. Stellen Sie beiden Anbietern die Messdaten zur Verifizierung Ihrer Ergebnisse zur Verfügung.

7 weitere Tipps zum Testen von verschiedenen Recommendation Engines

Zusätzlich zu unseren Top-3 Tipps haben wir auf der Grundlage unserer langjährigen Erfahrung im Durchführen von A/B-Tests sieben weitere Hinweise für Sie gesammelt, die Sie kennen sollten:

Tipp 4: Beachten Sie, dass Empfehlungstypen mit der gleichen Logik (bzw. dem gleichen Namen) in beiden Lösungen ganz unterschiedlich berechnet werden könnten (ähnlich wie in Beispiel 1 erklärt). Zum Beispiel wählt Recommendation Engine A Topseller aus den Verkäufen der letzten drei Tage und Recommendation Engine B aus den Verkäufen der letzten 30 Tage aus.

Tipp 5: Schließen Sie aus, dass der gleiche Kunde den Onlineshop über verschiedene Endgeräte besucht und und bei verschiedenen Besuchen verschiedenen Testgruppen zugeordnet wird (Cross-Device Testing).

Tipp 6: Stellen Sie sicher, dass der gleiche Kunde bei mehreren Besuchen innerhalb des Betrachtungszeitraums immer der gleichen Testgruppe zugeordnet wird (Stichwort: Session-Reinheit).

Tipp 7: Lassen Sie während des Tests alle Empfehlungselemente unverändert, zum Beispiel das Aussehen, die Position, die Empfehlungslogik oder ähnliches.

Tipp 8: Achten Sie darauf, dass keine anderen Abteilungen parallel andere Tests durchführen, die sich gegenseitig beeinflussen und auf die Ergebnisse auswirken.

Tipp 9: Führen Sie nicht gleichzeitig Marketingaktionen durch, die sich auf die Ergebnisse auswirken. Beispielsweise kann sich eine Rabattaktion auf ein bestimmtes Sortiment während eines laufenden Tests verzerrend auswirken.

Tipp 10: Sammeln und messen Sie die Daten über ein neutrales Tool, damit beide Lösungen fair und unter gleichen Voraussetzungen verglichen werden können.

Fazit

Die Entscheidung, welche Personalisierungslösung Sie einsetzen, hat für Sie weitreichende Auswirkungen. Deshalb müssen Vergleichstests saubere Daten erzeugen, auf deren Basis Sie Äpfel mit Äpfeln vergleichen. Unsere Tipps zeigen Ihnen, wo Sie überall genau hinschauen sollten, um tatsächlich saubere Daten zu sammeln. Planen Sie Ihren Test sorgfältig, am besten natürlich mit Beteiligung der beiden Anbieter und verifizieren Sie Ihre Daten mit den Daten der Anbieter. Holen Sie Ihren Consultant mit ins Boot, er kennt die Stolperfallen der verschiedenen Lösungen aus dem FF.

Die Tipps aus diesem Artikel haben wir in einer übersichtlichen Checkliste zusammengefasst, die wir Ihnen gern auf Anfrage zusenden – direkt bei Ihrem Ansprechpartner bei prudsys oder über unser Kontaktformular.

 

Anmerkungen:
1 Wenn Sie eine Recommendation Engine einsetzen, führen Sie auch regelmäßig A/B-Tests mit Ihrer Personalisierungslösung durch. Dadurch erhalten Sie beispielsweise Antworten auf folgende Fragen:

  • Führen produktbezogene oder nutzerbezogene Empfehlungen zu mehr Käufen?
  • An welchen Stellen im Onlineshop bringen Empfehlungen die meisten Conversions?
  • Welche Überschrift über den Empfehlungen spricht meine Kunden am besten an?

Um solche A/B-Tests soll es in diesem Artikel nicht gehen. Hierzu finden Sie eine riesige Anzahl von Checklisten online.

2 Eine voll integrierte Recommendation Engine ist entweder ein fester Bestandteil der Shop-Software oder ein Service, der fest in die Shop-Prozesse (d.h. in Back- und Frontend) integriert ist und nicht einfach deaktiviert werden kann.

0 Kommentare

Ihr Kommentar

Sie haben weitere Anmerkungen zu diesem Thema?
Wir freuen uns auf eine spannende Diskussion.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.