Hinter den Kulissen des DATA-MINING-CUP

prudsys, prudsys RDE, Omnichannel, Handel, E-Commerce, Echtzeit, Personalisierung, Data-Mining-Cup, Hinter den Kulissen, 2015, Wettbewerb, Studenten, intelligente Datenanalyse

In diesem Jahr startete der DATA-MINING-CUP, der weltweit renommierte Studenten-Wettbewerb im Bereich der intelligenten Datenanalyse, in die 16. Runde. Seit Anfang März haben sich schon über 170 Teams aus rund 50 Ländern angemeldet. Bis zum 19. Mai können noch Lösungen eingereicht werden. Mit dem heutigen Artikel möchte ich euch einen Einblick in die Gestaltung und Evaluierung der DATA-MINING-CUP Aufgabe geben.

Bereits seit fünf Jahren widme ich mich als Head of Research bei der prudsys AG unter anderem der Aufgabenerstellung und -bewertung des DATA-MINING-CUP (kurz: DMC) und erlebe jedes Jahr spannende Momente. Um den gesamten Prozess der Gestaltung der DMC-Aufgabe vorzustellen, gehe ich anhand der einzelnen Etappen auf die jeweiligen Herausforderungen ein.

Ideenfindung für den DATA-MINING-CUP

Die Ideenfindung für die Wettbewerbsaufgabe, welche im April eines jeden Jahres veröffentlicht wird, ist ein kreativer Prozess, zu dem bereits im Dezember des Vorjahres die ersten Meetings bei der prudsys AG stattfinden. Dort wird ein Brainstorming der Forschungsabteilung zusammen mit den Kollegen aus dem Marketing durchgeführt. Oft sind dafür spannende neue Themen in der Roadmap der prudsys AG verankert, zu denen wir größere Datenmengen gesammelt haben. Regelmäßig beauftragt uns auch ein Kunden-Unternehmen mit der Analyse eines kniffligen Data-Mining-Problems. Im Fokus steht für uns dabei immer die Echtheit der Daten, die Relevanz für die strategische Ausrichtung der Firma sowie Trends und natürlich der Data-Mining-Hintergrund.

Aufbereitung der Daten

Im Januar und Februar werden die Daten für die DATA-MINING-CUP Aufgabe gesammelt, aufbereitet, anonymisiert und Datenschutzerklärungen mit den jeweiligen Daten-Providern abgeschlossen. Hier stellen wir uns ganz besonderen Herausforderungen. So lassen sich einige Datenmengen (z.B. Logfiles von mehreren hundert GB) nicht in angemessener Zeit auf einem lokalen Rechner aufbereiten. Wir prüfen dann auf eine potenzielle Parallelisierung bei der Bearbeitung der Daten und greifen notfalls auch auf Cluster-Architekturen innerhalb der prudsys AG zurück, über die Rechenprozesse in spürbar kürzerer Zeit abgeschlossen werden können.

Formulierung der Aufgabenstellung

Zwischen Ende Februar und Anfang März wird die Aufgabenstellung formuliert, wobei besonderes Augenmerk auf Konsistenz und detaillierte Darstellung der bereitgestellten Informationen gelegt wird. Auch sollte die Form der Abgabe der Lösung exakt in der Aufgabenstellung dargelegt sein. Hier dürfen keine Fehler auftreten, die eine sinnvolle Bearbeitung der Aufgabe unmöglich machen. Die Fehlerfunktion, die wesentlich für die Bewertung der eingereichten Lösungen ist, wird ebenso in diesem Schritt entworfen, mit der Anforderung die besten Lösungen am Ende des Wettbewerbs auf dem Siegertreppchen wiederzufinden.

 

Erstellung von Testlösungen und Veröffentlichung der Aufgabe

Letztlich ist die gesamte DATA-MINING-CUP Aufgabe keinen Cent wert, wenn nicht mittels Anwendung von Data-Mining-Methoden eine gute Lösung erstellt werden kann. Das heißt, es muss sichergestellt werden, dass triviale Lösungsansätze oder gar zufällige Lösungen durch Anwendung intelligenter Datenanalyse und entsprechender Algorithmen übertroffen werden. Der Großteil des Monats März dient somit dem Testen der Aufgabe. Zumeist nutzen wir diesen Arbeitsschritt für einen internen Contest, um den besten Data-Miner unter den Mitarbeitern der prudsys AG zu krönen. Üblicherweise wird die Aufgabe Ende März in die englische Sprache übersetzt und einer abschließenden Prüfung unterzogen. Anfang April stellen wir die Aufgabe, die bereits mit Spannung erwartet wird, den Studenten über unsere Website als Download bereit. Der Startschuss für den DATA-MINING-CUP fällt.

Der Countdown läuft – Einreichung der Lösungen

Die Studenten-Teams haben insgesamt sechs Wochen Zeit, um eine Lösung für den DATA-MINING-CUP Wettbewerb zu erarbeiten. Für die Einreichung der Lösungen per E-Mail implementieren wir ein Skript, das bei Empfang der E-Mail das Format des Inhalts automatisiert auf Korrektheit prüft und eine entsprechende Meldung an den Teamleiter zurückliefert. Werden die Vorgaben aus der Aufgabenstellung nicht eingehalten, wird entsprechend darauf hingewiesen. Spannend wird es insbesondere unmittelbar vor Abgabetermin, wenn die Lösungen im Sekunden-Takt eintreffen. Die Lösungen werden dann mittels der in der Aufgabenstellung aufgeführten Fehlerfunktion bewertet bzw. verglichen. Die zehn besten Teams des Wettbewerbs werden zum prudsys personalization summit (for retail) nach Berlin eingeladen. Anreise, Eintritt zum Event und Übernachtung im andel‘s Hotel Berlin werden für die nationalen und internationalen Teams von der prudsys AG gesponsert. Die drei besten Teams erhalten neben Ruhm und Ehre außerdem jeweils ein Preisgeld von bis zu 2.000€.

Was die Gewinner des letzten Jahres, Team 1 der Iowa State University, über ihre Teilnahme am DATA-MINING-CUP 2014 sagen, seht ihr in diesem Video:

Fazit

Ich hoffe, ich konnte mit dem vorliegenden Artikel einen guten Einblick in die Prozesse hinter den Kulissen des DATA-MINING-CUP Wettbewerbs geben. In die Erstellung der Aufgabe wird meist genauso viel Aufwand investiert, wie in die Erarbeitung einer guten Lösung. Das Ganze macht mir unheimlich viel Spaß und ich freue mich über die weltweite Resonanz. Ich bin jedes Mal gespannt, wie gut die Teilnehmer die Aufgabe bewältigen und welche Teams sich letztlich eine Einladung zum prudsys personalization summit (for retail) sowie das Preisgeld verdienen.

In diesem Sinne – wir sehen uns am 29. & 30 Juni in Berlin!

Weiterführende Links:

Digging for Gold – Meisterschaft der Nachwuchs-Experten beim DATA-MINING-CUP

Autor: André Müller | prudsys AG

0 Kommentare

Dein Kommentar

Want to join the discussion?
Feel free to contribute!

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *