
De BPI Challenge: Data wordt belangeloos beschikbaar gesteld om te kunnen innoveren op het gebied van Process Analytics.
Boudewijn van Dongen is hoogleraar informatica en voorzitter van het Process Analytics initiatief aan de Technische Universiteit Eindhoven (TU / e). ‘Process Analytics’ kan worden beschouwd als een combinatie van industrieel ontwerpen en ‘datamining’, waarbij onderzoekers met de onderliggende data in de hand naar bedrijfsprocessen kijken.
Een proces wordt in Boudewijns vakgebied beschouwd als een activiteit, die door individuen wordt uitgevoerd, om een bepaald doel te bereiken. Verzekeringsmaatschappijen hebben bijvoorbeeld administratieve processen nodig om verzekeringsclaims af te handelen en op een luchthaven zijn logistieke processen nodig voor de afhandeling van ingecheckte bagage. Data van al deze processen worden vastgelegd als ‘eventdata’. In het voorbeeld van een luchthaven resulteert het ontvangen en bezorgen van een tas in het vastleggen van gegevens zoals het tijdstip waarop de tas werd ontvangen (tijdstempel), wie of welke machine de tas heeft ontvangen en voor welke vlucht deze is ingecheckt (context). Al deze gegevens worden verzameld in logboeken, en deze kunnen worden gebruikt om het onderliggende proces te onderzoeken en te analyseren. Zo kan worden bepaald of zulke processen efficiënt genoeg wordt uitgevoerd.
Boudewijn was een van de organisatoren van de Business Process Intelligence Challenge 2019. Dit evenement draait om het oplossen van casussen door middel van datamining. De deelnemers, vaak onderzoekers of medewerkers van consultancybedrijven, werken met datasets die door de industrie zelf beschikbaar worden gesteld. De datasets die voor deze Challenge zijn gebruikt, worden elk jaar gepubliceerd op 4TU.ResearchData in de collectie ‘IEEE Task Force on Process Mining - Event Logs’.
We spraken met Boudewijn over de data die deel uitmaken van deze Challenge, de betrokkenheid van de industrie en zijn eigen beweegredenen.
Alles begon toen Boudewijn nog deel uitmaakte van de onderzoeksgroep van Wil van der Aalst. Bedrijven leverden die onderzoeksgroep vaak datasets die werden gebruikt voor het opstellen en oplossen van casestudy's. Door het maken van nieuwe algoritmes werden problemen opgelost, werd een process geoptimaliseerd of werden de data gebruikt om juist een al bestaand algoritme te testen. Na de publicatie van de casestudies bleken heel veel onderzoekers geïnteresseerd in de gebruikte data.
"Toen we de data voor het eerst publiceerden, reageerden onderzoekers vaak dat de gegevens niet klopten. Onze datasets klopten wel, maar de technieken die werden gebruikt om ze te lezen waren er waarschijnlijk nog niet klaar voor. Na een aantal jaar vonden we het tijd om hier iets aan te doen en verzonnen we de Challenge.’’
Boudewijn en zijn collega's besloten eenmaal per jaar een dataset te publiceren van een bedrijf of een andere relevante organisatie die kon worden gebruikt voor het oplossen van een probleem. Dit geeft onderzoekers de mogelijkheid om nieuwe algoritmen te ontwikkelen en ze te testen op echte datasets. Zo kan de toepasbaarheid van de algoritmen worden aangetoond. De beste deelnemers worden beloond met een prijs.
“De challenge dwingt onderzoekers ervoor te zorgen dat nieuwe technieken, nieuwe ontwikkelingen of nieuwe ideeën worden toegepast op praktische voorbeelden. Ik ben heel erg geïnteresseerd in pure theoretische en fundamentele informatica, maar wanneer je met toegepaste problematiek bezig bent, is het natuurlijk belangrijk om de toepasbaarheid op praktijkgevallen te kunnen aantonen."
De onderzoeksgroep van Boudewijn heeft besloten om hun data openbaar te maken via 4TU.ResearchData. De datasets hebben een eigen DOI, zodat ze beter vindbaar zijn.
“Voor ons was het erg belangrijk om een DOI te kunnen toewijzen aan de dataset, maar ook om een DOI te kunnen reserveren nog voordat we de set publiceren. 4TU.ResearchData maakt het mogelijk om onze gegevens op een duurzame manier en voor de lange termijn te bewaren. Zo zijn de datasets voor iedereen beschikbaar, ook na de Challenge.”
De collectie van Boudewijns team groeit voortdurend en niet alleen met de datasets die voor de Challenge zijn gebruikt. De IEEE Task Force on Process Mining - Event Logs is een plek geworden waar onderzoekers van over de hele wereld hun event logs beschikbaar stellen. Dit kunnen echte datasets zijn, maar ook kunstmatige sets die zijn gemaakt om algoritmen te testen.
“De collectie wordt vaak gebruikt als benchmark of om te bewijzen dat bepaalde algoritmen beter werken dan anderen. Het is echt een snel groeiende verzameling aan sets die veel wordt gebruikt in onze onderzoeksgemeenschap. Helaas wordt het werk echter niet altijd correct geciteerd met de bijbehorende DOI. ”
In het organiseren van de Challenge zit veel werk. Er is veel communicatie nodig met de bedrijven die de datasets aanleveren en ook met de instanties die de sets vervolgens gereedmaken voor gebruik. Voordeel hierbij is dat er in het vakgebied van Process Analytics een standaard IEEE eXtensible Event Stream (XES) format bestaat. Dit maakt het mogelijk om de semantiek van de data te begrijpen en ze interoperabel te maken. Voordat de datasets gebruikt en gepubliceerd kunnen worden, is er echter nog meer nodig. Boudewijn somt drie belangrijke voorwaarden op:
- “Iemand binnen het benaderde bedrijf moet de voordelen zien van het delen van data voor de Challenge. In principe krijgt het bedrijf een gratis oplossing voor een relevant probleem dat bij hen speelt.’’
- "Je hebt ook een manager hoog in de organisatie nodig, op het niveau van de CEO, die de waarde van deelname aan de Challenge inziet en die bereid is om zich hiervoor in te zetten."
- “Daarnaast is goede anonimisering van de data erg belangrijk. De data die wij publiceren, komen niet direct van de machines af. Het zijn dus datasets die al bewerkt zijn en dus soms ook persoonlijke gegevens bevatten. Persoonlijke onderdelen moeten worden geanonimiseerd, maar wel op zo’n manier dat ze ook nog te categoriseren zijn. Het CBS heeft hier richtlijnen voor. We vragen elk deelnemend bedrijf om deze richtlijnen te volgen bij het opmaken van datasets. Soms hebben ze hierbij extra hulp nodig, maar vaak gaat het vanzelf goed.’’
Het hele proces, van het eerste contact met de bedrijven tot het opleveren van de datasets voor de Challenge, duurt ongeveer negen maanden. Wat motiveert Boudewijn om hier zo veel tijd in te steken?
“Bij het doen van onderzoek draait alles om samenwerking. Alleen dan kunnen we tot nieuwe ontwikkelingen en ideeën komen. Als de bedrijven alle data voor zichzelf houden, kunnen er nooit zulke mooie dingen ontstaan. Dit betekent echter wel dat sommige mensen het voortouw moeten nemen bij het organiseren van de data-conferenties. Dat doe ik graag, en zo draagt iedereen een steentje bij. Anderen doen dit bijvoorbeeld weer door editor te zijn van een journal of door hun eigen data openbaar te maken. Al deze initiatieven maken onderdeel uit van het onderzoeksproces.”
Ter informatie:
Als u op zoek bent naar Event Logs voor uw Process Analytics-project, bezoek dan de IEEE eXtensible Event Stream (XES). Als u een van de datasets gebruikt, zorg er dan wel voor dat u deze citeert volgens de instructie. U kunt klikken op “How to cite this item”. Vergeet niet de bijbehorende DOI te vermelden.
Voorbeeld van een geciteerde dataset:
van Dongen, B.F. (Boudewijn); Borchert, F. (Florian) (2018) BPI Challenge 2018. Technische Universiteit Eindhoven. Dataset. doi.org/10.4121/uuid:3301445f-95e8-4ff0-98a4-901f1f204972
Auteur: Paula Martinez Lavanchy