Aggressief gedrag voorspellen met text mining bij Parnassia

Ook de Parnassia groep ziet de potentie van data science om de zorg te verbeteren. Rosa Meijer, data scientist bij Parnassia, vertelt op Life Sciences & Health 010, over de kansen en uitdagingen van data science binnen de GGZ.
Aan zowel kansen als uitdagingen lijkt geen gebrek. Kansen liggen onder meer bij het kunnen clusteren van patiënten op basis van data, en het voorspellen van gedrag, (behandel)uitkomsten, en gemiste diagnoses, voor deze patiëntenclusters. Meijer noemt als treffend voorbeeld haar "model dat op basis van de tekst in het dossier een voorspelling doet of een patiënt agressief gedrag gaat vertonen."
Maar ook aan uitdagingen is geen gebrek. Zo voorspelt het huidige model soms nog te vaak ten onrechte een incident (dat wil zeggen, een fout-positieve voorspelling). Een belangrijk onderliggend probleem hierbij is de kwaliteit en kwantiteit van de data. Veel data is beschikbaar als vrije tekst, en de bijbehorende patiëntkenmerken zijn niet altijd goed vastgelegd in de database. Dat maakt het lastig een (Natural Language Processing, NLP) model te trainen dat deze text als input kan gebruiken.
Ik denk dat dit laatste één van de grote dilemma's is bij data science in de zorg. Om succesvol te kunnen zijn heb je data nodig van goede kwaliteit, en liefst in grote hoeveelheden. Maar al die data moet eerst verzameld en geregistreerd worden, terwijl de zorg juist gebukt gaat onder grote registratiedruk...
Gelukkig zijn hiervoor verschillende oplossingen mogelijk. Zo kan data science, bijvoorbeeld via gebruiksvriendelijke apps, de registratie van data vereenvoudigen of zelfs automatiseren, en vermijden dat zaken dubbel geregistreerd moeten worden. Ook kan het soms voldoende zijn kenmerken voor een steekproef van patiënten te registreren, en op basis hiervan het model te trainen.
Als de steekproef op de juiste wijze is getrokken, kan het model worden toegepast op de volledige patiëntenpopulatie. In dat geval zal de foutmarge weliswaar groter zijn, maar vaak is het model toch bruikbaar, en uiteindelijk zal het model toch voorspellingen moeten genereren voor (nieuwe) patiënten die geen onderdeel zijn van de trainingspopulatie. Die steekproef kan dan soms ook nog weer worden geoptimaliseerd, door bijvoorbeeld oversampling. Dat betekent dat je de registratie concentreert op de (verwachte) extremere cases.
Tenslotte kan ook imputatie soms een oplossing bieden bij een onvolledige registratie. Met imputatie vul je ontbrekende gegevens in op basis van de wél bekende gegevens. Dat is met name interessant als er voor een beperkt aantal patiënten in de data bepaalde kenmerken ontbreken.