Wat is Data Science nu precies?

Als je zelf data scientist bent of wilt worden, of op zoek bent naar een data scientist voor je organisatie, is het belangrijk om helder te hebben wat data science precies is. Over dit laatste is veel geschreven en gediscussieerd. Dat is op zich niet verwonderlijk omdat zowel "data" als "science" verwijzen naar veelomvattende en abstracte begrippen. En ook omdat er vanuit verschillende velden en disciplines belangstelling is voor data science. Elke discipline, bijvoorbeeld de wetenschap, het bedrijfsleven, statistici, of de ICT, geeft dan invulling aan het begrip vanuit de eigen invalshoek. Zo wordt door statistici data science soms simpelweg beschouwd als een nieuwe naam voor (toegepaste) statistiek. Anderen zien in data science juist de belichaming van een nieuw wetenschappelijk paradigma, waarin data en rekenkracht, naast theorie en de experimentele methode, leidend zijn.
Letterlijk zou je kunnen zeggen dat data science gaat om de wetenschap die zich richt op data. Maar met zo'n abstracte definitie schieten we helaas weinig op. Hoewel... Laten we niet te snel over het woord "wetenschap" heen springen. Je zou, ten onrechte, kunnen vermoeden dat data science zich alleen binnen de wetenschappelijke wereld afspeelt. Maar dat is niet het geval. Zoek in een willekeurige vacaturebank naar functies voor data scientists, en je zult zien dat het overgrote deel gaat over functies in het bedrijfsleven.
Waarom dan "wetenschap"? Kort gezegd, omdat data science beoogt op een systematische manier bruikbare informatie en kennis uit data te extraheren, gebaseerd op wetenschappelijke methoden. Daarmee hebben we dan gelijk een minder abstracte definitie. De wetenschappelijke methode betekent dat voorspellingen, het formuleren en toetsen van hypotheses en deductie centraal staan. Dus niet: het bepalen van een historische trend van zorgkosten. Maar wel: proberen te voorspellen hoe deze zich de komende jaren zal voortzetten, wat de belangrijkste oorzaken zijn, en wat de verwachte impact is op deze trend van verschillende maatregelen die aangrijpen op de oorzaken.
Data science als statistiek + informatica
Vanuit praktisch oogpunt zou je kunnen zeggen dat data science een interdisciplinair veld is, waarin meerdere disciplines worden verenigd. Welke disciplines? Op dat punt onstaat gelijk al discussie. Sommige auteurs zien data science als combinatie van statistiek, en informatica (computerwetenschap). De gedachte hierachter is dat door de sterke toename van de hoeveelheid data, het soms een uitdaging (of nagenoeg onmogelijk) is deze met "traditionele" statistiek te lijf te gaan.
Vroeger had je bijvoorbeeld een declaratie of verrichtingendatabase met enkele duizenden patiënten, en van elke patiënt enkele honderden kenmerken (leeftijd, geslacht, diagnosecode etc). Hier kon je goed uit de voeten met traditionele statistische methodes, zoals een t-test, ANOVA, of lineaire regressie. Ook liet de data zich prima verwerken op een enkele PC of laptop.
Maar tegenwoordig heb je van deze patiënten gedetailleerde gegevens over al hun contacten met de zorg, verspreid over allerlei organisaties, en vaak opgeslagen in een veelvoud aan formaten. Soms zijn deze gegevens helder gestructureerd (bijvoorbeeld declaratiegegevens), maar vaak ontbreekt de structuur volledig, zoals bij vrije (mogelijk handgeschreven!) tekst in het medisch dossier, gedicteerde (audio) gegevens, beeldmateriaal (scans), RFID data, of data afkomstig van medische apparatuur en apps.
Om deze data op een zinvolle en efficiënte manier te kunnen analyseren heb je kennis nodig van de systemen en databases waarin de data zijn opgeslagen, en de bijbehorende communicatieprotocollen. De analyse van ongestructureerde data (vrije tekst en beeldmateriaal) vergt vaak meer rekencapaciteit dan een enkele PC of server kan bieden, waardoor kennis nodig is van netwerk/cloudarchitectuur. En omdat het om patiëntgegevens gaat, is het soms niet mogelijk de oorspronkelijke data op een centrale plek op te slaan, en zijn in plaats daarvan systemen vereist die geanonimiseerde koppelingen mogelijk maken en/of data synthetiseren.
Met de toename van de hoeveelheid data, zien we vaak naast een groter aandeel ongestructureerde data (tekst/beeld), ook een groter aandeel ontbrekende of foutieve data. Hoewel statistische methoden als multiple imputation en outlier detection hiervoor een (imperfecte) oplossing kunnen bieden, vergen dergelijke methoden opnieuw veel rekenkracht en een krachtige ICT-infrastructuur.
Data science als interdisciplinair veld
Voor veel data scientists is data science echter meer dan de combinatie van statistiek en informatica. Zijn voegen een derde element (discipline) toe: domein-specifieke kennis. Om de juiste analysevragen te stellen, de optimale databronnen en methodes te kiezen, en resultaten juist te interpreteren, heb je een grondige inhoudelijke kennis nodig van het onderwerp.
In de zorg kun je dan denken aan medische kennis, kennis van kennis van classificatiesystemen zoals DBC's, SNOMED en ICD-10, kennis van epidemiologie, kwaliteit van zorg, gezondheidseconomie en logistiek, de wijze waarop de zorg landelijk of regionaal is georganiseerd, en kennis van de wijze waarop de eigen organisatie functioneert. Zonder deze kennis loop je het risico dat de uiteindelijke impact van een analyse, model, of product beperkt is. Bijvoorbeeld omdat het probleem waar je je op richt niet het belangrijkste probleem is waar jouw organisatie zich mee bezighoudt op dit moment. Of omdat je denkt een geweldig nieuw inzicht te hebben gecreëerd terwijl dat al lang bekend is en uitgebreid beschreven in de vakliteratuur.
Soms wordt het derde element van data science op een abstracter niveau geformuleerd. Niet zozeer vakinhoudelijke kennis van een bepaald werkveld is belangrijk, maar meer in algemene zin het vermogen om praktische problemen te vertalen naar analytische problemen. Naarmate een data scientist meer ervaring heeft zal zij beter en/of sneller in staat zijn een concreet probleem waar bijvoorbeeld een ziekenhuis mee worstelt (optimaliseren van OK-capaciteit) te vertalen naar een analytisch probleem (voorspellen patiëntenstromen op basis van patronen in EPD, landelijke trends en seizoensinvloeden). Ook het vermogen kritisch te denken, creatieve oplossingen te vinden, en effectief te communiceren met inhoudelijke experts en eindgebruikers passen binnen dit derde element.
Sommige data scientists, tenslotte, zien data science als een nog veel breder interdisciplinair veld, waarin statistiek, wiskunde, informatica, communicatie, grafisch ontwerpen, informatie visualisatie, mens-computer interactie, sociologie en management samenkomen.
Ben jij zelf data scientist?
Je begrijpt inmiddels waarschijnlijk dat de meningen over wat data science nu precies is, uitleenlopen. Misschien hanteerde je zelf wel een hele andere definitie. Of misschien noemde je jezelf tot dusverre geen data scientist, maar realiseer je je dat je achtergrond en werkzaamheden heel goed binnen bovenstaande definities van data science passen. Of misschien realiseer je je dat je binnen een bepaalde discipline, zoals ICT of statistiek, veel kennis en ervaring hebt, en dat het interessant is je verder te ontwikkelen in de breedte binnen de andere onderdelen van data science. Heb je veel medische of zorg-inhoudelijke kennis, en interesse voor statistiek of ICT? Dan zou je bijvoorbeeld een mentor kunnen zoeken die je verder wegwijs kan maken binnen deze domeinen, om uiteindelijk clinical data scientist te worden.