Martine Jansen
Epsilon Uitgaven, Amsterdam, 2025, ISBN 978 90 5041 211 7
Er zijn verschillende toepassingsgebieden in de wiskunde, die elk hun eigen denkwereld hebben, hun eigen jargon en hun eigen wiskundige formularium. Zo belichten we in dit nummer van Uitwiskeling de speltheorie. Maar er is bijvoorbeeld ook de actuariële wiskunde, de medische wiskunde en de forensische statistiek. Over dit laatste onderwerp heeft Martine Jansen, institutional researcher aan Fontys Hogeschool, het uitgebreid in zebraboekje 75.

Forensisch onderzoek helpt bij het interpreteren en het naar waarde schatten van bewijsmateriaal in strafrechterlijk onderzoek. Bewijsmatriaal kan in vingerafdrukken zitten, in bloed- of DNA-sporen, in stukjes van materialen die op de huid en in de kleding van verdachten gevonden worden enz. Maar er kan ook gebruik gemaakt worden van andere meer dubieuze aanwijzingen, zoals een (al of niet waarheidsgetrouwe) bekentenis of een ondervraging met een leugendetector.
Het grootste gedeelte van dit zebraboekje gaat over Bayesiaanse statistiek. Hier spelen de begrippen a priori kansverhouding en a posteriori kansverhouding maar ook de likelihood ratio een belangrijke rol.
Bij een misdrijf wordt de a priori kansverhouding ingeschat door de rechter vooraleer hij een onderzoek opstart. Hij formuleert twee hypothesen (bijvoorbeeld ”X is schuldig’ en ”X is onschuldig’) en hij bepaalt objectief hoe de kansen op deze hypothesen zich verhouden. Dit quotiënt noemen we de a priori kansverhouding.
Vervolgens komt de forensische statisticus op het toneel. Om te vermijden dat deze deskundige zich tijdens het onderzoek laat beïnvloeden, komt hij niet in contact met personen die te maken hebben met het misdrijf en bezoekt hij ook de plaats van het delict niet. De forensische statisticus krijgt het verzamelde bewijsmateriaal van de rechercheurs en hij bepaalt in hoever dit bewijsmateriaal de ene dan wel de andere hypothese ondersteunt. De bevindingen van de forensische statisticus worden gebundeld in één getal: de likelihood ratio. Om dit getal te bepalen, moet hij bijvoorbeeld een vergelijkende studie doen door middel van databanken van bloedtypen, van DNA-afwijkingen, … en moet hij zo nodig producenten van bepaalde materialen raadplegen om een zicht te krijgen op de verspreiding van hun product.
Tot slot komt de rechter weer aan bod. Hij bepaalt de a posteriori kansverhouding door het product te nemen van de a priori kansverhouding en de likelihood ratio. Deze verhouding wordt meegenomen naar de rechtbank.
Voorbeeld
We geven hiervan een voorbeeld waarbij de realiteitszin eventjes ondergeschikt is aan de de duidelijkheid. Het voorbeeld is gebaseerd op een oefening voor de lezer in het zebraboekje.
Stel dat er een moord wordt gepleegd op een afgesloten trein waarop er naast de betreurde nog 50 mannen aanwezig zijn en 100 vrouwen. De rechter wil in eerste instantie enkel het geslacht van de misdadiger kennen. De twee hypothesen zijn:
\(H_m\): De moordenaar is een man.
\(H_v\): De moordenaar is een vrouw.
Rekening houdend met het geslacht van de passagiers zijn de a priori kansen op de twee hypothesen:
\(\textrm{P}(H_m)=\frac{50}{150}=\frac{1}{3}\)
\(\textrm{P}(H_v)=\frac{100}{150}=\frac{2}{3}.\)
en is de a priori kansverhouding van hypothese \(H_m\) ten opzichte van hypothese \(H_v\)
\( \frac{\textrm{P}(H_m)}{\textrm{P}(H_v)}=\frac{1}{2}.\)
Het is niet wenselijk dat deze informatie doorgegeven wordt aan de forensische statisticus. Hij krijgt alleen de informatie over het sporenonderzoek.
Zo is er in de buurt van het lijk een afdruk van een schoen met schoenmaat 43 gevonden. Er wordt aangenomen dat deze schoen van de moordenaar is. De schoenen van de passagiers zijn niet onderzocht. Met de karige informatie van de schoenmaat kan de statisticus aan de slag. Hij zoekt uit dat 3% van de vrouwen deze schoenmaat heeft. Bij mannen is deze schoenmaat meer ‘likely’. Ze komt bij 30% van de mannen voor. Door de twee likelihoods te delen, vindt hij een likelihood ratio:
\(\frac{\textrm{P(schoenmaat is 43}|H_m)}{\textrm{P(schoenmaat is 43}|H_v)}=\frac{0,30}{0,03}=\frac{10}{1}. \)
De likelihood ratio is dus de verhouding van de kansen op het verschijnen van het bewijsmateriaal gesteld dat de eerste hypothese (voor de teller) resp. de tweede hypothese (voor de noemer) waar is.
Vervolgens is de rechter weer aan zet. Hij berekent de a posteriori kansverhouding
\(\frac{\textrm{P(} H_m \textrm{|schoenmaat is 43)}}{\textrm{P(} H_v \textrm{|schoenmaat is 43)}}\)
met andere woorden de verhouding van de kansen op de twee hypotheses gesteld dat het specifieke bewijsmateriaal aanwezig is. Hij doet dit door de a priori kansverhouding te vermenigvuldigen met de likelihood ratio:
\(\frac{1}{2} \cdot \frac{10}{1}=\frac{5}{1}\).
Besluit? Vooraf was de verdenking van een man half zo groot als de verdenking van een vrouw. Na het onderzoek wordt de verdenking van een man vijf keer zo groot als die van een vrouw. Deze bijstelling kwam er door de bewijskracht van de schoenafdruk in een getal om te zetten: de likelihood ratio.
Wiskundige achtergrond
Essentieel in deze redenering is de formule:
\(\begin{align*}
&\textrm{ a priori kansverhouding} \cdot \textrm{likelihood ratio}\\
=&\textrm{ a posteriori kansverhouding}
\end{align*}\)
of
\(\frac{\textrm{P}(H_m)}{\textrm{P}(H_v)} \cdot \frac{\textrm{P(schoenmaat is 43}|H_m)}{\textrm{P(schoenmaat is 43}|H_v)}\)
\(=\frac{\textrm{P(} H_m \textrm{|schoenmaat is 43)}}{\textrm{P(} H_v \textrm{|schoenmaat is 43)}}\)
of nog meer ingekort
\(\frac{\textrm{P}(H_m)}{\textrm{P}(H_v)} \cdot \frac{\textrm{P}(S|H_m)}{\textrm{P}(S|H_v)}=\frac{\textrm{P}(H_m|S)}{\textrm{P}(H_v|S)}.\)
Deze formule komt meestal niet in deze vorm in onze handboeken over kansrekenen voor. Deze variant op de regel van Bayes is minder eenvoudig maar ze is cruciaal in de forensische statistiek.
We leiden deze formule hieronder af door gebruik te maken van de regel van Bayes in de vorm die ons beter bekend is:
\(\textrm{P(} H \textrm{|S)}=\frac{\textrm{P(} S \textrm{|H)}\cdot \textrm{P(H)}}{\textrm{P(S)}}.\)
Deze formule wordt in de eerste stap zowel in de teller als in de noemer toegepast.
\(\begin{align*}
\frac{\textrm{P}(H_m|S)}{\textrm{P}(H_v|S)} =& \cfrac{\cfrac{\textrm{P}(S|H_m) \cdot \textrm{P}(H_m)}{\textrm{P}(S)}}{\cfrac{\textrm{P}(S|H_v) \cdot \textrm{P}(H_v)}{\textrm{P}(S)}}\\
=& \frac{\textrm{P}(S|H_m) \cdot \textrm{P}(H_m)}{\textrm{P}(S|H_v) \cdot \textrm{P}(H_v)}\\
=& \frac{\textrm{P}(H_m)}{\textrm{P}(H_v)} \cdot \frac{\textrm{P}(S|H_m)}{\textrm{P}(S|H_v)}\\
\end{align*}\)
Besluit
Dit boekje leest als een trein, vooral omdat het zo goed gestoffeerd is met realistische data. De voetnoten verwijzen duidelijk naar officiële bronnen zoals de DNA-databank en het Nederlands Forensisch Instituut.
Voor leerlingen (en ook voor leerkrachten) is het interessant dat de tekst doorweven is met vragen waarvoor het boekje even moet opzij gelegd worden alvorens verder te lezen. Na een korte denkpauze volgt het antwoord op de vraag in de tekst.
Een iets moeilijkere passage is die over de t-toets. Hier zal de Vlaamse leerling wellicht wat assistentie voor kunnen gebruiken. Maar deze passage laat nu ook duidelijk de veelzijdigheid van de aanpak in de forensische statistiek zien.