4.1 Basismodel zonder landschapskenmerken

We starten met een basismodel. Dit is een model waarin enkel de variabelen zitten die louter het gevolg zijn van de wijze van inventariseren: de datum, het tijdstip t.o.v. zonsondergang, de locatie en de afstand tot de dichtste buur.

De datum vangt mogelijke weersinvloeden op voor het geval die belangrijk zouden kunnen zijn. Volgens fig. 2.9 blijkt de datum weinig invloed te hebben. De puntschattingen van het relatief effect liggen allemaal vrij dicht bij 1 waarbij 1 staat voor een “gemiddelde” dag. Het is hierdoor geen probleem om de inventarisaties over meerdere dagen uit te voeren.

Figuur 2.9: Relatief effect van de datum op het aantal waarnemingen voor het basismodel

Tijdens de verkenning van de gegevens hadden we reeds gezien dat er een duidelijk effect is van het tijdstip t.o.v. zonsondergang op de kans op waarnemen van Steenuil. Vandaar dat we dit effect aan het model toevoegen. Fig. 2.10 bevestigt dit belang. Bij de vroegste waarnemingen (meer dan 30 minuten voor zonsondergang) nemen we slechts de helft van het gemiddeld aantal Steenuilen waar. Vanaf 30 minuten voor zonsondergang begint het aantal waarnemingen toe te nemen. Rond 30 minuten na zonsondergang berekenen we het globale gemiddelde. De waarnemingen blijven echter toenemen tot 90 minuten na zonsondergang waarna dit stabiliseert. Op basis van fig. 2.10 kunnen we aanbevelen om ten vroegeste pas 30 minuten, en bij voorkeur pas 90 minuten, na zonsondergang te starten met de inventarisaties.

Figuur 2.10: Relatief effect van het tijdstip op het aantal waarnemingen voor het basismodel

De afstand tot de dichtste Steenuil uit een naburige rastercel laat toe om de onderlinge aantrekking en afstoting in rekening te brengen. Steenuilen zijn territoriaal en hun territorium is groter dan de afmetingen van de rastercellen. We kunnen daarom verwachten dat er in de onmiddellijke omgeving van een waarneming minder andere waarnemingen zijn. Dit is de dip in fig. 2.11 rond 300 meter. Anderzijds komen de territoria van de Steenuil wel min of meer geclusterd voor. Als gevolg hiervan verwachten we op middellange afstand juist meer waarnemingen. We zien een kleine piek rond 800 meter (fig. 2.11).

Figuur 2.11: Relatief effect van afstand tot dichtste buur voor het basismodel

De locatie, onder de vorm van het volledige raster, vangt het ruimtelijke patroon over het volledige gebied op. In het basismodel zal deze term de grote lijnen van het landschapseffect bevatten. Volgens fig. 2.12 zijn er minder Steenuilen in het (zuid)oosten van het gebied en meer in het (noord)westen.

Figuur 2.12: Relatieve ruimtelijk effect voor het basismodel

Om een idee te krijgen van de kwaliteit van dit model gebruiken we een reciever operator characteristic-curve (ROC-curve). Hiervoor passen we de modeloutput aan van een schatting van het aantal steenuilwaarnemingen per rastercel per bezoek naar de kans \(p\) om Steenuil aan te treffen tijdens het bezoek aan een rastercel. Wanneer we een bepaalde drempelwaarde \(d\) gebruiken, kunnen we stellen dat het model voorspelt dat Steenuil aanwezig is als \(p \ge d\) en afwezig als \(p < d\). Tabel 2.1 geeft de mogelijke combinaties wanneer we de voorspellingen (kolommen) vergelijken met de observaties (rijen). Bij een perfect model komen enkel de combinaties op de diagonaal voor. In de praktijk zijn een aantal vals negatieve en vals positieve voorspellingen niet te vermijden. Op basis van deze tabel kunnen we twee belangrijke kwaliteitsmaten bepalen: 1) het aandeel correct positief (verhouding tussen correct positief en totaal aanwezig, \(TPR\), true positive rate) en 2) het aandeel vals positief (verhouding tussen vals positief en totaal afwezig, \(FPR\), false positive rate).

Tabel 2.1: Classificatiemogelijkheden
Observatie \(p < d\) \(p \ge d\)
afwezig correct negatief vals positief
aanwezig vals negatief correct positief

Uiteraard zullen deze waarden sterk afhangen van de gekozen \(d\). Bij \(d = 0\) is steeds aan \(p \ge 0\) voldaan. Alle aanwezigheden worden dan correct positief en alle aanwezigheden vals negatief, met als gevolg dat \(TPR = 1\) en \(FPR = 1\). Herhalen we dit voor \(d = 1\) is steeds \(p < d\), waardoor \(TPR = 0\) en \(FPR = 0\). Deze twee punten zijn op zich niet interessant, ze vormen enkel de ankerpunten van de ROC curve. Voor alle waarden van \(d\) tussen \(0\) en \(1\), krijgen we wel zinvolle waarden voor \(TPR\) en \(FPR\). Zetten we \(TPR\) grafisch uit tegenover \(FPR\) voor alle mogelijke waarden van \(d\), krijgen we een ROC-curve zoals fig. 2.13.

Indien de ROC-curve op de diagonaal ligt, dan preseert het model even goed als kop of munt. Hoe hoger boven de diagonaal, hoe beter het model. We kunnen de kwaliteit van het model samenvatten in de oppervlakte onder de curve (\(AUC\), area under the curve). Op basis van de ROC-curve kunnen we een optimale drempelwaarde \(d\) afleiden. Bij de optimale drempelwaarde is het verschil tussen de \(TPR\) en de diagonaal het grootste.

Figuur 2.13: ROC curve voor het basismodel