De functie initiatie()
maakt de dataset klaar voor de verdere stappen van
het opstellen van diameter-hoogtecurves: ze berekent de noodzakelijke
variabelen en splitst de dataset op basis van het aantal metingen per
boomsoort-domeincombinatie in 4 delen:
3 delen die als parameter meegegeven kunnen worden voor de
fit.xxx()
-functies per modeltype (basismodel, afgeleid model en lokaal
model), en een vierde deel met de resterende gegevens.
initiatie(
Data,
Uitzonderingen = data.frame(DOMEIN_ID = "", BMS = "", min_basis = NA_integer_,
min_afgeleid = NA_integer_, stringsAsFactors = FALSE),
Bestandsnaam = "VerwijderdeGegevensInitiatie.html",
verbose = TRUE,
PathWD = getwd()
)
Dataframe met metingen van bomen die als basis moeten dienen om
diameter-hoogtecurves op te stellen. De dataframe moet de velden DOMEIN_ID
(identificatienummer voor domein), BOS_BHI
(domeinnaam), IDbms
(identificatienummer voor boomsoort), BMS
(boomsoort), C13
(omtrek in
centimeter, gemeten op 1,3 m hoogte), HOOGTE
(in meter) en Status
bevatten en mag eventueel velden TYPE_METING
en JAAR
bevatten (die worden
bij rmse.basis()
als groeperende variabelen gebruikt).
Status
mag enkel gegevens met status "Niet gecontroleerd", "Te controleren"
of "Goedgekeurd" bevatten,
dus gegevens met status "Afgekeurd" of "Negeren" moeten vooraf verwijderd
worden.
Lijst met boomsoort-domeincombinaties waarvoor
uitzonderingen gelden voor de limieten van minimum 50 en minimum 10 bomen.
De dataframe moet de velden DOMEIN_ID
, BMS
, min_basis
(= vervangende
waarde voor 50) en min_afgeleid
(= vervangende waarde voor 10) bevatten.
Daarnaast kan in een extra veld min_uitbreiden_model
aangegeven worden
vanaf hoeveel metingen een uitbreiding naar hogere omtrekklassen opnieuw
bekeken moet worden (= vervangende waarde voor 10).
De waarde NA geeft telkens aan dat de default gebruikt mag worden.
De default voor dit argument is dat er geen uitzonderingen zijn
(wat sowieso het geval is als de curves nog niet gevalideerd zijn).
Een naam voor het validatierapport (.html
-bestand) dat
gegenereerd wordt, bestaande uit een string die eindigt op .html
Dit geeft de toestand van het systeem aan en zorgt ervoor dat boodschappen niet onnodig gegeven worden. (Defaultwaarde behouden.)
Het path van de working directory, dus het path waarin het validatierapport opgeslagen moet worden (default wordt het in de op dat moment actieve working directory opgeslagen).
Als er gegevens verwijderd worden, genereert de functie een validatierapport
(.html
-bestand) waarin een overzicht gegeven wordt van de verwijderde
gegevens, dit zijn gegevens met omtrek > 3 m en omtrek < 0.2 m.
De functie geeft een list van dataframes terug, met in elke dataframe
behalve de variabelen uit Data
de berekende variabelen
Omtrek
(= omtrekklasse), logOmtrek
, logOmtrek2
, Q5k
en Q95k
(de
grenzen van het bruikbaar interval), nBomen
(= aantal metingen behalve de
verwijderde gegevens),
nBomenOmtrek05
(aantal metingen met omtrek > 0.5 m en < 2.8 m),
nBomenInterval
(= aantal metingen binnen het bruikbaar interval),
nBomenIntervalOmtrek05
(aantal metingen binnen het bruikbaar interval
met omtrek > 0.5 m)
en nExtra
(aantal metingen boven het bruikbaar interval op basis waarvan
een uitbreiding van de curve naar hogere omtrekklassen gevalideerd zou
kunnen worden)
De 4 dataframes die achtereenvolgens in de list zitten, zijn:
[["Basis"]]
gegevens van boomsoorten waarvoor meer dan 50 metingen
(binnen het bruikbaar interval met omtrek > 0.5 m) beschikbaar zijn in
minimum 6 domeinen, waarbij enkel gegevens worden opgenomen van de
domeinen waarvoor minimum 50 metingen beschikbaar zijn. Op basis van
deze dataset kan een basismodel berekend worden, bestaande uit een
Vlaams model per boomsoort en domeinspecifieke modellen.
[["Afgeleid"]]
gegevens van domeinen met minder metingen (< 50
metingen binnen het bruikbaar interval en > 10 metingen boven 0.5 m)
van boomsoorten waarvoor een Vlaams model berekend kan worden
(dus boomsoorten die in dataset "Basis" voorkomen), op basis
waarvan een afgeleid model berekend kan worden.
[["Lokaal"]]
gegevens van domeinen met veel metingen voor een
boomsoort (> 50 metingen binnen het bruikbaar interval met
omtrek > 0.5 m) waarvan er te weinig domeinen (< 6) zijn
met voldoende metingen om een Vlaams model op te stellen. Voor deze
boomsoort-domeincombinaties kan een lokaal model berekend worden.
[["Rest"]]
metingen van de boomsoort-domeincombinaties die niet tot
de 3 voorgaande categorieën behoren en waar dus geen model voor
opgesteld kan worden.
Voor de eerste en derde dataframe worden metingen binnen het bruikbaar
interval gemarkeerd als VoorModelFit
en ook metingen boven dit interval
tot een omtrek van 3 m worden bijgehouden voor een eventuele uitbreiding van
het model (tot maximaal 10 omtrekklassen);
voor het afgeleid model (2de dataframe) worden de metingen met omtrek tussen
0,5 m en 2,8 m bijgehouden.
In geval er gegevens verwijderd zijn, wordt aan de list een extra dataframe
[["VerwijderdeGegevens"]]
toegevoegd met de gegevens uit het
validatierapport.