6. Wat betekent FAIRness voor elke informatiecategorie#

In dit hoofdstuk maken we concreet wat we bedoelen met een FAIR document. Dus een document dat vindbaar, toegankelijk, aan andere gegevens te koppelen, en herbruikbaar is. Dit doen we voor elke informatiecategorie die in dit rapport besproken wordt. De operationalisatie bestaat uit een check- en een wensen-lijst en positieve en negatieve voorbeelden.

We behandelen achtereenvolgens Woo-dossiers (2i), Convenanten (2f), Beschikkingen (2k), Beleid en bestuurstukken (2c), Agendas en besluitenlijsten (2d), en de Bereikbaarheidsgegevens (1e).

6.1. Beantwoording van een Woo-verzoek: Woo dossiers (2i)#

De besluiten na een Woo-verzoek vormen een kernonderdeel van de Woo en zijn exemplarisch voor veel van de andere informatiecategorieën. Veel van wat we hier zullen schrijven gaat dus ook op voor stukken van andere informatiecategorieën, en zullen we daar dan ook niet meer herhalen. Ze zijn ook speciaal omdat het om complexe bundels van informatie gaat, die we Woo dossiers noemen.

Hoe ziet zo’n Woo-dossier er conceptueel uit, en hoe vertaalt dat zich in een FAIR technische oplossing?

Dat is beschreven in Larooij et al. (2023)[1] en dat volgen we hier. Een Woo dossier bestaat uit vier onderdelen:

  1. een verzoek

  2. een besluit

  3. een lijst met alle voor het verzoek relevante stukken; de inventarislijst

  4. de concrete stukken uit die lijst die geheel of gedeeltelijk openbaar gemaakt zijn.

Deze opdeling geeft meteen ook de minimaal gewenste metadata voor een Woo dossier:

  1. de datums van verzoek en van besluit[2]

  2. de verwoording van het verzoek en het besluit

    • het besluit ook als keuze uit een lijstje gestandaardiseerde termen (als (gedeeltelijk) openbaar gemaakt, afgewezen, niet ontvankelijk, etc)

  3. de inventarislijst heeft gestandaardiseerde kolommen met gestandaardiseerde waardes, met in ieder geval

    1. naam document

    2. mate van openbaarmaking

    3. toegepaste weigeringsgronden

    4. soort document (semantisch, niet technisch; dus email, spreadsheet of rapport en niet PDF of .xlsx of Word document)

    5. mits beschikbaar, datum van het document

    6. mits beschikbaar, opsteller/auteur/verantwoordelijke van het document.

  4. De vrijgegeven stukken tenslotte worden in een bundel los van elkaar aangeboden.

    • Dat kan met kleine aantallen als losse bestanden. Voor grote aantallen is bundelen in een zip bestand de meest eenvoudige en ideale oplossing[3].

De inventarislijst wordt als spreadsheet in open formaat aangeboden (csv) en er bestaat een machine-verwerkbare link tussen de rijen in het spreadsheet en de vrijgegeven files. Hierdoor kan de metadata uit de inventarislijst automatisch aan de vrijgegeven stukken gekoppeld worden.

Hoe dit technisch kan worden vormgegeven is te zien in dit voorbeeld dossier uit Barendrecht. Klikt men op Download volledig dossier (ZIP), dan krijgt men inderdaad een zip bestand met de informatie zoals in de afbeelding hieronder. In dit voorbeeld zit alle metadata van dit dossier in een zogenaamd Dublin Core JSON bestand, een machine-leesbare taal die gebruik maakt van gestandaardiseerde namen voor de attributen.

Inhoud van het zip bestand van een  Woo dossier uit Barendrecht

Figuur: Inhoud van het zip bestand van een Woo dossier uit Barendrecht.

6.1.1. FAIRness van de vrijgegeven stukken#

FAIRness is het beste te zien als een concrete invulling van de volgende drie beleidsprincipes. Die principes kunnen gezien worden als de informatiehuishoudingskundige vertaling van het bekende Bijbelse gebod, Wat gij niet wilt…

Openbaar uw stukken zoals gij ze graag had aangetroffen in uw zoektocht naar alle relevante stukken voor een Woo-verzoek.

De 3 principes#

  1. Maak openbaar in het geëigende formaat.

    • Voorbeeld: een spreadsheet dus niet “uitprinten” als PDF, maar exporteren in het open .csv formaat (en dat eventueel lakken)

  2. Anonimiseer by design, of probeer persoonsgegevens te vermijden, of markeer die meteen bij het opstellen van een stuk.

  3. Pas de “lakstraat” alleen toe op niet zelf gemaakte stukken, en zorg voor de juiste afstelling.

    • dus liever geen afbeeldingen van teksten maken, en die inscannen, maar direct de PDF bewerken,

    • en als dat niet kan, gebruik dan goede OCR software (Tesseract is gratis en geeft vaak veel minder fouten dan nu veel gebruikte OCR software), stel die goed in (bijv, geef aan dat de tekst op de afbeeldingen in het Nederlands is), en zet de OCR ook aan.

6.1.2. De voorbeelden#

Woo dossiers#

De Woo dossiers uit de gemeentes Barendrecht en Nijmegen voldoen vrijwel geheel aan de eerder gegeven beschrijving. Deze twee links komen uit de Woo-index. Voor Nijmegen is het niet verwonderlijk dat ze zo goed voldoen: zij publiceren via een tool (gewoon een invulformulier plus een manier om een folder op de PC van een Woo-jurist te uploaden) gebaseerd op het boven geschetste model. De openpub API voor Woo-dossiers die Barendrecht en verschillende andere gemeentes gebruiken is heel vergelijkbaar.
Het enige dat nog beter kan is de inventarislijst en de koppeling met de bundel vrijgegeven documenten. Die koppeling zou niet pas op het moment van publiceren gemaakt moeten worden maar liever, ondersteund door software en een werkwijze, op het moment van informatie vergaren.

We hebben de Woo-juristen verantwoordelijk voor deze voorbeelden gevraagd naar hun ervaring met deze wijze van publiceren:

“Het klaarmaken voor publicatie van een afgerond Woo-dossier is eigenlijk zo gedaan. Het formulier waarmee we de metadata invullen werkt makkelijk en maakt een laatste check mogelijk.” [Suzanne Vloet, Woo-jurist, Gem. Nijmegen]

“Het publiceren van een afgerond Woo-verzoek kost slechts enkele minuten, terwijl de (tijds)winst door de publicatie groot is. Meer informatie is op een makkelijke manier vindbaar voor de burger. Dit versterkt het vertrouwen van de burger in de overheid en draagt bij aan de democratische rechtsstaat.” [Patty van Woerkom, Woo-adviseur, gemeenten Barendrecht, Albrandswaard en Ridderkerk]

Vindbare en toegankelijke stukken#

Bij de Provincie Flevoland vonden we dit mooie voorbeeld van een Woo besluit dat geanonimiseerd is by design. Ook dit besluit van het Ministerie van SZW lijkt direct uit een tekstverwerker te komen en is waarschijnlijk tijdens het maakproces geanonimiseerd. Het verschil in vindbaarheid en toegankelijkheid (de F en de A in FAIR) is mooi te testen door ze te vergelijken met een ander besluit (dit staat op de vernieuwe Woo website van het Ministerie van VWS) door

  1. een woord dat je ziet staan in de tekst op te zoeken met Control F of iets te selecteren en te kopiëren met Control C.

  2. je voor te stellen dat je visueel gehandicapt bent en de tekst alleen met extreme vergroting kunt lezen.

We vonden zelfs de twee uitersten binnen één bestuursorgaan, de Raad voor de Rechtspraak. Een verzoek dat afgewezen wordt, zoals dit wordt keurig als HTML gepubliceerd (dus vind- en doorzoek-baar, en zeer toegankelijk), maar wordt het toegewezen, zoals dit dan wordt het besluit als scan, zonder OCR, gepubliceerd. Beide besluiten zijn opgebouwd vanuit hetzelfde sjabloon.

PDF is niet zaligmakend#

Het lijkt alsof binnen de Woo-wereld openbaar maken gelijk staat aan vrijgeven in PDF formaat. Dat dit de gangbare praktijk is heeft allerlei oorzaken en redenen, maar het kan ook anders. We proberen nu een paar redenen die we horen te ontkrachten:

  • met PDF vries je een versie vast, een Word bestand kan je zo veranderen

    • dit is onwaar, het is alleen wat lastiger om een PDF te bewerken. Een mooi voorbeeld is de PDFoppepper waarmee onder andere machine leesbare tekst aan een PDF wordt toegevoegd.

  • PDF is een open machine-leesbaar en -verwerkbaar formaat

    • dit is ten dele waar, een PDF kán die eigenschappen hebben en is dan inderdaad ideaal te verwerken. Maar men kan bijna alles in een PDF stoppen, en dus ook een prima machine leesbaar Word document veranderen in een PDF die in essentie bestaat uit een zip bestand met afbeeldingen van elke bladzijde en niks meer (dus eigenlijk niet veel anders dan een verzameling vakantiekiekjes).

Hier nog een mooi voorbeeld van een Woo dossier uit Waalwijk waarin een aantal bijlagen in het originele formaat als echte Excel sheets worden aangeboden. Om ongewenste veranderingen te voorkomen zijn die als read only stukken bewaard.

Een tegenvoorbeeld over publiceren in het juiste formaat en dus niet altijd in PDF is het Woo verzoek waarin expliciet om tabellen gevraagd wordt. Inderdaad wordt er een enorm Excel bestand vrijgegeven, met bepaalde informatie consequent weggelakt, maar in PDF. Geprint als PDF beslaat dit excel bestand meer dan 70 paginas. Dit is niet behulpzaam aan de verzoeker en kan slechts met zeer veel moeite als data hergebruikt worden.

Officiele bekendmakingen: het goede voorbeeld#

Stukken gepubliceerd op officielebekendmakingen.nl zoals deze beschikking van het Hoogheemraadschap van Delfland worden in zelfs 4 bestandsformaten aangeboden: in HTML en PDF, maar ook in 2 expliciet bewerkbare formaten: het open Word-formaat ODT, en een XML volgens een zelf vormgegeven opmaak schema. Daarnaast wordt uitgebreide metadata zowel netjes in een HTML tabel getoond als beschikbaar gesteld in een XML bestand volgens een gestandaardiseerd schema, dat deels gebaseerd is op de Dublin Core standaard.

6.2. Convenanten (2f)#

Een convenant wordt als volgt beschreven in de convenanten beslishulp (blz 7):

Grofweg is een convenant een schriftelijke set van afspraken tussen een overheidsorganisatie en één of meer andere partijen. Het doel van de afspraken is het voorbereiden of realiseren van beleid of het uitvoeren van een overheidstaak.

Een convenant is bij uitstek een zogenaamd semi-gestructureerd document[4], het bevat tekst (de afspraken), maar ook allerlei meer “linked data achtige” gegevens zoals

  • de betrokken partijen, zowel de ondertekenaars als de organisaties die ze vertegenwoordigen;

  • de datum en plaats van ondertekening;

  • de looptijden van de afspraken.

Deze gegevens zouden we graag in een gestructureerd formaat beschikbaar hebben, eigenlijk als metadata. Deze gegevens hebben de vorm van zogenaamde linked data omdat ze bestaan uit onderling verbonden entiteiten. Linked data werkt alleen als er gestandaardiseerde waardes gebruikt worden voor objecten en relaties. Gelukkig heeft elk overheidsorgaan dat onder de Woo valt een unieke code, de tooi code (bijvoorbeeld gm1963 voor de gemeente Hoeksche Waard). Datums en periodes zijn ook (ISO)-gestandaardiseerd. Voor de organisaties met wie een afspraak gemaakt wordt moet er dan iets handigs gekozen worden. Vaak wordt de Wikipedia URL gebruikt, maar een KvK-nummer of iets dergelijks zou ook goed kunnen.

6.2.1. Samenvattend: model voor convenanten#

  • Het echte convenant als toegankelijke machine leesbare digital born PDF/UA. Geen scans of OCR. Haal zonodig persoonsgegevens weg by design.

  • Metadata over bovengenoemde objecten en attributen van het convenant in een gestandaardiseerd formaat.

  • De manier waarop de BAR-gemeentes hun convenanten beschrijven zit daar al heel dicht tegenaan, zie bijvoorbeeld de metadata van dit afvalwater akkoord hieronder. De BAR-gemeentes gebruiken het model voor convenanten van OpenWebConcept.

Voorbeeld metadata van een Convenant uit de gemeente Ridderkerk

Figuur: Voorbeeld metadata van een Convenant uit de gemeente Ridderkerk.

6.3. Beschikkingen (2k)#

Voor de beschikkingen is nog geen handreiking beschikbaar, ook geen concept. We volgen hier daarom kort het lemma uit Wikipedia. In de Algemene wet bestuursrecht (Awb) wordt onder beschikking verstaan “een besluit dat niet van algemene strekking is, met inbegrip van het afwijzen van een aanvraag daarvan” (artikel 1:3 lid 2, Awb).

In de data zien we vooral vergunningen, subsidie-verleningen en dwangsommen:

  • een vergunning of ontheffing is een officiële (noodzakelijke) toestemming van de overheid om een bepaalde activiteit uit te voeren.

  • een dwangsom is de verplichting een bepaalde geldsom te betalen als niet volgens een bepaalde gerechtelijke of bestuurlijke beslissing wordt gehandeld.

In de data zien we erg weinig metadata specifiek over de beschikking bij beschikkingen, zie bijvoorbeeld deze beschikking. Eigenlijk de enige metadata die echt bij de beschikking hoort en die we vaak tegenkomen is een geografische aanduiding. Dat kan zijn in de vorm van een adres, maar ook in de vorm van 2 geo-coordinaten of zelfs een gebied aangeduid met geo-coordinaten. De Geo aanduiding in de metadata van het voorbeeld hierboven is

<meta 
    name="OVERHEIDop.gebiedsmarkering" 
    data-scheme="Adres" 
    content="Hooilandseweg 5, 9982CA, Uithuizermeeden, Gemeente Het Hogeland" 
/>

Artikel 3.3 a van de Wet open overheid geeft heel precies de gewenste attributen in de metadata aan. Die attributen komen in feite neer op de antwoorden op de volgende vragen:

6.3.1. Wie, wat, waar, wanneer, hoeveel, waarom?#

Net als bij de convenanten is er bij de beschikkingen natuurlijk ook sprake van steeds weer vaste eigenschappen, uitgedrukt als antwoorden op bovenstaande vragen.

  • wanneer gaat de beschikking in, en voor welke periode geldt ze?

  • aan wie is de vergunning of subsidie verleend, of dwangsom opgelegd (voor zover de bescherming van de persoonlijke levenssfeer hieraan niet in de weg staat)?

  • over welk gebied gaat het?

  • om welk bedrag gaat het?

  • om welke activiteit gaat het?

  • met welke motivatie is de beschikking opgelegd?

In het onderzoek naar de gepubliceerde beschikkingen kijken we hiernaar, en daarnaast of het soort beschikking in de metadata op een gestandaardiseerde manier is weergegeven.

6.4. Beleid en bestuurstukken (2c)#

Voor de vergaderstukken van decentrale overheden (Woo Artikel 3.3 lid 2 sub c) is er een werkdefinitie vastgesteld. De werkdefinitie beschrijft wat er met een vergaderstuk bedoeld wordt maar specificeert niet hoe die stukken gepubliceerd moeten worden. De Open API Specificatie voor Open Raadsinformatie beschrijft de standaard voor het ontsluiten van raadsinformatie van gemeenten. In de handreiking wordt het voldoen aan deze standaard beschreven als een eerste stap. Het daargenoemde informatiemodel is een best complex ER model, waar in de praktijk van de website openraadsinformatie.nl niet veel valt terug te zien. De metadata van elk document daar bestaat uit drie velden: een (verder ongespecificeerde) datum, de naam van het bestuursorgaan, en het type document met op het moment van schrijven de volgende waarden en bijbehorende aantallen:

Soorten documenten en hun aantal op openraadsinformatie.nl Soorten documenten en hun aantal op openraadsinformatie.nl

Figuur: Soorten documenten en hun aantal op openraadsinformatie.nl.

Omdat de stukken uit deze categorie enorm verschillen is deze metadata misschien ook wel het hoogst haalbare. In het informatiemodel wordt per document type een veel uitgebreider model behandeld.

Wat opvalt aan bovenstaand lijstje is de enorme hoeveelheid documenten van type Document. Dit betekent natuurlijk gewoon dat het juiste type niet bekend is.

6.5. Agendas en besluitenlijsten (2d)#

Voor deze categorie is medio oktober alleen nog de concept werkdefinitie beschikbaar. Er zijn op het moment van het concept (2023-09-06) geen handreikingen voor deze categorie beschikbaar. In Woogle wordt duidelijk hoe weinig metadata er voor een agenda beschikbaar is bij de Eerste Kamer. Dat is eigenlijk alleen een titel en 2 datums. Het onhandige is dat de datum waar het echt om gaat, namelijk de datum van de vergadering waar dit de agenda van is, niet in de gestandaardiseerde metadata staat, maar alleen in spreektaal in de titel.

6.5.1. Minimale metadata voor categorie 2c en 2d#

  • Naam en tooi code van het bestuursorgaan

  • Semantisch type van het document, uit een vaste gestandaardiseerde lijst

  • Datum van de gebeurtenis (de vergadering, de stemming, etc), mits relevant

  • Datum van publicatie.

6.6. Organisatie en werkwijze en Bereikbaarheidsgegevens (1e)#

Voor deze categorieen is een uitgebreide (concept) handleiding beschikbaar. Het bestaat eigenlijk uit 2 delen.

In de Woo-index zetten bestuursorganen URLs naar de plaatsen waar ze de verschillende Woo informatiecategoriëen publiceren, plus de contact gegevens van de “Woo ambtenaar”. De Woo-index van Zuid Holland is een mooi ingevuld voorbeeld. Volgens de invulster Marianne de Nooij, senior beleidsmedewerker Open Overheid, was het invullen in een half uurtje gepiept[5].

In de bereikbaarheidsgegevens staan allerlei persoonsgegevens over mensen werkzaam bij bestuursorganen, en over deelorganisaties binnen bestuursorganen. Dit is een complex (XML) model, met erg veel vrijheid voor de bestuursorganen, zoals we zullen zien als we gaan kijken wat er in zit. De handreiking erkent die vrijheid ook. Dit deel heeft verschillende namen, de oude staatsalmanak maar ook het Register van Overheidsorganisaties (ROO). Dit register wordt deels vanuit andere databases gevuld. Veel bereikbaarheidsgegevens van gemeentes bijvoorbeeld worden via de databank VNG Ledengegevens aangeleverd aan het ROO. We zullen dit terugzien in de analyse van het ROO.