5. Operationalisatie#
In dit hoofdstuk beperken we het onderzoek. We benoemen de soorten documenten die we gaan onderzoeken en van welke bestuursorganen. We benoemen kort wát we dan onderzoeken, en hoe we meten en rapporteren. Daarna maken we dit duidelijk met behulp van een uitgebreid voorbeeld over de vindbaarheid en toegankelijkheid van de beslisnota’s van de ministeries.
Welke bestuursorganen. We bekijken stukken van de ministeries, de provincies, de waterschappen, de gemeentes en een flink aantal andere (zelfstandige) bestuursorganen.
Welke informatiecategorieën. We bekijken stukken van de vier informatiecategorieën die als eerste volgens de Woo gepubliceerd moeten worden: de bereikbaarheidsgegevens, convenanten, besluiten op Woo-verzoeken, en de vergaderstukken (deze laatste alleen van de decentrale overheden). Daarnaast bekijken we de Woo-index, beschikkingen en de agendas en besluitenlijsten (ook deze laatste weer alleen van de decentrale overheden).
Ons voorbeeld over de beslisnota’s gaat over een type documenten die niet onder de Woo vallen, maar die dikwijls op een heel vergelijkbare manier als Woo-verzoeken worden gepubliceerd.
5.1. De onderzoeksvraag#
De onderzoeksvraag van dit rapport is
Voldoen de onder de Woo openbaar gemaakte stukken aan artikel 2.4 lid 3 van de Woo[1]?
Dit artikel stelt dat Woo-bestanden “in elektronische vorm, in een machinaal leesbaar open formaat, samen met de metadata” gepubliceerd worden. Dit wordt verder gespecificeerd met verwijzing naar een aantal (Europese) richtlijnen[2].
Een andere gerelateerde richtlijn voor onze vraagstelling is het Tijdelijk besluit digitale toegankelijkheid overheid[3], waarin staat dat overheidssites moeten voldoen aan toegankelijkheidseisen zoals vastgelegd in EN 301 549/WCAG 2.1. In dit onderzoek richten we ons niet op websites, maar alleen op gepubliceerde stukken. Die zijn voor het overgrote deel in het PDF formaat. Die vallen onder wat kantoorbestanden genoemd worden[4].
We zullen kort aandacht besteden aan WCAG, maar omdat Woo PDFs daar in overgrote mate heel slecht aan voldoen richten we ons eerst op de toegankelijkheidseisen die makkelijker te bereiken zijn (zoals de machineleesbaarheid die in de Woo zelf genoemd wordt).
5.1.1. Wat meten we op#
Zoals gezegd hebben we gekozen om de stukken te beoordelen op de FAIR-data principes: zijn de stukken vindbaar, toegankelijk, aan andere gegevens te koppelen, en herbruikbaar? Machine leesbaarheid en metadata zijn voor al deze principes cruciaal. De principes zijn nog steeds best abstract, maar kunnen als volgt heel concreet gemaakt worden:
Vindbaarheid Ga dit na voor een PDF document door een woord dat je ziet staan in de tekst op te zoeken met Control F of iets te selecteren en te kopiëren met Control C.
Toegankelijkheid Laat een tekst voorlezen; als je niks hoort of vreemd gebrabbel is er iets mis met de machine leesbaarheid. Vergroot de tekst extreem.; als de lijnen in letters een zaagtand vorm krijgen of bovenop een raster van puntjes liggen is er sprake van een afbeelding van tekst.
Koppelbaarheid Bevat de PDF metadata in de vorm van tags[5] (verplicht in WCAG)? Staat de metadata van de stukken in een ISO-standaard formaat, en worden standaard ontologieën[6]] gebruikt? Is basale metadata überhaupt aanwezig?
Hergebruik Kan de data (de tekst en de metadata) zonder enorme inspanning worden hergebruikt voor toepassingen waarvoor de stukken in eerste instantie totaal niet bedoeld waren?[7]
5.2. Hoe rapporteren we#
We rapporteren veelal comparatief, waarmee we de resultaten voor één bestuursorgaan plaatsen in de context van de andere organen van hetzelfde organisatietype. We zullen vaak nogal negatieve resultaten laten zien, omdat de werkelijkheid nou eenmaal zo is. Dan proberen we altijd een voorbeeld daarnaast te zetten dat laat zien hoe het ook wel goed kan.
5.3. Voorbeeld: vindbaarheid en toegankelijkheid van beslisnota’s#
We laten zien hoe we toetsen op toegankelijkheid en vindbaarheid, en illustreren dat met het voorbeeld van de beslisnota’s vrijgegeven op open.overheid.nl.
5.3.1. Toegankelijkheid en vindbaarheid#
Onze analyse gaat uit van het volgende antwoord op de vraag “Waarom plaatst men iets op het internet?”.
Vanuit de wens dat een stuk gelezen en, mits relevant voor een zoekvraag, gevonden zal worden.
We kijken dus of door de overheid gepubliceerde stukken inderdaad door iedereen makkelijk gelezen kunnen worden, en of ze (terug)gevonden kunnen worden. We gebruiken hiervoor de volgende methode:
We selecteren een organisatietype, zoals de ministeries, of de provincies.
We selecteren een bepaald soort documenten, bijvoorbeeld beschikkingen.
Voor dat organisatietype en soort documenten halen we zoveel mogelijk al die (meestal PDF) documenten op, met zoveel mogelijk metadata.
Dan openen we elk document en proberen vast te stellen of het document via de “scan-en-ocr” methode gemaakt is. Met de volgende vragen
Staat er machine-leesbare tekst in?
Bestaan de paginas uit afbeeldingen?
Vinden we verhaspelde woorden in het document?
Zien we tekst-redactie (weggelakte stukjes)?
We rapporteren dan per bestuursorgaan, en geven positieve en negatieve voorbeelden.
We geven aan hoe bestuursorganen dit soort documenten FAIR zouden kunnen publiceren.
5.3.2. Beslisnota’s#
In een beslisnota leggen ambtenaren conceptbeslissingen voor aan de bewindspersoon, met alle afwegingen om tot een beleidskeuze te komen. Sinds 1 juli 2021 zijn beslisnota’s over wetgeving en beleidsvorming bij Eerste en Tweede Kamerstukken openbaar en worden deze gepubliceerd [Wikipedia].
Eigenschappen van het corpus#
Eind September 2023 hebben we alle beslisnota’s, gepubliceerd door ministeries, die op open.overheid.nl stonden opgehaald. Inclusief bijbehorende documenten waren deze 7.919 PDF files, als volgt verdeeld over de ministeries:
Departement |
Aantal beslisnota’s |
|---|---|
Ministerie Van Algemene Zaken |
61 |
Ministerie Van Binnenlandse Zaken En Koninkrijksrelaties |
920 |
Ministerie Van Buitenlandse Zaken |
786 |
Ministerie Van Defensie |
197 |
Ministerie Van Economische Zaken En Klimaat |
724 |
Ministerie Van Financiën |
800 |
Ministerie Van Infrastructuur En Waterstaat |
898 |
Ministerie Van Justitie En Veiligheid |
741 |
Ministerie Van Landbouw, Natuur En Voedselkwaliteit |
479 |
Ministerie Van Onderwijs, Cultuur En Wetenschap |
665 |
Ministerie Van Sociale Zaken En Werkgelegenheid |
503 |
Ministerie Van Volksgezondheid, Welzijn En Sport |
1300 |
Tabel: aantal documenten geklassificeerd als beslisnota per ministerie. Opgehaald van open.overheid.nl eind September 2023.
Beslisnota’s zijn over het algemeen erg kort: 80% bestaat uit 1 tot 3 paginas. De overige 20% hebben er iets meer.
Informatie die niet gedeeld mag worden#
Voor zover we steekproefsgewijs hebben gezien worden er alleen persoonsgegevens weggelakt. Dit betreft eigenlijk vrijwel altijd gegevens over de opsteller(s) van de nota. We zien stukjes lak dan ook nooit in de tekst zelf, maar wel in de aanhef, in het briefhoofd, en soms ook in de salutatie.
Onze “zwartlakdetector” laat zien dat gemiddeld rond de 1-2% van de tekst is weggelakt.
5.3.3. Vraag 1: machineleesbare tekst.#
We testen of een pagina machineleesbare tekst heeft. Wij testen dat automatisch, maar de test komt overeen met de volgende makkelijk zelf uit te voeren test: selecteer alle tekst op een pagina (Control A), kopieer die (Control C), en plak die in een nieuw document (Control V). Als er niets verschijnt in het nieuwe document, bevat de oorspronkelijke pagina geen machine leesbare tekst.
De tekst is dan niet voor te lezen door een computer, er kan niet (in ieder geval niet zonder iets extra’s te doen) in gezocht worden met Control F, en een zoekmachine als Google kan de inhoud van die pagina niet (in ieder geval niet zonder iets extra’s te doen) indexeren. Zoeken (zowel via Google, als door middel van Control F in het document) op een woord dat op die pagina staat, zal dus in veel gevallen geen treffer opleveren.
We vinden dat 24.7% (N=26.980) van de paginas, en 23.2% van alle beslisnota’s (N=7.919) geen enkel machine leesbaar karakter bevat. Voor de afzonderlijke ministeries zijn die percentages voor de beslisnota’s als hieronder. De meeste doen het dus heel goed.
Departement |
% bestanden zonder tekst |
|---|---|
Ministerie Van Algemene Zaken |
3.3 |
Ministerie Van Binnenlandse Zaken En Koninkrijksrelaties |
1.0 |
Ministerie Van Buitenlandse Zaken |
2.9 |
Ministerie Van Defensie |
0.5 |
Ministerie Van Economische Zaken En Klimaat |
19.5 |
Ministerie Van Financiën |
2.9 |
Ministerie Van Infrastructuur En Waterstaat |
3.8 |
Ministerie Van Justitie En Veiligheid |
5.1 |
Ministerie Van Landbouw, Natuur En Voedselkwaliteit |
19.6 |
Ministerie Van Onderwijs, Cultuur En Wetenschap |
6.5 |
Ministerie Van Sociale Zaken En Werkgelegenheid |
78.5 |
Ministerie Van Volksgezondheid, Welzijn En Sport |
83.9 |
Tabel: aantal documenten geklassificeerd als beslisnota zonder ook maar 1 karakter machine leesbare tekst, per ministerie als percentage van het totaal aantal beslisnota’s per ministerie.
5.3.4. Vraag 2: een echt document of een afbeelding?#
Alle beslisnota’s zijn PDF documenten. Die zijn op veel manieren te maken. De meest eenvoudige is via save as PDF (Control P) vanuit een tekst-verwerker als Word[8]. Daar komt een prima machine- en mens-leesbaar document uit. Dit is goed zelf te checken door de hierboven beschreven test voor machine-leesbaarheid. Mens-leesbaarheid is na te gaan door het document extreem te vergroten in een PDF-viewer. De letters in het document blijven perfect leesbaar bij extreme vergroting.
Dit is de kwaliteit die we verwachten van een recent gemaakt en gepubliceerd document. Toch is dat bij veel beslisnota’s niet het geval. We zien hier dat paginas bestaan uit afbeeldingen van letters. Dit is makkelijk zelf na te gaan door de extreme-vergroting-test (vergroot een PDF tot 400% of meer, iets wat visueel gehandicapten dikwijls moeten doen om iets te kunnen lezen). Letters “groeien” niet mee, maar worden korrelig en (zeer) slecht leesbaar.
Deze test hebben we geautomatiseerd door per pagina alle afbeeldingen uit de PDF te halen en hun gezamelijke oppervakte te berekenen. Komt die overeen met de standaard oppervlakte van een A4, dan bestaat dus de hele pagina uit één of meerdere afbeeldingen.
In 44.3% van de beslisnota’s bestaan alle paginas uit afbeeldingen. In 53% is dat voor minstens 1 pagina het geval. Het gaat dus ook heel vaak goed: in 47% van de beslisnota’s is de PDF waarschijnlijk prima mens- en machine-leesbaar.
Hieronder het percentage beslisnota’s waarin alle paginas afbeeldingen zijn, per ministerie. Vergeleken met het vorige overzicht, zien we bij veel meer ministeries hoge percentages. Dit is de scan en OCR techniek.
Department |
% beslisnota’s waarbij elke bladzijde volledig uit een afbeelding bestaat |
|---|---|
Ministerie Van Algemene Zaken |
9.8 |
Ministerie Van Binnenlandse Zaken En Koninkrijksrelaties |
19.1 |
Ministerie Van Buitenlandse Zaken |
89 |
Ministerie Van Defensie |
17.8 |
Ministerie Van Economische Zaken En Klimaat |
19.1 |
Ministerie Van Financiën |
82.2 |
Ministerie Van Infrastructuur En Waterstaat |
2.3 |
Ministerie Van Justitie En Veiligheid |
2.2 |
Ministerie Van Landbouw, Natuur En Voedselkwaliteit |
19.3 |
Ministerie Van Onderwijs, Cultuur En Wetenschap |
6.5 |
Ministerie Van Sociale Zaken En Werkgelegenheid |
79.7 |
Ministerie Van Volksgezondheid, Welzijn En Sport |
94.1 |
Tabel: Het percentage beslisnota’s waarin alle paginas afbeeldingen zijn, per ministerie.
De software waarmee een PDF gemaakt is is terug te vinden via Control I in de metadata. Hier zien we de 10 meest gebruikte software, en hoeveel van de beslisnota’s daarmee gemaakt zijn:
pdfCreator |
aantal beslisnota’s |
|---|---|
Aspose |
6653 |
Adobe |
2079 |
FineReader |
1866 |
Microsoft® |
264 |
ABBYY |
187 |
Acrobat |
114 |
OmniPage |
75 |
ZyLAB |
54 |
PScript5.dll |
43 |
ScandAll |
9 |
Tabel: Top 10 meest gebruikte software om een beslisnota PDF mee te maken, met het aantal documenten dat daarmee gemaakt is.
5.3.5. De Scan en OCR techniek#
Veel door de overheid gebruikte laksoftware gebruikt de “scan en ocr” techniek om een document te publiceren. Hierbij wordt er van elke bladzijde een afbeelding gemaakt (de scan), waarna men vervolgens probeert de tekst die op die pagina staat weer tevoorschijn te halen door optische-karakter-herkenning (OCR) op die afbeelding toe te passen.
Voor stukken die alleen nog op papier voorhanden zijn is dit een geweldige uitkomst. Voor recente, digitaal vervaardigde en beschikbare stukken heeft dit drie grote nadelen:
de toegankelijkheid voor slecht(er) zienden neemt enorm af
de PDF verliest vaak haar metadata
de letters worden gerasterd en groeien dus niet goed mee bij vergroting
alle semantische codes (verplicht in PDFs volgens de WCAG2 richtlijnen) verdwijnen. Hierdoor wordt voorlezen en bladeren veel moeilijker. (Semantische codes geven bijvoorbeeld aan of een stukje tekst een kop of een paragraaf is of het met nadruk moet worden uitgesproken, etc).
de vindbaarheid neemt af, omdat het OCR proces nooit foutloos is
de herbruikbaarheid neemt af, door de fouten in de OCR, maar ook doordat bestanden enorm veel groter worden (tot wel 100 keer zo groot als nodig om de tekst op te slaan).
Verhaspelde woorden#
Het is niet zo eenvoudig om automatisch te tellen hoeveel OCR fouten er gemaakt worden. We noemen een woord dat veranderd wordt door de OCR verhaspeld. Wij checken op verhaspelde woorden door alle woorden uit een beslisnota te halen, en dan te kijken of dat bestaande Nederlandse woorden zijn. Dit laatste testen we door te kijken of een woord voorkomt in een lijst van 400.000 Nederlandse woorden van de Taal Unie of dat het woord in de Handelingen der Staten Generaal tussen 2005 en 2022 voorkomt. Samen gaat het dan om meer dan 650.000 unieke woorden.
Natuurlijk komen hier woorden niet in voor. Grappig genoeg is beslisnota zelf zo’n woord.
We geven nu een ruw beeld van de tellingen van de verhaspelde woorden. We vonden iets meer dan 100.000 unieke woorden die niet in onze woordenlijsten zaten. Hiervan kwamen er 75 duizend maar 1 keer voor. In totaal kwamen die niet bestaande woorden zo’n 380 duizend keer voor.
Opstellers van beslisnota’s zijn vaak heel creatief met taal, want veel van de door ons gevonden woorden waren complexe samenstellingen van bestaande woorden, zoals Arbeidsextensiviteit, Alleenstaandeouderen, en Autowrakkenrichtlijn.
De volgende voorbeelden zijn wel echte OCR-fouten:
privmuaeicdtybewedsaitanergdbiionnrgggen of vteit^alliehatareQldipioilatiekebelangen
Een veel voorkomende verhaspeling is het vervangen van een l door een i, zoals in Toesiagen (241 keer) en Bijiage (261 keer) en Bijiagen (633)
De OCR verliest soms de spaties zoals in RandvoorwaardelijkewerkzaamhedenvoordebeveiligingenveiligheidvanbestaandeoffshoreoperatiessleepbotenenwerkbotenvoorsleepensalvagedienstenoilspillrecoverysurveillanceevenalsSearchandRescue
Over het algemeen valt het best mee, en is de OCR van zeer hoge kwaliteit.
5.3.6. File size van de PDF#
We zagen boven dat 47% van de beslisnota’s geen enkele pagina heeft die helemaal uit een plaatje bestaat, en dat bij 44% juist elke pagina uit een plaatje bestaat. Een pagina van zo’n PDF zonder die plaatjes is gemiddeld 67 KiloBytes groot. Die gescande beslisnota’s met een plaatje van elke pagina zijn daarentegen gemiddeld 470 KiloBytes per pagina groot. Dat is meer dan 7 keer zo groot.
Ter vergelijking, dit hele hoofdstuk als PDF is 76 KiloBytes groot, en het originele bestand waar die PDF uit gemaakt is maar 14KB. En als we dat met zip compressen nog geen 5KB.
Voor de informatieinhoud hoeven we alleen de compressed originele file op te slaan. Als we dat dan mooi als PDF willen laten zien kan dat on-demand. Dat zou betekenen dat we een pagina bijna 100 keer zo klein kunnen opslaan als nu gebeurt met de scan-en-ocr techniek.
5.3.7. Voorbeelden hoe het niet moet, en hoe het ook kan#
Zo moet het niet: Onnodig scan en OCR#
In deze beslisnota gaat het over Oekraïne, maar dat woord is in de machine leesbare tekst verhaspeld tot OekraTne. Ook wordt de tekst lastig leesbaar bij extreme vergroting.
De nota zelf zegt expliciet dat alle informatie in de nota openbaar gemaakt kan worden: Informatie die niet openbaar gemaakt kan worden N v t. Natuurlijk zijn er persoonlijke gegevens weggelakt, maar dit had ook “by design” gekund. Het is dus onnodig en jammer dat er voor dit document gekozen is voor de “scan en OCR” optie.
Zo kan het ook: Digitaal geproduceerde PDF#
Deze beslisnota is geproduceerd door MS Word, is zeer goed te vergroten, alle tekst staat er netjes in, en ook hier zijn, we citeren, gegevens van de steller en de ondertekenaar […] gelakt vanwege bescherming van de persoonlijke levenssfeer.
5.3.8. Restrictie tot 2023#
In 2023 zijn 4.430 beslisnota’s gepubliceerd. Als we de analyse beperken tot stukken uit 2023 zien we eigenlijk vrijwel hetzelfde beeld, met één groot verschil. Het aantal PDFs waarbij elk pagina een afbeelding is bij het Ministerie van Defensie enorm gedaald naar nog maar 1.5%. Heel goed nieuws dus.
5.3.9. Advies#
Beslisnota’s zijn recent digitaal vervaardigde stukken, en horen dus ook gewoon als een net digitaal PDF document openbaar gemaakt te worden. Ook al moeten er delen worden weggelakt, juist voor beslisnota’s is dat vaak boilerplate, en kan dat heel makkelijk op het moment dat de nota gemaakt wordt gebeuren. De nota’s van bijvoorbeeld het ministerie van Defensie laten mooi zien hoe dat kan. Zelfs de meestal erg strenge https://pdfchecker.nl/ heeft maar een paar aanmerkingen op de WCAG 2.1 toegankelijkheid van het gegeven voorbeeld. Ook die zijn eenvoudig te verbeteren.