Termen extraheren uit de doelen in de SLO Curriculum Browser

Auteurs: Lotte Baltussen, Lieke Verhelst

Dit artikel is deel 3 in een serie van 4 uitgebreide artikelen over het onderzoeksproject over veelgebruikte termen in het onderwijs en hoe je die zou kunnen gebruiken om lesmaterialen te labelen (metadateren). In artikel 1 vind je een overzicht van welke termen we nog meer verzamelden, in het 2e artikel staat een analyse van 7 miljoen zoektermen in onder meer Wikiwijs, en in deel 4 staat het Linked Data model beschreven waarmee we de termen modelleerden.

Een meer beknopte versie vind je in de publicatie ‘Zo zorg je dat leraren en leerlingen jouw digitale lesmateriaal goed kunnen vinden. Praktische inzichten en tips voor culturele instellingen’. Hierin staan ook visuele scenario’s van de manier waarop leraren en leerlingen zoeken, voorbeelden en concrete tips voor het vergroten van de vindbaarheid van jouw lesmateriaal.

In het programma ‘Digitaal Erfgoed voor het Onderwijs’ werkten Kennisnet en het Netwerk Digitaal Erfgoed samen om erfgoed, met behulp van ict, structureel een plek in het onderwijs te geven. Een van de vragen in het programma was: hoe kunnen musea, archieven en andere culturele instellingen hun onderwijsaanbod beter vindbaar maken?

Omdat er geen gestandaardiseerde lijst is met belangrijke onderwerpen in het onderwijs hebben wij hier zelf onderzoek naar gedaan. Een onderdeel van dit onderzoekproject betrof het automatisch extraheren van termen uit de API van de SLO Curriculum Browser. Deze database bevat de doelen in het Nederlandse curriculum van het primair en voortgezet onderwijs. In deze blogpost delen we de resultaten en inzichten.

Wat zijn de doelen in het curriculum?

De basis van alle lesmethodes wordt in principe gevormd door de doelen in het curriculum. Dit zijn bijvoorbeeld:

de aanbodsdoelen in het primair onderwijs
de kerndoelen in het primair onderwijs en de onderbouw van het voortgezet onderwijs
de eindtermen van de examenprogramma’s in de laatste klassen van het voortgezet onderwijs.

Deze doelen worden beschreven en onderhouden door SLO, het nationaal expertisecentrum voor leerplanontwikkeling. Zij doen dit in opdracht van het ministerie van OCW. De doelen beschrijven wat leerlingen in een bepaald deel van hun opleiding moeten kennen en kunnen.

Termen extraheren uit de doelen: waarom en hoe?

De doelen zijn geen onderwerplijsten, maar zinnen die beschrijven wat leerlingen moeten kennen en kunnen. Ze horen bij specifieke vakleergebieden en niveaus. De tijdvakken uit de Canon van Nederland waarop veel leraren op zoeken komen ook terug in doelen. Enkele voorbeelden van doelen zijn:

Primair onderwijs – Kerndoel 52: Tijdvakken. De leerlingen leren over kenmerkende aspecten van de volgende tijdvakken: jagers en boeren; Grieken en Romeinen; monniken en ridders; steden en staten; ontdekkers en hervormers; regenten en vorsten; pruiken en revoluties; burgers en stoommachines; wereldoorlogen en holocaust; televisie en computer. De vensters van de canon van Nederland dienen als uitgangspunt ter illustratie van de tijdvakken. (link)
Eindexamenprogramma kunst (beeldende vorming) vwo. De kandidaat kan beeldend werk van kunstenaars en vormgevers onderzoeken in relatie tot het eigen beeldend werk. (link)

Om inzicht te krijgen in de termen die in de doelen worden gebruikt, hebben we software ingezet die automatisch termen uit stukken tekst haalt. We hebben hiervoor eerst enkele termextractietools vergeleken. De tool TextRazor leverde kwalitatief de beste resultaten op, en was het meest gebruiksvriendelijk. Het is een betaalde tool, maar omdat we TextRazor slechts enkele maanden nodig hadden hebben we hier toch voor gekozen. De gratis en open source tools leverden helaas minder goede kwaliteit en behoefden nog veel configuratie om ze goed in te zetten.

TextRazor

TextRazor gebruikt Natural Language Processing en kunstmatige intelligentie om teksten te analyseren en semantische metadata te genereren. TextRazor heeft een API die werkt met een eigen referentielijst. Deze is onder meer gebaseerd op DBpedia, Wikipedia, Wikidata en Freebase (voorganger van Wikidata).

TextRazor deelt geëxtraheerde termen in twee categorieën in: topics (begrippen) en named entities (entiteiten die met een naam aangeduid worden, zoals persoonsnamen en geografische namen). Begrippen werden aangeleverd in het Engels, met een koppeling naar Wikipedia en Wikidata. Hierdoor moesten we nog via Wikidata een vertaalslag naar het Nederlands maken. Named entities werden wel direct in het Nederlands geleverd.

Resultaten van de termextractie

Begrippen

In totaal zijn er 276.028 begrippen geëxtraheerd, die 8.381 unieke waarden bevatten. Hierbij extraheerde TextRazor 3.508 keer (1,3%) om onbekende reden geen label. Dit gebeurde ook wanneer er specifieke en naar verwachting herkenbare woorden in het doel voorkwamen, zoals “Duurzaamheid” en “Explosie herkennen als extreem snelle verbranding”.

Named entities

Er zijn in totaal 11.869 entities geëxtraheerd, die 1.665 unieke waarden bevatten. Hierbij extraheerde TextRazor 4.219 keer (35%) geen named entity. Net als bij de begrippen gebeurde dit ook bij doelen die wel herkenbare woorden bevatten. Bijvoorbeeld: “De kandidaat kan absolute en relatieve frequenties vaststellen” en “Energie in de toekomst”.

Selecties maken

Het doel van het project was niet om een volledig representatieve en direct bruikbare termenlijst op te leveren, maar het ontwikkelen van een methodiek om dit te kunnen doen. Aan de andere kant vonden we het niet wenselijk om de ruim 10.000 begrippen en named entities die TextRazor extraheerde uit de doelen over te nemen. Dit is een wel erg groot aantal. Daarbij kwamen veruit de meeste termen slechts een of enkele keren voor.

Om de termenlijst relatief kleinschalig en zo relevant mogelijk te maken besloten we dan ook om een selectie te maken van de TextRazor termen. Hierbij kozen we de meestvoorkomende termen. Bij de begrippen ging het om ruim 3.600 unieke waarden (43%) die het vaakst voorkwamen. Bij de named entities maakten we een selectie uit alle unieke waarden (1.665), omdat dit goed haalbaar was binnen de beschikbare tijd.

De handmatige selectie uit deze subset was gebaseerd op door onszelf opgestelde criteria. We namen een term niet op als:

de betekenis van een term onduidelijk (ambigu) is en de mogelijke betekenis evenmin eenvoudig uit de context te halen valt. Bijvoorbeeld: “Bank” (zowel een financiële instelling als een meubelstuk).
deze te abstract of high-level is en dus geen concrete zoekresultaten zou opleveren. Bijvoorbeeld: “Vandaag”, “100 (getal)”
deze niet relevant is. Bijvoorbeeld: “Subdomein A1”.
het geen onderwerp is, zoals een begrip of een persoon. Bijvoorbeeld: “havo” (=leerniveau), “aardrijkskunde” (=vak/leergebied)

Deze handmatige selectie leverde een lijst op van bijna 2.600 termen, van “16e eeuw” tot “zwerm”. De complete lijst staat in het csv-bestand ‘Samenvatting termen geëxtraheerd uit de SLO Curriculum Browser’. Deze is te vinden op de pagina waarop ook de andere lijsten staan die zijn gebruikt en samengesteld in het kader van het onderzoeksproject.

Mogelijkheden voor verder onderzoek

De resultaten en onze selectie hieruit zijn enkel bedoeld om een indruk te geven van de onderwerpen in de onderwijsdoelen. De lijst wordt niet bijgehouden en heeft geen enkele formele status. Zo zijn er sinds het project nog veel meer doelen toegevoegd die niet in onze termextractie zijn meegenomen.

Daarbij is er bij de selectie enkel gekeken naar de relevantie en specificiteit van de geëxtraheerde term zelf. We hebben niet beoordeeld of de term ook correct is geëxtraheerd uit het doel zelf. Om echt een goed beeld te krijgen van de kwaliteit van TextRazor zou dat ook moeten worden beoordeeld.

Tot slot is er slechts een selectie gecheckt vanwege tijdsrestricties. Het is echter goed mogelijk dat nog meer relevante termen in de resterende ‘long tail’ zit. Er zijn dus nog vele mogelijkheden voor verder onderzoek naar de relevantie van het extraheren van termen uit de doelen in het Nederlandse onderwijscurriculum.

Licentie: Creative Commons Naamsvermelding 4.0 (CC BY 4.0)