Datasets termenproject ‘Digitaal erfgoed voor het onderwijs’

Datasets termenproject ‘Digitaal erfgoed voor het onderwijs’

Over het termenproject

In het programma ‘Digitaal Erfgoed voor het Onderwijs’ werkten Kennisnet en het Netwerk Digitaal Erfgoed samen om erfgoed, met behulp van ict, structureel een plek in het onderwijs te geven. Een van de vragen in het programma was: hoe kunnen musea, archieven en andere culturele instellingen hun onderwijsaanbod beter vindbaar maken?

Om een aanzet te geven tot een antwoord op deze vraag, hebben we een onderzoekproject gedaan, waarbij we termen uit verschillende bronnen verzamelden. Meer informatie vind je in de volgende publicaties:

De termenlijst en onderliggende data

De termenlijst en onderliggende data betreffen een momentopname. Ze zijn verzameld en samengesteld tijdens het programma (2019-2021), hebben geen formele status en worden niet bijgehouden. Sommige links zullen het niet meer doen.

Contact

Voor vragen over het termenproject of de datasets kun je mailen naar support@kennisnet.nl.

Termenlijst

De bronbestanden bestaan uit twee formaten: een totaaloverzicht in een Excelbestand met meerdere tabjes, en losse bronbestanden in het open bestandsformaat csv. Hieronder staat specifieke documentatie over de metadatavelden en hoe de termen geüniformeerd zijn. Meer informatie over het project vind je in het artikel ‘Wat zijn belangrijke termen in het onderwijs?’.

Wij hebben enkel termen gepubliceerd van bronnen met een open licentie, of waarvan wij aannemen dat herpublicatie geen juridische beperkingen met zich meebrengt:

  • inzake het auteursrecht is het de vraag is of de termen voldoende creatief zijn en als zodanig auteursrechtelijk beschermd zijn.
  • inzake databankenrecht die mogelijk ligt op de samenstelling van de thema’s, is het de vraag of er een substantiële investering aan database ten grondslag ligt.

We hebben bij iedere term een verwijzing opgenomen naar de bron(nen) waar deze uitkomt en per bron de rechtenstatus.

Metadatavelden Toelichting In Linked Data model
File Het oorspronkelijke bestand waar de term in is overgenomen vanuit de bron (niet publiek). prov:wasDerivedFrom (en onderliggende modellering)
Voorkeurslabel De voorkeurspelling van het label van een concept. skos:prefLabel
Bron De bron waar de term uitkomt, gekoppeld aan een URL en rechtenstatus. prov:hadPrimarySource (en onderliggende modellering)
Oorspronkelijke term De oorspronkelijke spelling van een term. Dit kunnen ook meerdere woorden zijn, zoals een zoekopdracht of zin (bv: een kerndoel). skos:editorialNote
Vakleergebied Het vakleergebied waar de term bij hoort. Meerdere waardes mogelijk. Alleen ingevuld als deze informatie beschikbaar was. dc:subject
Niveau Het leerniveau waar de term bij hoort. Meerdere waardes mogelijk. Alleen ingevuld als deze informatie beschikbaar was. dc:educationLevel
Concepttype Het type concept waar de term toe behoort, zoals een persoonsnaam of geografische naam. Niet altijd ingevuld. rdf:type => skos:Concept

[Toekomst: schema.org klasse]

Alternatief Label Alternatieve spelling van het Voorkeurslabel, bijvoorbeeld een andere spelling van een persoonsnaam. (‘Rembrandt van Rijn’ is het Voorkeurslabel van het Alternatief label ‘Rembrandt’) skos:altLabel
Verborgen Label Verborgen spelling van het Voorkeurslabel. Veelgemaakte spelfouten of alternatieve, ongewenste schrijfwijzen. skos:hiddenLabel
Gerelateerde term Term die is gerelateerd aan het Voorkeurslabel. Bijv.: ‘tekenen’ en ‘schilderen’ zijn aparte termen, maar zijn beide creatieve handelingen en hebben daarom met elkaar te maken. skos:related
broaderTerm De bovenliggende term van het Voorkeurslabel. Bijv.: de bovenliggende term van ‘afvalscheiding’ is ‘afval’. We hebben deze zonder aanpassingen overgenomen uit de bron en niet zelf aangepast of ingevuld. skos:broader
narrowerTerm De onderliggende term van het Voorkeurslabel. Bijv.: de onderliggende term van ‘afval’ is ‘afvalscheiding’. We hebben deze zonder aanpassingen overgenomen uit de bron en niet zelf aangepast of ingevuld. skos:narrower
Redactionele opmerking Opmerking over het redactionele proces of andere aandachtspunten, bijvoorbeeld voorwaarden voor hergebruik. skos:editorialNote
typicalAgeRange Hierin wordt aangegeven of een term (on)geschikt is voor een specifieke leeftijdsgroep. skos:scopeNote
Rechten: term De rechten van een term. Deze zijn nog onbepaald. dcterms:rights
Rechten: bron De rechten van de bron waar een term uitkomt. dcterms:rights
Geëxtraheerd uit – URI Bij de SLO termen staan de oorspronkelijke links (URIs) naar de leerdoelen waar ze uit zijn geëxtraheerd. prov:Entity
Geëxtraheerd uit – label De tekst waar een term automatisch of handmatig uit is geëxtraheerd. prov:Entity
Activity (methode) De totstandkoming van de (selectie van) de term. Bijv: Automatisch uit de SLO doelen geëxtraheerd met TextRazor; Handmatig geselecteerd. prov:wasGeneratedBy (en onderliggende modellering)
Agent (hulpmiddel voor methode) Het hulpmiddel dat gebruikt is. Bijv: TextRazor; Handmatige selectie prov:wasGeneratedBy (en onderliggende modellering)
Zie ook Link naar een gerelateerde bron, in dit geval Wikidata. Deze Wikidatakoppeling is gemaakt door de tool TextRazor. Deze tool is gebruikt om termen uit de SLO doelen te extraheren. rdfs:seeAlso

Dezelfde termen werden in verschillende bronnen soms anders gespeld. Daarom hebben wij ze handmatig geüniformeerd. De gehanteerde uitgangspunten voor uniformering zijn:

  • De eerste letter van de term wordt geschreven met een hoofdletter.
  • Gebruik geen verkleinwoordjes en meervouden (bij zelfstandige naamwoorden) behalve als deze de betekenis van de term verandert.
  • Termen kunnen uit meer dan één woord bestaan, maar moeten wel slechts één begrip beschrijven. Bijvoorbeeld: “17e eeuw”. Laat dan wel een eventueel lidwoord weg (dus niet: “de 17e eeuw”).
  • Bij twijfel over de voorkeursspelling hebben we de titel is van de Wikipedia-pagina van de term gebruikt.
  • Als een term meerdere betekenissen kan hebben (ambigue is), hebben we de link naar het Wikidata-item van de term toegevoegd (bijv.: de term “Pest” kan de ziekte betekenen, of een vervoeging zijn van het werkwoord pesten. In dat geval hebben we een link opgenomen naar https://www.wikidata.org/wiki/Q133780).

Edurep zoektermen

Het bronbestand bevat de totalen van alle zoektermen die uitgevoerd zijn in Edurep van 2017-2019. Meer informatie over deze zoektermen vind je in de publicatie ‘Analyse van 7 miljoen zoektermen in de educatieve zoekmachine Edurep’.

De data is als volgt bewerkt:

  • de data bevat alleen termen met de volgende karakterset “[a-z][0-9]-_ “
  • alle data is lowercase gemaakt
  • termen die eindigden op * zijn wel meegenomen (maar de * is gestript)
  • alle losse termen die in een query zijn gebruikt zijn te zien, informatie mbt Booleans zoals OR’s, AND’s, NOT’s staan er niet in
  • termen die gebruikt worden in andere velden, zoals ‘title’ en ‘keyword’ zijn niet geteld

Deze lijst met zoektermen is beschikbaar onder een Creative Commons Naamsvermelding  (CC BY 4.0) licentie.

Termextractie SLO doelen

Met behulp van de termextractietool TextRazor hebben we automatisch individuele termen gehaald uit de doelen in de SLO Curriculum Browser. TextRazor splitst dit in begrippen en entiteiten. Begrippen kunnen ambigue zijn. De termen “arm” kan bijvoorbeeld gaan over het lichaamsdeel of een economische situatie. “Middeleeuwen” en “Tweede Wereldoorlog” zijn specifieke en unieke entiteiten.

Meer documentatie informatie over de totstandkoming van deze lijst vind je in de publicatie ‘Termen extraheren uit de doelen in de SLO Curriculum Browser’.

Deze lijst met zoektermen is beschikbaar onder een Creative Commons Naamsvermelding  (CC BY 4.0) licentie.