Wikidata is a free and open knowledge base that can be read and edited by both humans and machines. – https://wikidata.org/
Das ZDL hat in seinem Projektantrag ein Arbeitspaket zur Dissemination seiner Ergebnisse im Austausch und in Zusammenarbeit mit Community-Projekten. Ursprünglich wurde hier an Projekte wie Wiktionary oder OmegaWiki gedacht. Im Oktober 2019 fand in Berlin dann die WikidataCon zum Thema languages and Wikidata statt. Hier gab es erste Gespräche mit der Community und der Wikimedia Foundation zu einer möglichen Zusammenarbeit.
Im Herbst 2022 war es dann soweit. Das DWDS als gegenwartssprachliche Komponente des ZDL spendete Daten in Form eines automatisierten Imports an Wikidata.
Der Import der Daten wurde über die MediaWiki API bzw. dessen Wikibase-Erweiterungen durchgeführt.
Infolge des Imports ist Deutsch eine der am umfrangreichsten repräsentierten Sprachen in Wikidata.
Wikidata modelliert Wissen in seiner Datenbasis in Form von Aussagen, ähnlich wie in RDF-basierten Wissengraphen aus dem Kontext des Semantic Web. Aussagen und das Schema, dem diese Aussagen genügen sollen, werden derselben Datenbasis entwickelt und gepflegt. Das Datenmodell für lexikographische Informationen in Wikidata lehnt sich dabei an das Lexicon Model for Ontologies (lemon) an und ist durch die Community erweiterbar.
Wikidata bietet einen Abfragedienst – den Wikidata Query Service, über den mittels SPARQL Abfragen an die Wissensbasis gestellt werden können.
Die dem obigen bubble chart zugrundeliegende Abfrage sieht wie folgt aus:
Sprache | WD-ID | Lexeme |
---|---|---|
German | Q188 | 213572 |
Russian | Q7737 | 101627 |
Estonian | Q9072 | 83210 |
English | Q1860 | 72823 |
Malayalam | Q36236 | 63369 |
Latin | Q397 | 56203 |
Modern Greek | Q36510 | 43313 |
Swedish | Q9027 | 40450 |
Spanish | Q1321 | 35279 |
Aragonese | Q8765 | 32273 |
Bokmål | Q25167 | 31109 |
Hebrew | Q9288 | 29920 |
Czech | Q9056 | 25703 |
Basque | Q8752 | 22944 |
Danish | Q9035 | 21067 |
Indonesian | Q9240 | 19724 |
French | Q150 | 19313 |
Slovak | Q9058 | 16476 |
Ukrainian | Q8798 | 16264 |
Persian | Q9168 | 14714 |
1068 more elided |
Da das Schema ebenfalls in Wikidata enthalten ist und über den Abfragedienst zur Verfügung steht, können wir auch das Schema per SPARQL untersuchen. Alle Eigenschaften, die Lexemen zugewiesen werden können:
Anzahl der Eigenschaften:
Für die ermittelten Eigenschaften fragen wir jeweils die Anzahl der Entitäten/Lexeme ab, denen Werte für die Eigenschaft zugewiesen wurden:
WD-ID | Eigenschaft | dt. Lexeme |
---|---|---|
P9940 | DWDS lemma ID | 206117 |
P8376 | Duden ID | 151336 |
P5185 | grammatical gender | 149601 |
P11519 | elexiko ID | 138004 |
P9947 | WDG lemma ID | 84802 |
P9385 | DWB lemma ID | 49565 |
P9387 | GWB lemma ID | 34972 |
P9388 | Meyers lemma ID | 17349 |
P9386 | DWB2 lemma ID | 15437 |
P9389 | RDWB1 lemma ID | 8480 |
P9384 | Adelung lemma ID | 8321 |
P5238 | combines lexemes | 7630 |
P9390 | Wander lemma ID | 7182 |
P11521 | OWID Deutsches Fremdwörterbuch ID | 4109 |
P5187 | word stem | 2106 |
P5911 | paradigm class | 1597 |
P5402 | homograph lexeme | 1310 |
P11520 | OWID Neologismenwörterbuch ID | 1054 |
P5401 | auxiliary verb | 936 |
P5191 | derived from lexeme | 557 |
16 more elided |
Da eine große Zahl an Lexemen in Wikidata über externe Identifikatoren verfügen, lassen sich zum Beispiele Abgleiche zwischen verschiedenen Wörterbuchbeständen realisieren.
WD-ID | Lemma | DWDS | Duden | DWB |
---|---|---|---|---|
L221788 | Häher | Häher | Haeher | H00799 |
L498720 | Durchsetzung | Durchsetzung | Durchsetzung | D06694 |
L765365 | Dienstobliegenheit | Dienstobliegenheit | Dienstobliegenheit | D02355 |
L815497 | beistehen | beistehen | beistehen | B03303 |
L823515 | Haftbefehl | Haftbefehl | Haftbefehl | H00646 |
L823745 | Haarkünstler | Haarkünstler | Haarkuenstler | H00133 |
L824429 | Handelsgewerbe | Handelsgewerbe | Handelsgewerbe | H01876 |
L824497 | hampeln | hampeln | hampeln | H01726 |
L833920 | einkacheln | einkacheln | einkacheln | E02008 |
L835288 | Angebinde | Angebinde | Angebinde | A03751 |
L838553 | auserkiesen | auserkiesen | auserkiesen | A07943 |
L840242 | Bankert | Bankert | Bankert | B00617 |
L856715 | Dumper | Dumper | Dumper | D05516 |
L861874 | Menschenmenge | Menschenmenge | Menschenmenge | M03986 |
L869557 | Pressung | Pressung | Pressung | P07358 |
L873456 | unterfahren | unterfahren | unterfahren | U10334 |
L892082 | patriarchalisch | patriarchalisch | patriarchalisch | P01298 |
L892646 | Pauke | Pauke | Pauke | P01344 |
L897781 | Obertasse | Obertasse | Obertasse | O00398 |
L911722 | Hackbank | Hackbank | Hackbank | H00449 |