Wikidata-Kooperation des DWDS

Wikidata is a free and open knowledge base that can be read and edited by both humans and machines. – https://wikidata.org/

Das ZDL hat in seinem Projektantrag ein Arbeitspaket zur Dissemination seiner Ergebnisse im Austausch und in Zusammenarbeit mit Community-Projekten. Ursprünglich wurde hier an Projekte wie Wiktionary oder OmegaWiki gedacht. Im Oktober 2019 fand in Berlin dann die WikidataCon zum Thema languages and Wikidata statt. Hier gab es erste Gespräche mit der Community und der Wikimedia Foundation zu einer möglichen Zusammenarbeit.

Im Herbst 2022 war es dann soweit. Das DWDS als gegenwartssprachliche Komponente des ZDL spendete Daten in Form eines automatisierten Imports an Wikidata.

Der Datenimport

Der Import der Daten wurde über die MediaWiki API bzw. dessen Wikibase-Erweiterungen durchgeführt.

  1. Über einen Datenexport aller vorhandenen Lexeme in Wikidata wurde ermittelt, welche Lexeme aus dem DWDS importiert werden können.
  2. Mittels eines MediaWiki-Clients wurde ein Import-Bot entwickelt.
  3. Der Bot wurde zunächst gegen eine containerisierte Wikibase-Testinstanz getestet.
  4. Dann durchlief er einen Wikidata-seitigen QA-Prozess.
  5. Nach Akzeptanz des Bots wurden ca. 185.000 Lexeme importiert.

Sprachen in Wikidata

Infolge des Imports ist Deutsch eine der am umfrangreichsten repräsentierten Sprachen in Wikidata.

German: 213574GermanRussian: 101627RussianEstonian: 83210EstonianEnglish: 72823EnglishMalayalam: 63369MalayalamLatin: 56203LatinModern Greek: 43313Modern GreekSwedish: 40447SwedishSpanish: 35278SpanishAragonese: 32273AragoneseBokmål: 31108BokmålHebrew: 29920HebrewCzech: 25703CzechBasque: 22944BasqueDanish: 21049DanishIndonesian: 19724IndonesianFrench: 19313FrenchSlovak: 16476SlovakUkrainian: 16264UkrainianPersian: 14713Persian

Lexicographical Data – Model

Wikidata modelliert Wissen in seiner Datenbasis in Form von Aussagen, ähnlich wie in RDF-basierten Wissengraphen aus dem Kontext des Semantic Web. Aussagen und das Schema, dem diese Aussagen genügen sollen, werden derselben Datenbasis entwickelt und gepflegt. Das Datenmodell für lexikographische Informationen in Wikidata lehnt sich dabei an das Lexicon Model for Ontologies (lemon) an und ist durch die Community erweiterbar.

image/svg+xml L-id L-id L-id L-id L-id L-id Lexeme Lexème Lexema Lexém Lexema Leksem a meaning carrying part of a language, such as a word or a phrase unité de sens, comme un mot ou une expression unidad lingüística con significado propio, como una palabra o una expresión spojení nesoucí část jazyka, jako je slovo nebo fráze um significado carregando parte de uma língua, como uma palavra ou uma frase znaczenie niosące część języka, takie jak słowo lub fraza Lemma Lemme Lema Lemma lema Lemma standard form or dictionary form of the lexeme forme standard ou forme du dictionnaire d'un lexème forma estándar o de diccionario de un lexema standardní či slovníková forma lexému forma padrão ou a forma de dicionário de um lexema standardowa forma leksemu obecna w słownikach for verbs this is usually the infinitive form, for a noun the nominative singular, etc. pour les verbes, il s'agit d'habitude de l'infinitiv, pour un nom du nominatif singulier, etc. para un verbo es normalmente el infinitivo; para los nombres, el nominativo singular; etc. pro slovesa je toto obvykle infinitiv, pro podstatná jména nominativ singuláru apod. para verbos isto é normalmetne a forma infinitiva, para um substantivo o singular nomativo, etc. dla czasowników jest to zwykle bezokolicznik, dla rzeczownika mianownik liczby pojedynczej itd. Lexical category Catégorie lexicale Categoría léxica Mluvnická kategorie Categoria léxica Kategoria leksykalna also known as the part of speech or word class connue aussi sous le nom de partie du discours ou nature du mot también conocida como categoría gramatical také známé jako slovní druh também conhecido como parte da fala ou classe de palavras nazywana również częścią mowy lub klasą słowa defines the lexeme to be either a noun, or a verb, or an adjective, etc. définit le lexème comme étant un nom, un verbe, un adjectif, etc. define si el lexema es un nombre, un verbo, un adjetivo, etc. určuje, zda je lexém podstatným jménem, slovesem, přidavným jménem apod. define um lexema para ser ou um substantivo, um verbo, ou um adjetivo, etc. definiuje leksem jako rzeczownik, czasownik, przymiotnik itp. the set of possible values is open and taken from the Wikidata items la liste de valeurs possibles est ouverte, et prise parmi les éléments Wikidata la lista de posibles valores queda abierta a los elementos de Wikidata množina možných hodnot se přebírá z Wikidata položek o conjunto de valores possíveis é aberto e obtido de itens do Wikidata zbiór możliwych wartości jest otwarty i pobierany z elementów Wikidanych Language Langue Lengua Jazyk Língua Język chosen in an open list from Wikidata items prise dans une liste ouverte d'éléments Wikidata escogida de entre una lista abierta de elementos de Wikidata určen prostřednictvím jeho Wikidata položky escolhida em uma lista aberta de elementos do Wikidata wybierany z otwartej listy elementów Wikidanych Statements Déclarations Declaraciones Výroky Declarações Deklaracja e.g. derived-from, region, period, usage example, homonym, etc. ex. dérivé de, région, période, exemple d'usage, homonyme, etc. p. ej., derivado de, región, periodo, ejemplo de uso, homónimo, etc. např. odvozeno z, region, ve kterém se používá, homonyma apod. ex. forma derivada, região, período, exemplo de uso, homônimo, etc. np. pochodzenie, region i okres użytkowania, przykład użycia, homonimy itp. Forms Formes Formas Tvary Formas Formy specific, conjugated or inflexed forms of the lexeme forms spécifiques, conjuguées ou fléchies du lexème formas específicas, conjugadas o flexivas del lexema konkrétní skloněná nebo časovaná forma lexému formas específicas, conjugadas ou flexões do lexema specyficzna forma leksemu np. fleksyjna Representation Représentation Representación Reprezentace Representação Reprezentacja the actual string value realizing a given form la chaîne de caractères réalisant une forme donnée la cadena de caracteres concreta que materializa una cierta forma daný tvar ve své textové podobě a cadeia de caracteres concreta que materializa uma certa forma rzeczywista wartość tekstowa realizująca daną formę Grammatical features Traits grammaticaux Rasgos gramaticales Gramatické vlastnosti Características gramaticais Charakterystyka gramatyczna e.g. normative, comparative, past tense, etc. ex. normatif, comparatif, passé simple, etc. p. ej., nominativo, comparativo, presente simple, etc. např. nominativ, komparativ, minulý čas apod. ex. normativo, comparativo, pretérito perfeito, etc. np. mianownik, stopień wyższy, czas przeszły itp. Statements Déclarations Declaraciones Výroky Declarações Deklaracje e.g. region, period, pronunciation, etc. ex. région, période, prononciation, etc. p. ej., región, periodo, pronunciación, etc. např. region, ve kterém se tvar používá, výslovnost apod. ex. região, período, pronunciação, etc. np. region i okres użytkowania, wymowa itp. Senses Sens Significados Významy Significados Znaczenia Gloss Glose Glosa Definice Glossário Definicja short description, translatable in all languages of Wikidata courte description, traduisible dans toutes les langues de Wikidata descripción breve y traducible a cualquier lengua de Wikidata krátký popisek, přeložitelný do všech jazyků Wikidat descrição curta, traduzível para todas as línguas do Wikidata krótki opis, przetłumaczalny na wszystkie języki Wikidanych Statements Déclarations Declaraciones Výroky Declarações Deklaracje e.g. translations, synonyms, connotation, register, refers-to-concept, etc. ex. traductions, synonymes, connotation, registre, désigne le concept, etc. p. ej., traducciones, sinónimos, connotaciones, registro, referente, etc. např. překlady, synonyma, konotace, příklady použití apod. nex. traduções, sinônimos, conotações, registro, referente, etc. np. tłumaczenia, synonimy, konotacja, przykłady, odniesienie do pojęcia itp. one 1 uno jedna um jedna one 1 una jedna um jedna one 1 una jeden um jeden one 1 una jedna um jedna one 1 una jedna um jedna many n varias mnoho várias wiele many n varias mnoho várias wiele many n varios mnoho várias wiele many n varias mnoho várias wiele many n varios mnoho vários wiele many n varias mnoho várias wiele

Nutzung der Datenbasis – Abfragen via SPARQL

Wikidata bietet einen Abfragedienst – den Wikidata Query Service, über den mittels SPARQL Abfragen an die Wissensbasis gestellt werden können.

Die dem obigen bubble chart zugrundeliegende Abfrage sieht wie folgt aus:

(->>
(wdq/query
'{:select [?language [(count :*) ?lexemes]]
:where [[_ :dct/language ?language]]
:group-by [?language]
:order-by [(desc ?lexemes)]})
(map (juxt (comp wdq/label :language)
(comp clerk/html wd-a :language)
:lexemes))
(cons ["Sprache" "WD-ID" "Lexeme"])
(clerk/use-headers))
Sprache
WD-ID
Lexeme
GermanQ188213572
RussianQ7737101627
EstonianQ907283210
EnglishQ186072823
MalayalamQ3623663369
LatinQ39756203
Modern GreekQ3651043313
SwedishQ902740450
SpanishQ132135279
AragoneseQ876532273
BokmålQ2516731109
HebrewQ928829920
CzechQ905625703
BasqueQ875222944
DanishQ903521067
IndonesianQ924019724
FrenchQ15019313
SlovakQ905816476
UkrainianQ879816264
PersianQ916814714
1068 more elided

Informationen zu deutschen Lexemen in Wikidata

Da das Schema ebenfalls in Wikidata enthalten ist und über den Abfragedienst zur Verfügung steht, können wir auch das Schema per SPARQL untersuchen. Alle Eigenschaften, die Lexemen zugewiesen werden können:

(def lexeme-properties
(->>
`{:select [?prop]
:where [[?prop ~(wdt :instance-of) ~(wdq/entity "Wikidata property for lexemes")]]
:order-by [(asc ?prop)]}
(wdq/query)
(into #{} (map #(keyword "wdt" (name (:prop %)))))))
#{:wdt/P10242 :wdt/P10292 :wdt/P10338 :wdt/P10831 :wdt/P11033 :wdt/P11038 :wdt/P11055 :wdt/P11056 :wdt/P11068 :wdt/P11069 :wdt/P11070 :wdt/P11071 :wdt/P11075 :wdt/P11130 :wdt/P11138 :wdt/P11228 :wdt/P11230 :wdt/P11263 :wdt/P11274 :wdt/P11275 109 more elided}

Anzahl der Eigenschaften:

(count lexeme-properties)
129

Für die ermittelten Eigenschaften fragen wir jeweils die Anzahl der Entitäten/Lexeme ab, denen Werte für die Eigenschaft zugewiesen wurden:

(def german-lang
(wdq/entity "German"))
(->>
(wdq/query
`{:select [?d ?c]
:where [~(->>
`[[:where {:select [[(count ?l) ?c] [~prop ?d]]
:where [[?l ~prop _]
[?l :dct/language ~german-lang]]}]]
(for [prop props])
(into [:union]))]})
(for [props (partition-all 25 lexeme-properties)])
(flatten)
(filter (comp pos? :c))
(map (juxt (comp clerk/html wd-a :d) (comp wdq/label :d) :c))
(sort-by #(nth % 2) #(compare %2 %1))
(cons ["WD-ID" "Eigenschaft" "dt. Lexeme"])
(clerk/use-headers))
WD-ID
Eigenschaft
dt. Lexeme
P9940DWDS lemma ID206117
P8376Duden ID151336
P5185grammatical gender149601
P11519elexiko ID138004
P9947WDG lemma ID84802
P9385DWB lemma ID49565
P9387GWB lemma ID34972
P9388Meyers lemma ID17349
P9386DWB2 lemma ID15437
P9389RDWB1 lemma ID8480
P9384Adelung lemma ID8321
P5238combines lexemes7630
P9390Wander lemma ID7182
P11521OWID Deutsches Fremdwörterbuch ID4109
P5187word stem2106
P5911paradigm class1597
P5402homograph lexeme1310
P11520OWID Neologismenwörterbuch ID1054
P5401auxiliary verb936
P5191derived from lexeme557
16 more elided

Abgleich verschiedener Wörterbuchbestände

Da eine große Zahl an Lexemen in Wikidata über externe Identifikatoren verfügen, lassen sich zum Beispiele Abgleiche zwischen verschiedenen Wörterbuchbeständen realisieren.

(->>
(wdq/query
`{:select [?lemma ?dwds ?duden ?dwb ?lexeme]
:where [[?lexeme :wikibase/lemma ?lemma]
[?lexeme ~(wdt :DWDS-lemma-ID) ?dwds]
[?lexeme ~(wdt :Duden-ID) ?duden]
[?lexeme ~(wdt :DWB-lemma-ID) ?dwb]]
:limit 20})
(map (juxt (comp clerk/html wd-a :lexeme) :lemma :dwds :duden :dwb))
(cons ["WD-ID" "Lemma" "DWDS" "Duden" "DWB"])
(clerk/use-headers))
WD-ID
Lemma
DWDS
Duden
DWB
L221788HäherHäherHaeherH00799
L498720DurchsetzungDurchsetzungDurchsetzungD06694
L765365DienstobliegenheitDienstobliegenheitDienstobliegenheitD02355
L815497beistehenbeistehenbeistehenB03303
L823515HaftbefehlHaftbefehlHaftbefehlH00646
L823745HaarkünstlerHaarkünstlerHaarkuenstlerH00133
L824429HandelsgewerbeHandelsgewerbeHandelsgewerbeH01876
L824497hampelnhampelnhampelnH01726
L833920einkachelneinkachelneinkachelnE02008
L835288AngebindeAngebindeAngebindeA03751
L838553auserkiesenauserkiesenauserkiesenA07943
L840242BankertBankertBankertB00617
L856715DumperDumperDumperD05516
L861874MenschenmengeMenschenmengeMenschenmengeM03986
L869557PressungPressungPressungP07358
L873456unterfahrenunterfahrenunterfahrenU10334
L892082patriarchalischpatriarchalischpatriarchalischP01298
L892646PaukePaukePaukeP01344
L897781ObertasseObertasseObertasseO00398
L911722HackbankHackbankHackbankH00449

Statistiken zu Wortklassenverteilungen

(defn pos-stats
[ext-id]
(wdq/query
`{:select [?pos [(count ?lexeme) ?c]]
:where [[?lexeme :wikibase/lexicalCategory ?pos]
[?lexeme ~(wdt ext-id) _]]
:group-by [?pos]
:order-by [(desc ?c)]
:limit 10}))
(clerk/row
(->>
(pos-stats :elexiko-ID)
(map (juxt (comp clerk/html wd-a :pos) (comp wdq/label :pos) :c))
(cons ["W-ID" "elexiko-Wortklasse" "Lexeme"])
(clerk/use-headers)
(clerk/table))
(->>
(pos-stats :DWB-lemma-ID)
(map (juxt (comp clerk/html wd-a :pos) (comp wdq/label :pos) :c))
(cons ["W-ID" "DWB-Wortklasse" "Lexeme"])
(clerk/use-headers)
(clerk/table)))
W-ID
elexiko-Wortklasse
Lexeme
Q1084noun107016
Q34698adjective15342
Q24905verb13111
Q380057adverb1498
Q147276proper noun525
Q63116numeral188
Q83034interjection174
Q4833830preposition61
Q36484conjunction39
Q184943particle14
W-ID
DWB-Wortklasse
Lexeme
Q1084noun34453
Q24905verb7858
Q34698adjective6169
Q380057adverb823
Q83034interjection91
Q63116numeral56
Q36484conjunction38
Q147276proper noun24
Q4833830preposition18
Q102047suffix15