10. Open Access Open Data Lizenzen: Rozdźěl mjez wersijomaj
(4 mjezywersije wot samsneho wužiwarja njepokazane) | |||
Rjadka 64: | Rjadka 64: | ||
<span style="color:#000000;">Der Urheber ist im Besitz der Verwertungsrechte und kann diese auch nicht abtreten. Er allein darf entscheiden, wann und in welcher Form sein Werk veröffentlicht, vervielfältigt oder verbreitet wird. Er kann Dritten erlauben, sein Werk zu nutzen. Möglich ist dies durch die Einräumung von Nutzungsrechten durch einen Lizenzvertrag. In diesem werden die Parameter für eine Verwendung definiert.</span><span style="color:#000000;"><ref name="ftn3">vgl. [https://www.urheberrecht.de/nutzungsrecht/ https://www.urheberrecht.de/nutzungsrecht/]</ref></span> | <span style="color:#000000;">Der Urheber ist im Besitz der Verwertungsrechte und kann diese auch nicht abtreten. Er allein darf entscheiden, wann und in welcher Form sein Werk veröffentlicht, vervielfältigt oder verbreitet wird. Er kann Dritten erlauben, sein Werk zu nutzen. Möglich ist dies durch die Einräumung von Nutzungsrechten durch einen Lizenzvertrag. In diesem werden die Parameter für eine Verwendung definiert.</span><span style="color:#000000;"><ref name="ftn3">vgl. [https://www.urheberrecht.de/nutzungsrecht/ https://www.urheberrecht.de/nutzungsrecht/]</ref></span> | ||
[[Image:Grafik 32.png| | [[Image:Grafik 32.png|800px]] | ||
Siehe [https://www.rechnungswesen-verstehen.de/upload/U3_Urheberrecht.png https://www.rechnungswesen-verstehen.de/upload/U3_Urheberrecht.png] | |||
Rjadka 111: | Rjadka 111: | ||
==== Lizenzierung von Wörterbüchern ==== | ==== Lizenzierung von Wörterbüchern ==== | ||
* | * Rechtsgrundlage ist hier das Urheberrecht allgemein und das Urheberrechtsgesetz § 4 Sammelwerke und Datenbankwerke [https://dejure.org/gesetze/UrhG/4.html https://dejure.org/gesetze/UrhG/4.html] </u>im Speziellen. | ||
* | * D. h. auch wenn der einzelne Wörterbuchartikel nicht zwingend die für die Anwendung des Urheberrechts notwendige Schöpfungshöhe besitzen muss, so dürfte das in fast allen praktischen Fällen für die Zusammenstellung selbst gelten, weil hier mit hoher Wahrscheinlichkeit ein individueller Gestaltungsspielraum bei der Zusammenstellung zum Tragen kam. | ||
* | * Zum Vergleich die Situation bei bloßen Wortlisten: Offensichtlich kann für ein einzelnes Wort kein Urheberschutz beansprucht werden. Relevant ist nun, welcher individuelle Spielraum bei der Zusammenstellung der Wortliste für den konkreten Zweck bestand. Da z. B. bei einer Wortliste für eine Rechtschreibprüfung der individuelle Spielraum im Wesentlichen nur in der Vollständigkeit und der Fehlerfreiheit der Zusammenstellung liegt, dürfte es wohl hier nicht möglich sein, einen Urheberschutz zu beanspruchen. | ||
==== Fachliche Terminologien ==== | ==== Fachliche Terminologien ==== | ||
Rjadka 122: | Rjadka 122: | ||
Bei der Erschaffung linguistischer Ressourcen mit dem Ziel, diese frei verfügbar zu machen, spielen verschiedene arbeitsrechtliche Aspekte eine Rolle, die im Weiteren näher ausgeführt werden.<ref name="ftn9">vgl. auch [https://www.legalsmart.de/blog/das-urheberrecht-im-arbeitsverhaeltnis/ https://www.legalsmart.de/blog/das-urheberrecht-im-arbeitsverhaeltnis/] und [https://www.ra-himburg-berlin.de/urheberrecht/faq/50-urheberrecht-arbeitnehmer.html https://www.ra-himburg-berlin.de/urheberrecht/faq/50-urheberrecht-arbeitnehmer.html]</ref> | Bei der Erschaffung linguistischer Ressourcen mit dem Ziel, diese frei verfügbar zu machen, spielen verschiedene arbeitsrechtliche Aspekte eine Rolle, die im Weiteren näher ausgeführt werden.<ref name="ftn9">vgl. auch [https://www.legalsmart.de/blog/das-urheberrecht-im-arbeitsverhaeltnis/ https://www.legalsmart.de/blog/das-urheberrecht-im-arbeitsverhaeltnis/] und [https://www.ra-himburg-berlin.de/urheberrecht/faq/50-urheberrecht-arbeitnehmer.html https://www.ra-himburg-berlin.de/urheberrecht/faq/50-urheberrecht-arbeitnehmer.html]</ref> | ||
* | * Nach § 43 UrhG erwirbt der Arbeitgeber (Dienstherr) Nutzungsrechte an den vom Arbeitnehmer (Dienstnehmer) in Erfüllung des Arbeitsvertrages (Dienstvertrages) geschaffenen Werken gem. der Zweckübertragungsregel nach § 31 Abs. 5 UrhG jedoch nur in dem Umfang, in dem sie für betriebliche oder dienstliche Zwecke benötigt werden. | ||
* | * Gerade im kreativ-wissenschaftlichen Bereich kann es aber unklar sein, ob hier § 43 UrhG anwendbar ist bzw. ob die Anwendung von § 43 im Einzelfall zu „ungewollten“ Nutzungsbeschränkungen auf Seiten des Arbeitgebers führt. | ||
* | * Fraglich ist insbesondere, ob dem Arbeitgeber „automatisch“ exklusive Rechte zustehen. | ||
* | * Dem steht der Gestaltungsspielraum des Arbeitgebers bei der Formulierung der Arbeitsverträge gegenüber. | ||
=== Besondere Aspekte bzgl. Open Data und Minderheitensprachen === | === Besondere Aspekte bzgl. Open Data und Minderheitensprachen === | ||
Rjadka 180: | Rjadka 180: | ||
==== Terminologien ==== | ==== Terminologien ==== | ||
Eine Definition des Begriffes befindet sich in Abschnitt | Eine Definition des Begriffes befindet sich in Abschnitt [https://koncept.serbski-inkubator.de/index.php/11._Pr%C3%A4senz_in_Standards#Terminologien 11. Präsenz in Standards]. Fachliche Terminologien bzw. fachliche Textkorpora in den sorbischen Sprachen sind in der Vergangenheit an verschiedensten Stellen entstanden, sowohl durch engagierte Privatpersonen als auch durch sorbische Organisation erstellt. | ||
Das WITAJ-Sprachzentrum hat als Beispiel für eine sorbische Institution eine Reihe von fachlichen Terminologien erstellt, die <span style="color:#000000;">im Domowina-Verlag veröffentlicht wurden.</span><span style="color:#000000;"><ref name="ftn19">vgl. [https://www.domowina-verlag.de/catalogsearch/result/?q=terminologija https://www.domowina-verlag.de/catalogsearch/result/?q=terminologija]</ref></span><span style="color:#000000;"> </span>Eine Reihe von Wörtern aus den Terminologiebänden sind in das Projekt Soblex.de eingeflossen. Die vollständige Bereitstellung der bereits in gedruckter Form vorliegenden Fach-Terminologien unter Soblex.de ist noch nicht abgeschlossen. | Das WITAJ-Sprachzentrum hat als Beispiel für eine sorbische Institution eine Reihe von fachlichen Terminologien erstellt, die <span style="color:#000000;">im Domowina-Verlag veröffentlicht wurden.</span><span style="color:#000000;"><ref name="ftn19">vgl. [https://www.domowina-verlag.de/catalogsearch/result/?q=terminologija https://www.domowina-verlag.de/catalogsearch/result/?q=terminologija]</ref></span><span style="color:#000000;"> </span>Eine Reihe von Wörtern aus den Terminologiebänden sind in das Projekt Soblex.de eingeflossen. Die vollständige Bereitstellung der bereits in gedruckter Form vorliegenden Fach-Terminologien unter Soblex.de ist noch nicht abgeschlossen. | ||
Rjadka 255: | Rjadka 255: | ||
|- | |- | ||
|} | |} | ||
---- | ---- | ||
<references/> | <references/> |
Aktualna wersija wot 4. meje 2022, 15:45
Einleitung
Dieser Themenbereich beinhaltet die Grundlagenthematik der (freien) Nutzbarkeit von vorhandenen Daten, Texten, Übersetzungen usw., welche für die Entwicklung von digitalen Sprachdiensten notwendig sind. Dazu gehören:
- Förderung von Open Data und Open Access
- Erwerb von Lizenzen, Rechten etc.
- Lizenzen für sorbische Texte aller Art
Visionen und Ziel für die sorbische digitale Welt
Visionen 2025
Konkrete Vision 2022
Konkretes Ziel
Eine Übersicht über die vorhandenen Daten (Wörter, Wörterbücher, Sätze, Textkorpora usw.) und deren nutzungsrechtliche Lage ist erstellt. Alle Produzenten und Nutzer dieser Daten haben sich über Probleme ausgetauscht und konkrete Lösungsmöglichkeiten erarbeitet. Maßnahmen hierfür sind geplant und begonnen. |
In den nachfolgenden Abschnitten dieses Themenbereichs sind Zuarbeiten von Bernhard Baier eingeflossen.
Ist-Analyse Rahmenbedingungen bei Urheber- und Nutzungsrechten
In diesem Abschnitt sollen mehrere Aspekte des Themenbereiches beleuchtet werden. Zunächst werden die notwendigen Begriffe erläutert, anschließend die Situation von linguistischen Ressourcen im Kontext von Open Data analysiert, es wird auf die arbeitsrechtliche Situation eingegangen und abschließend werden die Besonderheiten von Minderheiten in diesem Kontext dargelegt.
Begriffsabgrenzungen / Definitionen
Hinweis: Zu den im Folgenden aufgeführten Begriffen existieren in der Literatur verschiedene, nicht unbedingt deckungsgleiche Begriffsdefinitionen. Die Begriffsdefinitionen hier wurden mit dem Ziel gewählt, die Abgrenzung der Begriffe untereinander zu erleichtern.
Open Access
Der Begriff beschreibt die freie Zugänglichmachung von wissenschaftlichen (Forschungs-)Ergebnissen. Die Motivation dahinter ist folgende: Wenn wissenschaftliche Arbeiten ganz oder überwiegend durch öffentliche Gelder finanziert werden, sollte der freie Zugang zu diesen Arbeiten nicht durch eine „Paywall“ verhindert werden.
Das Problem wurde durch die sog. „Zeitschriftenkrise“ (extreme Preissteigerungen bei den wissenschaftlichen Zeitschriften bei gleichbleibenden Etats der Bibliotheken) verschärft:
- Wissenschaftler/wissenschaftliche Einrichtungen mit geringem Budget sollen nicht vom wissenschaftlichen Diskurs ausgeschlossen werden
- Doppelfinanzierung durch die öffentliche Hand (bei der Forschung selbst und der Publikation der Ergebnisse) ist zu vermeiden.
Open Content
Bezieht sich auf die via Open Access bereitgestellten Daten mit dem Fokus auf eine geeignete Lizenzierung dieser Daten.
Zitat:
Soll mittels einer Open Content-Lizenz ein offener Zugang zu wissenschaftlichen Informationen im Sinne eines "echten Open Access" vermittelt werden, muss die Lizenz die hierfür als unerlässlich angesehenen Nachnutzungen des lizenzierten Werkes erlauben.[1]
- Insbesondere die Creative Commons (CC)-Lizenzen[2] genügen den Anforderungen an eine Open Content Lizenz.
Open Data
Allgemeiner Oberbegriff zu Open Access und Open Content, bezieht sich dabei nicht nur auf wissenschaftliche Publikationen bzw. Forschungsergebnisse, sondern auch auf Daten, welche im Rahmen des Verwaltungshandelns der öffentlichen Hand anfallen. Die Motivation ist hier, mehr Transparenz in der öffentlichen Verwaltung zu erreichen („open government“).
In diesem Zusammenhang wird auch das Konzept der „Wissensallmende“ bemüht: Die Besonderheit dieser Art von Allmende liegt darin, dass sich Wissen im Gegensatz zu materiellen Gütern bei Benutzung nicht abnutzt.
Urheber – Verwertungsrecht – Nutzungsrechte
Der Urheber ist im Besitz der Verwertungsrechte und kann diese auch nicht abtreten. Er allein darf entscheiden, wann und in welcher Form sein Werk veröffentlicht, vervielfältigt oder verbreitet wird. Er kann Dritten erlauben, sein Werk zu nutzen. Möglich ist dies durch die Einräumung von Nutzungsrechten durch einen Lizenzvertrag. In diesem werden die Parameter für eine Verwendung definiert.[3]
Siehe https://www.rechnungswesen-verstehen.de/upload/U3_Urheberrecht.png
Linguistische Ressourcen und Open Data
Die Bereitstellung linguistischer Ressourcen unter dem Label „Open Data“ konzentriert sich vor allem auf zwei Arten linguistischer Ressourcen: Korpus-Daten und Wörterbücher.
Korpus-Daten
Ein Textkorpus ist eine Sammlung von schriftlich, im engeren Sinne digital, vorliegenden Texten. Die Aufnahme eines Textes in einen Textkorpus erfolgt dabei nach bestimmten Kriterien (z. B. verwendete Sprache(n), Textgattung, Entstehungszeitraum usw.)
Viele linguistische Analysen stützen sich auf Textkorpora, deswegen nimmt diese Art von Daten eine besonders zentrale Rolle in der linguistischen Forschung ein.
Beispiel für Textkorpora mit jeweils einer bestimmten Sprache:
Beispiel für eine linguistische Analyse auf Basis eines Textkorpus:
Eine internationale Sammlung von Korpusdaten von Minderheiten-Sprachen inkl. der ober- und niedersorbischen Sprache zur freien Nutzung finden sich bei http://crubadan.org/.[4]
Für die maschinelle Übersetzung spielen bilinguale Textkorpora eine zentrale Rolle. Die modernen Verfahren zur Textanalyse, welche z. B. für die Erstellung von Wörterbüchern benötigt werden, basieren auf statistischen oder neuronalen Algorithmen, die als Input einen sog. Parallel-Korpus benötigen.
Lizenzierung von Textkorpus-Daten
Eine besondere Thematik ist die Frage der notwendigen Lizenzen, um die Textkorpus-Daten weiterverarbeiten zu können. Typischerweise speist sich ein Textkorpus aus einer Vielzahl von Quellen, so dass eine Lizenzierung der Originaldaten in der Regel nicht praktikabel ist.
In der Literatur ist die Meinung vorherrschend, dass folgende Vorgehensweise rechtlich unbedenklich ist[5]:
- Die Quelltexte werden nach Sätzen segmentiert.
- Die Sätze werden in eine zufällige Reihenfolge gebracht.
Diese beiden Maßnahmen sollen sicherstellen, dass eine Rekonstruktion der originalen Quelltexte ganz oder teilweise unmöglich ist. Unter dieser Voraussetzung ist es möglich, einen Textkorpus unter einer Open Content-Lizenz bereitzustellen.
Wörterbücher
Ein Wörterbuch ist ein Nachschlagewerk, welches Wörter oder andere sprachliche Einheiten in einer meist alphabetisch sortierten Liste verzeichnet und jedem Eintrag (Lemma) erklärende Informationen und / oder sprachliche Äquivalente zuordnet (siehe Wikipedia[6]).
Ähnlich wie Textkorpusdaten stellen digital strukturiert aufbereitete Wörterbücher eine linguistische Ressource von essenzieller Bedeutung dar.
Die freie Zugänglichmachung von digitalen Wörterbüchern hat sich z. B. das FreeDict-Projekt[7] zur Aufgabe gemacht. Auf der Webseite des Projektes werden eine Vielzahl von bilingualen Wörterbüchern mit reichhaltigen Wörterbuchartikeln auf Grundlage eines standardisiertes XML-Formats[8] bereitgestellt.
Lizenzierung von Wörterbüchern
- Rechtsgrundlage ist hier das Urheberrecht allgemein und das Urheberrechtsgesetz § 4 Sammelwerke und Datenbankwerke https://dejure.org/gesetze/UrhG/4.html im Speziellen.
- D. h. auch wenn der einzelne Wörterbuchartikel nicht zwingend die für die Anwendung des Urheberrechts notwendige Schöpfungshöhe besitzen muss, so dürfte das in fast allen praktischen Fällen für die Zusammenstellung selbst gelten, weil hier mit hoher Wahrscheinlichkeit ein individueller Gestaltungsspielraum bei der Zusammenstellung zum Tragen kam.
- Zum Vergleich die Situation bei bloßen Wortlisten: Offensichtlich kann für ein einzelnes Wort kein Urheberschutz beansprucht werden. Relevant ist nun, welcher individuelle Spielraum bei der Zusammenstellung der Wortliste für den konkreten Zweck bestand. Da z. B. bei einer Wortliste für eine Rechtschreibprüfung der individuelle Spielraum im Wesentlichen nur in der Vollständigkeit und der Fehlerfreiheit der Zusammenstellung liegt, dürfte es wohl hier nicht möglich sein, einen Urheberschutz zu beanspruchen.
Fachliche Terminologien
Mit fachlichen Terminologien ist hier eine Menge an Begriffen gemeint, die Sachverhalte innerhalb einer spezifischen fachlichen Domäne adressieren. Konkret handelt es sich hier um alle Facetten der Mensch-Maschine Schnittstelle, zum Beispiel Menübezeichnungen von grafischen Oberflächen, für Nutzeranweisungen, Programmrückmeldungen und/oder Nutzerinformationen, die sprachabhängig in einem Computerprogramm gestaltet werden können. Solche fachlichen Terminologien sind dementsprechend lange Listen mit deutschen bzw. englischen Fachbegriffen einer Domäne und ihren entsprechenden sorbischen Übersetzungen.
Arbeitsrechtliche Aspekte
Bei der Erschaffung linguistischer Ressourcen mit dem Ziel, diese frei verfügbar zu machen, spielen verschiedene arbeitsrechtliche Aspekte eine Rolle, die im Weiteren näher ausgeführt werden.[9]
- Nach § 43 UrhG erwirbt der Arbeitgeber (Dienstherr) Nutzungsrechte an den vom Arbeitnehmer (Dienstnehmer) in Erfüllung des Arbeitsvertrages (Dienstvertrages) geschaffenen Werken gem. der Zweckübertragungsregel nach § 31 Abs. 5 UrhG jedoch nur in dem Umfang, in dem sie für betriebliche oder dienstliche Zwecke benötigt werden.
- Gerade im kreativ-wissenschaftlichen Bereich kann es aber unklar sein, ob hier § 43 UrhG anwendbar ist bzw. ob die Anwendung von § 43 im Einzelfall zu „ungewollten“ Nutzungsbeschränkungen auf Seiten des Arbeitgebers führt.
- Fraglich ist insbesondere, ob dem Arbeitgeber „automatisch“ exklusive Rechte zustehen.
- Dem steht der Gestaltungsspielraum des Arbeitgebers bei der Formulierung der Arbeitsverträge gegenüber.
Besondere Aspekte bzgl. Open Data und Minderheitensprachen
Die Notwendigkeit für Open Access / Content / Data deckt sich speziell bei Minderheiten-Sprachen nur teilweise mit den oben beschriebenen Zielsetzungen und Motivationen:
- Die Schaffung zentraler linguistischer Ressourcen wie Wörterbücher etc. bei Minderheitensprachen ist oft in einer oder wenigen Institutionen mit spezialisiertem Fokus des Datenumgangs konzentriert.
- Die oben beschriebene Problematik mit Bezug zu der sog. „Zeitschriftenkrise“ besteht bei Minderheitensprachen in der Regel nicht, da schlicht kein „Markt“ für entsprechende Publikationen besteht.
- Auch die Generierung von Einnahmen im Rahmen eines Webangebots über Werbeeinblendungen dürfte bei Minderheitensprachen nicht erfolgversprechend sein.[10]
Open Data ist bei Minderheitensprachen besonders wichtig, um
- den Zugang zu den geschaffenen linguistischen Ressourcen für vielfältige Anwendungen sicherzustellen und
- die Verwendung für Sprachlehrmaterialen und Schulbücher zu erleichtern.
- Minderheitensprachen sind in der Regel auch „Low-Resource“-Sprachen, daher sind die vorhandenen Sprachressourcen begrenzt. Auch die Verfügbarkeit von sprachkundigen IT-Experten ist begrenzt (Programmierer, Computerlinguisten), an und außerhalb verantwortlicher Institutionen, welche jedoch für die Verarbeitung und Veröffentlichung linguistischer Ressourcen notwendig wären. Eine Zugänglichmachung dieser Ressourcen für die Initiativen weiterer „Ersteller von Anwendungen“ (Einzelpersonen, Wissenschaft, kommerziell) kann hier Abhilfe schaffen.
- Zur Erlangung einer entsprechenden Qualität, eines wissenschaftlichen Austausches und Weiterverarbeitung kann Open Data helfen, indem Experten anderer Sprachräume (auch bei z. B. sog. Peer-Review-Verfahren[11]) oder auch kommerziellen Interessenten Zugang zu Forschungsergebnissen und den zugrundeliegenden Rohdaten erleichtert wird.
Ist-Analyse sorbische Sprachressourcen und Lizenzierung
Im Folgenden wird versucht, den aktuellen Stand bzgl. Lizenzierung sorbischer digitaler linguistischer Sprachressourcen festzustellen und Konfliktfelder zu erkennen.
Wortlisten und Rechtschreibkontrollen
Niedersorbische Rechtschreibkontrolle[12]
Die Ergebnisse des Projekts niedersorbische Rechtschreibkontrolle ab 2018 stehen unter der Creative Commons Lizenz CC BY-SA – Namensnennung und Weitergabe unter gleichen Bedingungen.
Gemäß den Nebenbestimmungen der Zuwendung für dieses Projekt durch die Stiftung für das sorbische Volk stehen die neu in die Rechtschreibkontrolle aufgenommenen Wortformen Wortliste in Form einer Textdatei unter https://dolnoserbski.de/ortografija/kontrola digital, kostenfrei und zeitlich unbegrenzt zur Verfügung.[13]
Obersorbische Rechtschreibkontrolle[14]
Gemäß den Nebenbestimmungen der Zuwendung für dieses Projekt durch die Stiftung für das sorbische Volk stehen die ab 2019 neu in die Rechtschreibkontrolle aufgenommenen Wortformen als Wortliste in Form einer Textdatei unter https://hornjoserbsce.de/poskitki digital, kostenfrei und zeitlich unbegrenzt zur Verfügung. Auf die Lizenzierung der Wortlisten der Rechtschreibprüfmodule unter der Lizenz Creative Commons CC BY-SA wird unter https://soblex.de/?cmd=about& hingewiesen.
Eigennamen (Personennamen und geografische Bezeichnungen)
Niedersorbische Ortsnamen - Informationsservice Namen:
Gemäß den Nebenbestimmungen der Zuwendung für dieses Projekt durch die Stiftung für das sorbische Volk wurde die entstandene Internetseite www.dolnoserbski.de/mjenja mit einem Tracking Code versehen. Auch die im Zuwendungsbescheid geforderte Auflage, dass die erarbeiteten Daten unter einer freien Lizenz stehen, wurde erfüllt. Auf die entsprechende Lizenzierung Creative Commons CC BY-SA wird mit einem Hinweis auf der Webseite hingewiesen. Eine niedersorbische Ortsliste mit Metadaten ist unter https://dolnoserbski.de/mjenja/informacije im Datenformat TSV (Tab-Separated Values, durch Tabulatoren getrennte Werte) digital, kostenfrei und zeitlich unbegrenzt zugänglich.[15]
Datenbank obersorbischer Exonyme (geografische Bezeichnungen):
In Kooperation mit dem WITAJ-Sprachzentrum wurde durch das Sorbische Institut eine Datenbank entwickelt, in der obersorbische Entsprechungen für geographische Namen aller Kategorien aus aller Welt sprachlich korrekt und zentral zur Verfügung gestellt werden sollen, siehe https://www.serbski-institut.de/de/Datenbank-obersorbischer-Exonyme/.[16]
Die Einträge der Exonymdatenbank sind auch über einen in Soblex.de integrierten Suchindex erreichbar, welcher bei einer entsprechenden Suche einen direkten Link zur Datenbank obersorbischer Exonyme liefert, bspw. https://soblex.de/?cmd=search_soblex&p_slkey=exo.0237_berlin&.
Textkorpora
Obersorbischer Referenzkorpus
Die Ergebnisse des Projekts obersorbischer Referenzkorpus[17] stehen unter der Creative Commons Lizenz CC BY-SA – Namensnennung und Weitergabe unter gleichen Bedingungen.
Niedersorbischer Referenzkorpus
Die Ergebnisse des Projekts niedersorbischer Referenzkorpus[18] stehen unter der Creative Commons Lizenz CC BY-SA – Namensnennung und Weitergabe unter gleichen Bedingungen.
Terminologien
Eine Definition des Begriffes befindet sich in Abschnitt 11. Präsenz in Standards. Fachliche Terminologien bzw. fachliche Textkorpora in den sorbischen Sprachen sind in der Vergangenheit an verschiedensten Stellen entstanden, sowohl durch engagierte Privatpersonen als auch durch sorbische Organisation erstellt.
Das WITAJ-Sprachzentrum hat als Beispiel für eine sorbische Institution eine Reihe von fachlichen Terminologien erstellt, die im Domowina-Verlag veröffentlicht wurden.[19] Eine Reihe von Wörtern aus den Terminologiebänden sind in das Projekt Soblex.de eingeflossen. Die vollständige Bereitstellung der bereits in gedruckter Form vorliegenden Fach-Terminologien unter Soblex.de ist noch nicht abgeschlossen.
Auch die Verwaltung der Stiftung für das sorbische Volk hat für den Eigenbedarf fachliche Terminologien in sorbischer Sprache als Liste zusammengestellt. Hinsichtlich der niedersorbischen/ wendischen Sprache wurde die Liste an das Sorbische Institut und gleichzeitig an den Vorsitzenden der niedersorbischen Sprachkommission (in Personalunion) zur Prüfung übergeben. Allerdings fehlen Kapazitäten, um die Anfrage zu bearbeiten.
Aktuell existiert keine vollständige Übersicht und Sammlung der vorhandenen fachlichen Terminologien. Somit fängt jedes Lokalisierungs-Projekt neu an mit der Erstellung einer fachlichen Terminologie.
Darüber hinaus sind die bestehenden Übersetzungen in den Fachterminologien oft nicht zentral von linguistischem Fachpersonal geprüft. Somit können informationstechnische Begriffe wie „öffnen“, „einfügen“, „löschen“ usw. in verschiedenen Programmen und Oberflächen unterschiedlich übersetzt erscheinen, was für die Nutzenden sehr verwirrend sein kann.
Lokalisierung von Software-Anwendungen
Bei der Lokalisierung von Software-Anwendungen entstehen ebenfalls fachliche Terminologien. Eine weite Lokalisierung in den sorbischen Sprachen haben beispielsweise die Software-Produkte der Mozilla Foundation inkl. common voice sowie die Office-Systeme OpenOffice und LibreOffice erfahren.
Ebenso wurde die gesamte MediaWiki-Software lokalisiert. Diese steht nicht nur hinter Wikipedia und Wikidata, sondern auch einer Reihe weiterer Projekte. Diese Projekte können auch für eigene sorbische Wikis genutzt werden.
Das Interface der OpenStreetMap ist ebenfalls lokalisiert (jedoch nicht die Karte selbst). Im weiteren Sinne kann auch die o. g. Übersetzung von geografischen Namen (Orten) in der Datenbank OpenStreetMap zu der Bereitstellung von lokalisierten Terminologien gezählt werden.
Aktuell wird an der Lokalisierung der Oberfläche des sozialen Netzwerkes Facebook durch eine Gruppe aktiver sorbischer Facebook-Nutzer gearbeitet, wobei wiederum fachliche Terminologien entstehen. Der zentrale Veranstaltungs-Kalender der Stiftung für das sorbische Volk wurde ebenfalls in beide sorbische Sprachen lokalisiert.[20] Hier liegt ebenfalls eine fachliche Terminologie vor.
Es fehlt aktuell eine Bestandsanalyse, für welche der weitgenutzten Softwaresysteme eine Lokalisierung für die sorbischen Sprachen durchgeführt wurde.
Digitale Wörterbücher
Soblex.de
Für die digitalen Sprachressourcen von Soblex.de sind 21 Quellen aufgezählt, von denen mindestens sieben besonderen lizenzrechtlichen Bedingungen unterliegen.[21]
Der Quellcode der auf der Seite https://soblex.de/ bereitgestellten Applikationen steht unter der GNU General Public License Version 3. Die Wortlisten der Rechtschreibprüfmodule sowie die Silbentrennmuster stehen unter der Lizenz Creative Commons CC BY-SA.
Fazit
- Linguistische Sprachressourcen in den sorbischen Sprachen sind in der Vergangenheit an verschiedensten Stellen entstanden, sowohl durch engagierte Privatpersonen als auch durch sorbische Einrichtungen erstellt.
- Vor allem für die älteren dieser Ressourcen ist die Lage bzgl. Nutzungslizenzen unklar, v. a. ob und wofür diese Ressourcen verwendet werden dürfen, bspw. wenn sie für digitale Sprachwerkzeuge verwendet werden sollen.
- Gleichzeitig konnten oben genannte Fortschritte der Lizenzierung von Projektergebnissen mit Creative Commons Lizenzen gezeigt werden.
- Für die Erstellung von neuen Ressourcen durch engagierte Privatpersonen mit geringen linguistischen Kenntnissen wäre bei der Etablierung neuer Termini die laufende sprachwissenschaftliche Begleitung nach Open-Data-Prinzipien wünschenswert.
- Computerlinguistisches Fachpersonal steht bei den sorbischen Institutionen für das Obersorbische nur eingeschränkt zur Verfügung.
Zukünftige Maßnahmen und Projekte bzgl. open access, open data, Lizenzen
Die folgenden Maßnahmen ergeben sich aus der Ist-Analyse. Sie werden in Abschnitt 13.2 beschrieben.
Sub-Thema | Nr. | Maßnahme | Zielstellung |
Linguistische Ressourcen | 2.2_1 | Sammlung fachlicher Terminologien, Wortlisten, Lokalisierungen | Diese Maßnahme ist die Voraussetzung für mehrere Ziele verschiedener Themenbereiche, z. B. 2.1, 2.3, 1.2, 1.1, 4.1, darunter die beiden folgenden:
Eine Übersicht über die vorhandenen linguistischen Daten (Wörter, Wörterbücher, Sätze, Textkorpora usw.) und deren nutzungsrechtlicher Status ist erstellt. Eine Zusammenführung aller vorhandenen sorbischen Terminologien in einer Datenbasis steht für weitere Lokalisierungsvorhaben zur Verfügung. |
Open-Data | 2.2_2 | Entwicklung einer gemeinsamen sorbischen Open-Data-Richtlinie | Alle Produzenten und Nutzer von linguistischen Daten haben sich über Probleme ausgetauscht und konkrete Lösungsmöglichkeiten erarbeitet. |
Open-Data | 2.2_3 | Übersicht erstellen über vorhandene linguistische Ressourcen | Eine Übersicht über die vorhandenen Daten (Wörter, Wörterbücher, Sätze, Textkorpora usw.) und deren nutzungsrechtlichen Status ist erstellt. |
Lizenzen | 2.2_4 | Prüfung bestehender Verträge auf Nutzungsrechte | Die Arbeit- und Auftraggeber sollen die einfachen uneingeschränkten oder sogar die ausschließlichen Nutzungsrechte aller geschaffenen Werke ihres AN erhalten. |
- ↑ vgl. https://open-access.net/informationen-zu-open-access/rechtsfragen/rechtsfragen-in-deutschland/lizenzen
- ↑ Creative Commons, vgl. https://creativecommons.org/licenses/?lang=de
- ↑ vgl. https://www.urheberrecht.de/nutzungsrecht/
- ↑ vgl. http://crubadan.org/languages/dsb und http://crubadan.org/languages/hsb
- ↑ vgl. z.B. http://www.lrec-conf.org/proceedings/lrec2012/pdf/327_Paper.pdf, Abschnitt 3.5
- ↑ vgl. https://de.wikipedia.org/wiki/W%C3%B6rterbuch
- ↑ vgl. https://freedict.org/
- ↑ vgl. https://de.wikipedia.org/wiki/Text_Encoding_Initiative
- ↑ vgl. auch https://www.legalsmart.de/blog/das-urheberrecht-im-arbeitsverhaeltnis/ und https://www.ra-himburg-berlin.de/urheberrecht/faq/50-urheberrecht-arbeitnehmer.html
- ↑ vgl. Angebote wie https://www.duden.de/ oder https://www.leo.org/ mit ihren umfangreichen Werbeeinblendungen.
- ↑ vgl. https://de.wikipedia.org/wiki/Peer-Review
- ↑ vgl. www.dolnoserbski.de/dsrk/kontrola
- ↑ derzeit unter https://dolnoserbski.de/media/ortografija/nowe-slowa-20191209.zip
- ↑ vgl. https://hornjoserbsce.de/poskitki
- ↑ derzeit unter https://dolnoserbski.de/media/mjenja/zestajenje.zip
- ↑ bzw. hier https://www.serbski-institut.de/de/Geographische-Namen-obersorbisch/
- ↑ vgl. https://www.serbski-institut.de/os/hornjoserbski/ (bei diesem Link handelt es sich um den „älteren“ obersorbischen Textkopus Hotko)
- ↑ vgl. https://www.dolnoserbski.de/korpus/
- ↑ vgl. https://www.domowina-verlag.de/catalogsearch/result/?q=terminologija
- ↑ vgl. https://kalender.sorben.com/
- ↑ vgl. https://soblex.de/?cmd=about&