11. Präsenz in Standards: Rozdźěl mjez wersijomaj

z Digitalizaciski koncept
Zur Navigation springen Zur Suche springen
Rjadka 25: Rjadka 25:
|-
|-
|}
|}


{| style="border-spacing:0;"
{| style="border-spacing:0;"

Wersija wot 13. septembra 2021, 15:04

Einleitung

Dieser Themenbereich beinhaltet die Präsenz der sorbischen Sprachen in internationalen technischen Sprach-Standards wie ISO und Unicode. Mittels der Präsenz in Standards sollen die Grundlagen der sorbischen Sprachen unterschiedlichen technischen Systemen zugänglich gemacht werden.

Die Inhalte dieses Themenbereichs wurden erarbeitet und zur Verfügung gestellt von Wito Böhmak.


Visionen und Ziel für die sorbische digitale Welt

Vision 2025

„Sorben und Sorbisch-Lernende schreiben sehr leicht ober- und niedersorbisch auf elektronischen Geräten und werden vom Gerät dabei unterstützt, ihre sorbische Muttersprache respektive ihre Sprachfähigkeiten im Alltag oft und leicht anzuwenden.“
„Mitarbeitende in sorbischen Bereichen nutzen sorbische Benutzeroberflächen und wenden damit ihre sorbische Muttersprache im Arbeitsalltag oft und leicht an.“

Konkrete Vision 2022

„Beide sorbischen Sprachen sind in den wichtigsten internationalen technischen Sprach-Standards mit ausreichendem Abdeckungsgrad vertreten.“

Konkrete Ziele

In der jeweils aktuellen Version des Unicode CLDR soll der Abdeckungsgrad für die beiden sorbischen Sprachen das Level „Modern“ zu 100% erreichen.


Eine Zusammenführung aller vorhandenen sorbischen Terminologien in einer Datenbasis steht für weitere Lokalisierungsvorhaben zur Verfügung.

Ist-Analyse internationaler Standards

In diesem Abschnitt sollen die Grundlagen der technischen Sprach-Standardisierung, Lokalisierung und Internationali­sierung erläutert werden.

Zur Kenntlichmachung und Hervorhebung sind einzelne Abschnitte in den folgenden Farben markiert:

Orange: Relevanz für Minderheitensprachen

Blau: IST-Stand sorbische Sprachen

Grün: SOLL UND Maßnahmen für Sorbische Sprachen


Standardisierung in der digitalen Welt

Mit Standardisierung wird im Allgemeinen in Wirtschaft und Technik das Vorgehen beschrieben, (technische) Verfahren, Prozesse oder auch Typen von Produkten und Dienstleistungen zu vereinheitlichen. Damit soll sie u.a. zur Transparenz, Zusammenarbeit aber auch Ressourcenersparnis (Kostensenkung) in o. g. Umfeld beitragen.

In der globalen, “grenzüberschreitenden” digitalen Welt ist Standardisierung nicht wegzudenken. Ziel ist hier besonders die Interoperabilität und Kompatibilität von Systemen, sowie die Nachhaltigkeit gefundener Lösungen. Es geht um die Fähigkeit unterschiedlicher technischer Systeme – Maschinen, Hardware, Software – zusammenzuarbeiten, sich zu verstehen und Daten austauschen zu können – und das über einen längeren Zeitraum hinweg.

Die durch Standardisierung erreichte Transparenz in digitalen Produkten ist ebenfalls ein wichtiger Faktor gegen das Ausgrenzen von Gruppen und Sprachen aufgrund wirtschaftlicher Unrentabilität. In diesem Zusammenhang sei hier die Wichtigkeit von Open Source angesprochen, denn durch Open Source – flankiert durch Standards – lässt sich einer Monopolisierung von digitalen Dienstleistungen zugunsten einer offenen Wissens- und Wirtschaftsgesellschaft entgegenwirken, siehe Kapitel Fehler: Verweis nicht gefunden„Fehler: Verweis nicht gefunden“. Der Vorteil von offenem und standardisiertem Vorgehen gegenüber Abschottung ist von den großen IT-Playern erkannt worden, besonders durch das Geschäftsmodell der Cloud-Dienstleistungen.

Die Standardisierung in der digitalen Welt basiert besonders auf international anerkannten Regularien, die durch anerkannte Normierungsinstitutionen wie die IEC (International Electrotechnical Commission), die ISO (International Organization for Standardization) oder das Unicode Consortium gesteuert werden.

Lokalisierung und Internationalisierung

Wie sieht es im Bereich der Standardisierung mit der Unterstützung natürlicher Sprachen in der digitalen Welt aus? Hier sind besonders die sogenannte Internationalisierung (internationalization - i18n) und die Lokalisierung (localization l10n) zu betrachten. Die Beachtung dieser Faktoren ermöglicht erst die Verwendung verschiedener Sprachen in digitalen Anwendungen.

Internationalisierung bedeutet in dem hier diskutierten Kontext die Fähigkeit, ein System (meist Software-Programme) so zu gestalten, dass es “leicht” an andere Sprachen und Kulturen angepasst werden kann. Die Unterstützung verschiedener Sprachen soll in der Software durch Konfiguration und Variablen, flankiert durch die Bereitstellung von Sprachpaketen, möglich sein – nicht durch Anpassungen im Programmcode. Auch Angaben zur Datumsformatierung oder sprachabhängige Oberflächen zählen zur Internationalisierung.

Die Lokalisierung ist der Internationalisierung nachgelagert. Sie steht für die konkrete Ausgestaltung eines Sprachpakets, also die Befüllung von Variablen/Kennungen/Texten in einer konkreten Sprache unter Beachtung spezifischer kultureller Aspekte.

Internationalisierung ist somit die Befähigung eines Produkts, für verschiedene natürliche Sprachen eingesetzt werden zu können. Lokalisierung ist dann das Hinzufügen spezieller Eigenschaften für die Anwendung für bestimmte sprachliche, kulturelle, ethnische und geographische Nutzungsgebiete (Sprache/Land, Region oder ethnische Gruppe).

Gerade ressourcenarme Sprachen profitieren von diesem Ansatz, da für die Entwicklung (Kosten) einer Sprachvariante einer Anwendung vereinfacht betrachtet “nur” die sprachlichen Aspekte angepasst werden müssen. Die internationalisierte Lösung kann zuerst für “wirtschaftlich-starke Sprachen” verwendet werden und dann mit geringeren Kosten für kleinere Sprachen angepasst werden (siehe z. B. die Möglichkeit der Auswahl von Nieder- oder Obersorbisch in der Sprachauswahl eines iOS-Geräts).

Ist-Analyse Präsenz der sorbischen Sprachen in Standards

In diesem Abschnitt soll dargelegt werden, welche konkreten technischen Standards es im Umfeld der Internationalisierung und Lokalisierung von Sprachen gibt, die relevant für die sorbischen Sprachen sind. Gleichzeitig soll untersucht werden, ob die beiden sorbischen Sprachen ausreichend in den relevanten Standards vertreten sind.

Standards im Umfeld der Internationalisierung und Lokalisierung

>> ISO 639 <<

Lenken wir den Blick auf grundlegende Standards im Bereich der Sprachunterstützung. Mit gutem Recht lässt sich die internationale Norm der ISO, die ISO 639 als Grund-Norm für die Sprachunterstützung bezeichnen, werden doch hier die maschinenlesbaren Sprachcodes (mit zusätzlicher semantischer Beschreibung) für die natürlichen Sprachen festgelegt. Die in der Norm definierten Kennungen werden unter anderem in der Lexikographie, Linguistik, in Bibliotheken, Informationsdiensten und im Datenaustausch verwendet. Die Norm besteht aus sechs Teilnormen. Historisch entstand zuerst die Norm 639-1 mit Zwei-Buchstaben-Codes (ISO 639-1). Mittlerweile umfasst sie 6 Teilnormen.

Beide sorbischen Sprachen werden in der Norm 639-2 geführt, eine Norm mit 3-Buchstaben-Codes, die heute wohl weltweit neben der ISO 639-3 als die Basisnorm gilt. Obersorbisch hat den Sprachcode „hsb“, Niedersorbisch den Sprachcode „dsb“. Beide Sprachcodes wurden im Jahr 2003 in die ISO 639-2 aufgenommen. Interessant in diesem Zusammenhang ist ein weiterer „sorbischer“ Sprachcode, der Sprachfamilien-Code „wen“. Dieser war bereits bei „Gründung“ in der Norm 639-2 enthalten, was sich wohl auf seine Existenz in der USMARC-Code-Liste (einer Sprachcode-Liste der Library of Congress) zurückführen lässt.[1] Der Sprachcode „wen“ ist in der Codeliste 639-2 als Legacy-Sprachcode zu betrachten (zur Rückkompatibilität). In der Betrachtung als Sprachfamilien-Code hat er weiter seine Berechtigung und ist damit Teil der ISO 639-5 (Liste von kodierten Sprachfamilien).

Die Sprachcodes „dsb“ und „hsb“ sind auch in der Norm ISO 639-3 enthalten (entstanden 2007), deren Ziel eine umfassende Abdeckung aller Sprachen der Welt ist, gedacht als komplette Liste vor allem für den Einsatz in der IT, wo eine komplette Auflistung aller Sprachen gewünscht wird. Verwaltet wird sie von der Organisation SIL International in Zusammenarbeit mit der ISO.

Eintrag in der ISO 639-2[2]:


ISO 639-2 Code ISO 639-1 Code Englischer Name der Sprache Französischer Name der Sprache Deutscher Name der Sprache
dsb   Lower Sorbian bas-sorabe Niedersorbisch
hsb   Upper Sorbian haut-sorabe Obersorbisch
wen   Sorbian languages sorabes, langues Sorbisch (Andere)

>> BCP47 <<

Ein weiterer Standard im Umfeld der Sprachcodes ist der BCP47 (Best Current Practice), herausgegeben von der IETF (Internet Engineering Task Force). Dieser Standard basiert auf anderen Standards: dem ISO 639 für Sprachcodes, dem Standard ISO 3166-1 für Landes-Codes sowie weiteren, wie dem ISO 15924, welcher Schriftsysteme definiert. Ein Eintrag entsprechend den BCP 47 Regeln wird IETF BCP 47 ‚language tag‘ genannt. Die ‚language tags‘ sind nicht grundsätzlich „statisch“ vorgegeben, sondern BCP 47 beschreibt die Regeln, wie ein ‚language tag‘ aufgebaut wird. BCP 47 ist u. a. deshalb ein wichtiger Standard, da er nicht nur die Sprache identifiziert, sondern eine Spezifizierung hinsichtlich Land-, Region und der kulturellen Ausprägung vornimmt.

Der ‚language tag‘ für beide sorbische Sprachen ist – bezogen auf das heutige Siedlungsgebiet der Sorben in Deutschland (Landescode de) – somit „hsb-de“ und „dsb-de“.

>>Unicode<<

Der Unicode-Standard ist der internationale Standard für Text-Zeichenkodierung. Ziel ist es, alle Schriftzeichen oder Textelemente von Schriftsystemen und Zeichensystemen in der Welt in einem gemeinsamen digitalen Codesystem unterzubringen. Jedes Schriftzeichen (oder Textelement) soll einen eindeutigen digitalen Code bekommen. Damit sollen die unterschiedliche Kodierung und inkompatible Kodierungen beseitigt werden. Die Arbeiten am Unicode sind nicht abgeschlossen, es werden ständig neue Zeichen weiterer Schriftsysteme ergänzt. Auch die beliebten Emojis und ihre Beschreibung werden über den Unicode-Standard verwaltet.

Ein Unicode Schriftzeichen im Standard hat einen eindeutigen Namen und eine eindeutige feste Zahl, den sogenannten Codepoint, zugeordnet. Dazu kommen einige Eigenschaften, wie die Zuordnung zu einem bestimmten Bereich, Groß- oder Kleinschreibung, der Bezug zum korrespondierenden Klein-/Großbuchstaben und eine Dekompositionsinformation bei Zeichen mit Diakritika.

Demnach sieht die Information zum lateinisch-slawisch/sorbischen Buchstaben mit Diakritika, dem ě, wie folgt aus:

LATIN SMALL LETTER E WITH CARON (U+011B)

– Block Latin Extended-A

– CategoryLetter: Lowercase

– Decomposition: LATIN SMALL LETTER E (U+0065) COMBINING CARON (U+030C)

– Upper case U+011A

Basiert der Unicode Standard auf einer abstrakten Beschreibung, so definieren die Standards UTF-8 und UTF-16 eine spezielle technische Kodierungsform des Unicode Standards auf einem IT-System (UTF-8: Kodierung in Byte-Länge, 1-4 Byte; UTF-16: Kodierung in 2-Byte-Länge, 2 oder 4 Byte).

Demnach ist der UTF-8 hexadecimal code für das ě: 0xC4 0x9B

Der Unicode Standard definiert sogenannte Unicode-Blöcke. Diese definieren sich aus den Zahlenbereichen der Codepoints. D. h. Zeichen, die Teil eines Unicode-Blocks sind, liegen mit ihrem Codepoint in einem gemeinsamen Zahlenbereich.

Die Zeichen mit Diakritika des sorbischen Alphabets liegen (fast) alle im Unicode-Block Lateinisch Erweitert A (Adressierung hexadezimal U+0100 bis U+017F). Die diakritika-freien Zeichen im Unicode-Block liegen im Block Basis-Lateinisch (Adressierung hexadezimal U+0000 bis U+007F).

Verantwortlich für die Definition des Unicode-Standards ist das sogenannte Unicode-Konsortium, eine gemeinnützige Organisation amerikanischen Rechts, welche diesen Standard herausgibt und weiterentwickelt. Viele der großen Softwareunternehmen gehören dem Unicode-Konsortium an, wie Adobe Inc., Apple, Microsoft, Google, IBM, Oracle und SAP. Auch die Wikimedia-Foundation ist Mitglied des Konsortiums.

Das Unicode-Konsortium arbeitet eng mit der ISO zusammen, welche die bezüglich der Zeichenkodierung mit Unicode vollkommen übereinstimmende Norm ISO/IEC 10646 herausgibt (diese definiert den Universal Coded Character Set, bestehend aus UCS-2 und UCS-4, wobei UCS-2 einem 2-Byte UTF-16 und UCS-4 einem 4-Byte UTF-32 Code des Unicodes entspricht).

An dieser Stelle soll auf den Handlungsleitfaden für das sächsische E-Government-Gesetz verwiesen werden. Dieser adressiert auch die Unterstützung für die sorbischen Sprachen bei der Umsetzung von IT-Verfahren für das E-Government in Sachsen und empfiehlt auf Seite 114 ausdrücklich die Verwendung von UTF-8 als Kodierung.[3]

Wichtig ist in diesem Zusammenhang zu erwähnen, dass auf deutscher sowie europäischer Ebene Standardisierungsvorhaben gestartet wurden, die die Unterstützung lateinischer Buchstaben (inkl. der mit Diakritika) in den IT-Systemen der öffentlichen Verwaltung Deutschlands bzw. der europäischen Mitgliedsländer zum Ziel hat.

In Deutschland wurde dazu bereits im Jahr 2012 der s. g. Standard "Lateinische Zeichen in UNICODE" (Datentyp String.Latin) für den Bereich der Innenverwaltung  definiert, der im Jahr 2019 im Standard DIN SPEC 91379 (Zeichen in Unicode für die elektronische Verarbeitung von Namen und den Datenaustausch in Europa) aufging.

Ziel ist hier, „dass alle IT-Verfahren, die dem Bund-Länder übergreifenden Datenaustausch oder dem Datenaustausch mit Bürgern und Wirtschaft dienen, spätestens zum 1. November 2024 konform zur DIN SPEC 91379 sein müssen“.[4] (Das sollte ‚von sorbischer Seite‘ auch eingefordert werden, weil sich sonst sorbische Namen und Texte etc. unter Umständen nicht korrekt in den Systemen der Verwaltung darstellen lassen, wie das aktuell bei Führerscheinen der Fall ist)

>> Unicode CLDR <<

Das angesprochene Unicode-Konsortium spielt über den Unicode-Standard hinaus eine überaus wichtige Rolle bzgl. der Standardisierung von Lokalisierungs-Informationen (Locale Data) für natürliche Sprachen. Es ist verantwortlich für das s. g. Unicode Locale Project, dem Unicode Common Locale Data Repository, kurz Unicode CLDR. Der Unicode CLDR-Standard selbst definiert Lokalisierungs-Informationen. Gesteuert wird dieses Projekt durch das Unicode CLDR Technical Committee.

Es ist ausdrückliches Ziel des Unicode-Konsortiums im Unicode-Standard sowie dem CLDR auch digital-benachteiligte natürliche Sprachen zu unterstützen.

Das CLDR ist eine gemeinsame Datenbank für Lokalisierungsinformationen von natürlichen Sprachen, welche Informationen zu verschiedenen mit festen Kodierungs-Schlüsseln adressierten Lokalisierungs­typen hält. Lokalisierungstypen in der CLDR sind z. B.

  • Formate und Muster für Datum und Zeit, Zahlen und Währungen,
  • Maßeinheiten, z. B. ein amerikanisches Maß für Volumen: cup – šalka,
  • Kollationsregeln: Regeln zur Sortierung, Suche und Matching,
  • Benennungen von Sprachen, Territorien, Schriftsystemen, Zeitzonen, Währungen,
  • Definition der Emoji-Zeichen (deren Code und definierte Benennungen).

Die Aufnahme und Definition der Emoji-Zeichen in den Unicode CLDR ist ein noch junges Projekt, hat aber die Bedeutung und Sichtbarkeit des Unicode CLDR merklich gesteigert.

Für die sorbischen Sprachen sind bisher keine Lokalisierungsinformationen zu Emojis hinterlegt worden!

Es gibt aber eine sehr gute Zusammenstellung der Emoji-Daten für slawische Sprachen, die als Referenz bei der Erstellung der sorbischen Daten dienen können.[5]

Die Notwendigkeit der Erstellung der Lokalisierungsinformationen zu den Emojis wird durch den Autor als Hoch eingestuft.

Das CLDR ist Open Source, die Pflege der Datenbank unterliegt einem klaren Prozess/Workflow und nutzt qualitätssichernde Tools für die Datenerfassung. Lokalisierungsinformationen werden durch eine große Community von Mitwirkenden (frei, institutionell oder durch die Softwarefirmen) gesammelt, überprüft und abgestimmt, und schlussendlich zweimal im Jahr in einer neuen Version publiziert. Die Daten selbst liegen in XML (im Unicode Locale Data Markup Language – LDML Format) oder im JSON-Format vor. Zum Zeitpunkt des Verfassens dieser Übersicht befindet sich die CLDR-Version 39 im Entwicklungsprozess.

Wo befinden sich die sorbischen Sprachen hinsichtlich ihrer Abdeckung der Lokalisierungsdaten im Unicode CLDR? Beide sorbischen Sprachen wurden im Jahr 2015 in die Version CLDR 27 aufgenommen. Dies erfolgte im Auftrag des WITAJ-Sprachzentrums durch den Informatiker Wito Böhmak mit sprachwissenschaftlicher Unterstützung durch das Sorbische Institut Bautzen. Es wurden ca. 6.700 Lokalisierungs-Felder pro Sprache befüllt.[6]


Der Unicode CLDR definiert verschiedene Abdeckungsgrade (Coverage Levels) der Befüllung der Lokalisierungsdaten: Core, Basic, Moderate und Modern. Es ist ein Maß für die Vollständigkeit der Lokalisierungsdaten. Reichen für bestimmte Softwarehersteller die Lokalisierungsdaten im Abdeckungsgrad Basic, ist für andere Hersteller der Abdeckungsgrad Modern eine Schwelle, um eine spezifische Sprache zu unterstützen.

Ziel war es von vornherein den Abdeckungsgrad Modern für die sorbischen Sprachen zu erreichen. Dieser ist seit der initialen Erfassung im CLDR 27, dort bei 99%, im Jahr 2019 bei der Version CLDR 36 auf 49% gefallen. Bedenklich ist auch die nicht mehr 100%- ige Abdeckung im Basic-Levelhier sollte schnellstmöglich reagiert werden und Lokalisierungsdaten im CLDR für sorbischen Sprachen bereitgestellt und eingepflegt werden.


>>ICU (International Components for Unicode) <<

Die ICU ist eine Software-Programmbibliothek in den Sprachen Java und C. Sie wird in den Systemen iOS, Android, Microsoft Windows und Linux-Systemen verwendet. Sie stellt Softwareprogrammen die Lokalisierungsdaten von Unicode und Unicode CLDR zur Verfügung.

Die entsprechenden Lokalisierungsdaten der sorbischen Sprachen sind seit der Version 55 in den ICU Programmbibliotheken enthalten.

Da ICU direkt Daten des Unicode CLDR nutzt, impliziert eine entsprechende Pflege der sorbischen Lokalisierungsinformationen im CLDR die spätere Übernahme der Daten ins ICU. Die Aktualisierung der ICU Daten erfolgt daher „automatisch“.


Terminologien

Unicode CLDR kann nicht alle möglichen Lokalisierungs-Typen abdecken, auch wenn die Liste ständig ausgebaut wird. Besonders im Bereich der Terminologien ist ein weltweiter Standard aus verschiedenen fachlichen oder Wettbewerbs-Gründen nicht existent. Pro Hersteller oder sogar Software gibt es verschiedene Terminologien, die entsprechend lokalisiert – also sprachlich angepasst werden müssen.

Mit Terminologien ist hier eine Menge an Begriffen gemeint, die Sachverhalte innerhalb einer spezifischen fachlichen Domäne adressieren. Konkret handelt es sich für den o. g. Fall um alle Facetten der Mensch-Maschine Schnittstelle, zum Beispiel Menübezeichnungen von grafischen Oberflächen, für Nutzeranweisungen, Programmrückmeldungen und/oder Nutzerinformationen, die sprachabhängig in einem Computerprogramm gestaltet werden können. Die Unterstützung von Lokalisierungsdaten in Sorbisch ist per se aus wirtschaftlichen Gründen nicht gegeben. So gibt es keine sorbische Oberfläche im Windows-Betriebssystem oder auf Apple Mac Computern. Jedoch bieten Open Source Systeme die Möglichkeit, dass durch freie Contribution (Teilnahme) Lokalisierungsinformationen erfasst werden können.

So haben besonders die Software-Produkte der Mozilla Foundation sowie die Office-Systeme Open Office und Libre Office eine weite Lokalisierung in den sorbischen Sprachen erfahren. So sind u. a. die Mozilla Projekte Thunderbird, Firefox, die Textverarbeitungsprogramme Open und LibreOffice, das freie Web-CMS-System WordPress mit sorbischen Lokalisierungsinformationen hinterlegt worden. Im Bereich der Lokalisierungsinformationen von Wikipedia und Wikidata sind ebenfalls Terminologien entsprechend lokalisiert worden. Im weiteren Sinne kann auch die Übersetzung von geografischen Namen (Orten) in der Datenbank OpenStreetMap zu der Bereitstellung von lokalisierten Terminologien gezählt werden.

Es wäre zur Schaffung eines Überblicks und evtl. Priorisierung (soweit Priorisierung überhaupt möglich ist) wichtig, eine Bestandsanalyse bzgl. der Gaps in der Lokalisierung von weitgenutzten Softwaresystemen für Sorbisch durchzuführen. Weiterhin wäre es zielführend eine entsprechende Terminologie-Datenbank zu erstellen, die die gegenwärtigen Lokalisierungen zusammenführt und auswertet, und als Datenbasis für weitere Lokalisierungen zur Verfügung steht (ohne jedoch einen zentralistischen Charakter zu bekommen). Dies sollte nach Möglichkeit mit Hilfe automatisierter Verfahren erfolgen.

Neue Sprachtechnologien und Standards

Der hier aufgestellte Überblick reißt im Folgenden nur oberflächlich den gesamten Bereich der De-Facto-Standards bzw. Industrie-Standards (nicht durch Gremien definiert, sondern durch den Fakt der hohen Nutzung bestimmter Verfahren, Daten etc.) im Bereich der Sprachverarbeitung und im speziellen des Natural Language Processing an. In diesem Bereich ist besonders durch die aufkommende Nutzung von KI-Technologien eine hohe Dynamik festzustellen. Um hier ein Gleichnis zur Internationalisierungs-Lokalisierungs-Beziehung zu verwenden – es geht hier besonders um die Bereitstellung von Sprachdaten, die für einen bestimmten Bereich der Informationsverarbeitung im Bereich des Natural Language Processing angewandt werden können.

Durch Bereitstellung sprachspezifischer Daten können Lösungen und Verfahren im Umfeld der Sprachverarbeitung mitgenutzt werden, die ansonsten nur den „großen“ Sprachen vorbehalten bleiben (an denen sie entwickelt worden). Zu den Sprachdaten zählen im erweiterten Sinne u. a. Wörterbücher und Lexika-Listen, Silbentrennungs-Regeln, Stoppwörter, grammatische Regeln, morphologische Regeln, Thesauri, Textkorpora, Sprachmodelle (statistische, LTSM-Modelle), phonetische Modelle und so weiter und so fort. Es wäre eine tiefere Analyse in diesem Bereich erforderlich, um eine Gap-Analyse für diesen Bereich zu erstellen und bestimmte Priorisierungsschritte abzuleiten.

Ein gutes Beispiel für die Verwendung von freien Textressourcen sei hier mit der Keyboard-Applikation für Android die Google-„GBoard-App“ genannt. Mit Hilfe von frei verfügbaren obersorbischen Wikipedia-Texten wurde (kommerziell) eine Wortliste erstellt, die als Vervollständigungs-/Vorschlagsliste durch Google in der GBoard-Applikation bei der Auswahl von Obersorbisch und Niedersorbisch implementiert ist. Die Wortliste der niedersorbischen Version ist aufgrund der geringeren Größe der Wikipedia-Sprachversion deutlich kleiner und die Nutzbarkeit der Autovervollständigung/Autokorrektur damit eingeschränkt.

Übersicht von Maßnahmen und Projekten bzgl. Präsenz in Standards

Name Beschreibung Zeitraum Verantwortlich
Unicode CLDR Ober- und Niedersorbisch Vervollständigung des Unicode Common Locale Data Repository 2014 - 2015 Wito Böhmak, gefördert durch die Stiftung für das sorbische Volk
Unicode CLDR Ober- und Niedersorbisch Aktualisierung und Vervoll­stän­di­gung des Unicode Common Locale Data Repository 2020 Wito Böhmak, gefördert durch die Stiftung für das sorbische Volk

Zukünftige Maßnahmen und Projekte bzgl. der Präsenz in Standards

Die folgenden Maßnahmen ergeben sich aus der Ist-Analyse. Sie werden in Abschnitt 13.2 beschrieben.

Sub-Thema Nr. Maßnahme Zielstellung
UNICODE CLDR 2.3_1 Ständige Aktualisierung und Vervollständigung des Unicode CLDR für HSB und DSB In der jeweils aktuellen Version des Unicode CLDR soll der Abdeckungsgrad für die beiden sorbischen Sprachen das Level „Modern“ zu 100% erreichen.
UNICODE 2.3_2 Begleitung / Monitoring von IT-Verfahren der öffentlichen Hand „IT-Verfahren der öffentlichen Verwaltungen sollen bis 2024 die DIN SPEC 91379 und damit die sorbischen Sprachen darstellen und verarbeiten können.“
Linguistische Ressourcen Siehe 2.2_1 Sammlung fachlicher Terminologien, Wortlisten, Lokalisierungen Eine Übersicht über die vorhandenen linguistischen Daten (Wörter, Wörterbücher, Sätze, Textkorpora usw.) und deren nutzungsrechtlicher Status ist erstellt.

Eine Zusammenführung aller vorhandenen sorbischen Terminologien in einer Datenbasis steht für weitere Lokalisierungsvorhaben zur Verfügung.

Weitere linguistische Sprachdaten sind erstellet und stehen zur Weiter­verwertung durch Dritte und als standardisierte Lokal-Information des Sorbischen in der modernen Sprachverarbeitung zur Verfügung.

Open-Source Unternehmen und Entwickler 2.3_3 Kontakte aufbauen zu Open-Source-Unternehmen und Entwicklern und Lokali­sierungs­möglichkeiten prüfen Es steht weitere lokalisierte Software in den sorbischen Sprachen zur Verfügung.