4. Sprechen mit elektronischen Geräten: Rozdźěl mjez wersijomaj

z Digitalizaciski koncept
Zur Navigation springen Zur Suche springen
 
(45 mjezywersijow wot 2 wužiwarjow njepokazanych)
Rjadka 2: Rjadka 2:


Dieser Themenbereich beinhaltet die Unterstützung des Anwenders beim Sprechen mit elektronischen Geräten in den sorbischen Sprachen. Im Fokus steht die Interaktion von Menschen mit elektronischen Geräten mittels gesprochener Worte. Dies umfasst folgende Bereiche:
Dieser Themenbereich beinhaltet die Unterstützung des Anwenders beim Sprechen mit elektronischen Geräten in den sorbischen Sprachen. Im Fokus steht die Interaktion von Menschen mit elektronischen Geräten mittels gesprochener Worte. Dies umfasst folgende Bereiche:
* <span style="color:#000000;">das </span><span style="color:#000000;">'''Vorlesen'''</span><span style="color:#000000;"> geschriebener sorbischer Wörter (</span><span style="color:#000000;">'''Sprachausgabe'''</span><span style="color:#000000;">),</span>
* '''Sprachausgabe:''' das '''Vorlesen''' geschriebener sorbischer Wörter
* <span style="color:#000000;">das </span><span style="color:#000000;">'''Erkennen'''</span><span style="color:#000000;"> und Darstellen von gesprochenen sorbischen Wörtern durch elektronische Geräte (</span><span style="color:#000000;">'''Spracherkennung'''</span><span style="color:#000000;">)</span>
* '''Spracherkennung: '''das '''Erkennen''' und Darstellen von gesprochenen sorbischen Wörtern durch elektronische Geräte (Computer, Smartphones usw.)
* <span style="color:#000000;">und das </span><span style="color:#000000;">'''Verarbeiten'''</span><span style="color:#000000;"> gesprochener sorbischer Wörter und </span><span style="color:#000000;">'''Reagieren'''</span><span style="color:#000000;"> darauf (z.&nbsp;B. Anweisungen ausführen, Antworten) (</span><span style="color:#000000;">'''Sprachassistenz'''</span><span style="color:#000000;">).</span>
* '''Sprachverarbeitung: ''' das '''Verarbeiten''' gesprochener sorbischer Wörter und '''Reagieren''' darauf (z.&nbsp;B. Anweisungen ausführen, Antworten).
 
Mögliche Einsatzbereiche und Applikationen sind bspw.
* Sprachassistenten,
* Spiele, Spielzeuge (wie Lingufino),
* Untertitel und Simultanübersetzungen (z. B. bei Videokonferenzen).
<br>


== Visionen und Ziel für die sorbische digitale Welt ==
== Visionen und Ziel für die sorbische digitale Welt ==


==== Vision 2025 ====
==== Vision 2028 ====


<div style="margin-left:0.501cm;margin-right:0cm;"><span style="color:#000000;">„Sorben und Sorbisch-Lernende nutzen für die Interaktion mit elektronischen Geräten die gesprochene sorbische Sprache (gleichwertig zur geschriebenen Sprache und gleichwertig zur deutschen Sprache).“ (Sprachassistenz)</span></div>
<div style="margin-left:0.501cm;margin-right:0cm;"><span style="color:#000000;">„Sorben und Sorbisch-Lernende nutzen für die Interaktion mit elektronischen Geräten die gesprochene sorbische Sprache (gleichwertig zur geschriebenen Sprache und gleichwertig zur deutschen Sprache).“ (z.B. für Sprachassistenz oder andere Applikationen)</span></div>


==== Konkrete Visionen 2022 ====
==== Konkrete Visionen 2025 ====


<div style="margin-left:0.501cm;margin-right:0cm;">„Sorben und Sorbisch-Lernende können mit den meistgenutzten elektronischen Geräten sprechen – die sorbischen Worte werden vom Gerät erkannt und dargestellt (Spracherkennung).“</div>
<div style="margin-left:0.501cm;margin-right:0cm;">„Sorben und Sorbisch-Lernende können mit den meistgenutzten elektronischen Geräten sprechen – die sorbischen Worte werden vom Gerät erkannt und dargestellt (Spracherkennung).“</div>
Rjadka 20: Rjadka 26:
==== Konkrete Ziele ====
==== Konkrete Ziele ====


{| style="border-spacing:0;width:15.501cm;"
{| style="border-spacing:0;"
|- style="background-color:#e2efd9;border:0.25pt solid #808080;padding-top:0cm;padding-bottom:0cm;padding-left:0.123cm;padding-right:0.123cm;"
|- style="background-color:#e2efd9;border:0.25pt solid #808080;padding-top:0cm;padding-bottom:0cm;padding-left:0.123cm;padding-right:0.123cm;"
|| <div style="color:#000000;">Das meistgenutzte elektronische Gerät versteht die gesprochenen sorbischen Sprachen und stellt gesprochene Worte dar. (Spracherkennung)</div>
|| <div style="color:#000000;">Einzelne Applikationen verstehen die gesprochenen sorbischen Sprachen und stellen gesprochene Worte dar. (Spracherkennung)</div>
 
<div style="color:#000000;">Einzelne Applikationen können sorbische Worte vorlesen. (Sprachausgabe)</div>
<div style="color:#000000;">Das meistgenutzte elektronische Gerät kann sorbische Worte vorlesen. (Sprachausgabe)</div>
<div style="color:#000000;">Einzelne Applikationen können gesprochene sorbische Worte und Sätze erkennen, verarbeiten und ausgeben, z. B. in einem Online-Videokonferenzsystem mit Simultanübersetzung als Untertitel.</div>
|-
|-
|}
|}
<div style="color:#000000;"></div>
<div style="color:#000000;"></div>
<br>


== Ist-Analyse Stand der Entwicklung von Sprachassistenzsystemen ==
== Ist-Analyse Stand der Entwicklung von Sprachassistenzsystemen ==
Rjadka 33: Rjadka 40:
=== Welche Bausteine werden für eine Sprachassistenz benötigt? ===
=== Welche Bausteine werden für eine Sprachassistenz benötigt? ===


Sprachassistenzsysteme bestehen aus verschiedenen technischen Bausteinen, die jeweils unterschiedliche Aufgaben übernehmen. Die folgende Einteilung der Bausteine orientiert sich an einem Vortrag von Jan Budar vom 13.09.2018 in Senftenberg zu “Digitalisierung als Chance für die Sorben”.
Um eine sprachliche Interaktion mit einem elektronischen Gerät ähnlich wie mit Menschen zu erreichen, sind verschiedene technische Bausteine notwendig, welche jeweils unterschiedliche Aufgaben übernehmen. Die folgende Einteilung der Bausteine orientiert sich an einem Vortrag von Jan Budar vom 13.09.2018 in Senftenberg zu “Digitalisierung als Chance für die Sorben”.


==== Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)<ref name="ftn1">Übersicht STT-Engines: [https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/stt-engine https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/stt-engine]</ref> ====
==== Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)<ref name="ftn1">Übersicht STT-Engines: [https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/stt-engine https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/stt-engine]</ref> ====
Rjadka 41: Rjadka 48:
** deren Kombinationen
** deren Kombinationen
** ihrer Position im Wort/Satz
** ihrer Position im Wort/Satz
* Training von Spracherkennungs-Maschinen:
 
** Aktuell Deep Learning: Automatische Spracherkennung mit tiefen neuronalen Netzen
'''Umwandlung von gesprochener Sprache in Text''' <br>
** Vorher Hidden-Markov-Modelle: stochastische Modelle, mit denen sprachliche Einheiten (Phoneme oder Wörter) analysiert wurden
Die typischen Schritte zur Umwandlung von gesprochener Sprache in Text (Speech-to-Text, STT) sind:
# Aufnahme der Sprache: Der erste Schritt besteht darin, die gesprochene Sprache aufzunehmen. Dies kann entweder über ein Mikrofon oder eine andere Audioquelle erfolgen.
# Signalverarbeitung: Die aufgenommenen Audiosignale werden durch Signalverarbeitungsalgorithmen vorverarbeitet. Dazu gehören zum Beispiel Rauschunterdrückung, Echo-Entfernung und Entzerrung.
# Sprachsegmentierung: Die Audioaufnahme wird in kurze Segmente unterteilt, die normalerweise zwischen 10 und 30 Millisekunden lang sind. Diese Segmente werden dann weiterverarbeitet.
# Merkmalsextraktion: Für jedes Sprachsegment werden akustische Merkmale wie Frequenz, Lautstärke, Tonhöhe und Dauer extrahiert. Diese Merkmale dienen als Eingabe für das Spracherkennungsmodell.
# Spracherkennung: Das Spracherkennungsmodell verwendet die extrahierten Merkmale, um die gesprochene Sprache in Text umzuwandeln. Dieser Schritt kann auf unterschiedliche Weise durchgeführt werden, z.B. mit Hidden Markov Models (HMMs), künstlichen neuronalen Netzen (KNNs) oder Deep-Learning-Modellen.
# Postprocessing: Der erkannte Text wird postprozessiert, um mögliche Fehler oder Inkonsistenzen im Text zu korrigieren. Dazu können beispielsweise Grammatik- und Sprachmodelle verwendet werden, um den erkannten Text zu verbessern.
# Textausgabe: Der endgültige Text wird dann ausgegeben, z.B. in einer Textdatei oder als Eingabe für eine andere Anwendung.
 
Je nach Anwendung und Sprachmodell können die genauen Schritte und Technologien zur Umwandlung von Sprache in Text  variieren.
 
'''Training von Spracherkennungs-Maschinen''' <br>
* vgl. auch Vortrag von D. Sobe 2022 im Rahmen einer Online-Abendveranstaltung<ref>vgl. [https://digiserb.de/2022/06/09/zarjadowanje-masinelne-spoznawanje-serbsciny/ Veranstaltung auf digiserb.de], [https://digiserb.de/wp-content/uploads/2022/06/2022_06_auswertung.pdf Folien bei digiserb.de], [https://www.youtube.com/watch?v=RWUo7N_Aybw Video bei YouTube].</ref>
Klassischerweise wird die Spracherkennung durch die Verwendung von stochastische Modellen wie Hidden-Markov-Modellen (HMM) und Gauss'schen Mischmodellen (GMM) durchgeführt. Das Sprachsignal wird dabei in kurze Abschnitte, sogenannte Phoneme, unterteilt. Die Phoneme werden dann in einer HMM- oder GMM-Datenbank gespeichert. Bei der Erkennung wird das Sprachsignal in Phoneme aufgeteilt und mit der HMM- oder GMM-Datenbank abgeglichen, um die wahrscheinlichste Sequenz von Phonemen zu finden. Diese wird dann in Text umgewandelt und ausgegeben.
 
In den letzten Jahren haben sich Deep Learning Modelle mit tiefen neuronalen Netzen, wie z.B. Recurrent Neural Networks (RNNs) und Convolutional Neural Networks (CNNs), als effektive Methoden zur Spracherkennung erwiesen. Diese Modelle können komplexe Beziehungen zwischen Phonemen und Wörtern erfassen und somit die Genauigkeit der Spracherkennung verbessern.
 
* z.&nbsp;B. Mozilla Common Voice<ref name="ftn2">vgl. [https://voice.mozilla.org https://voice.mozilla.org] und [https://github.com/mozilla/DeepSpeech https://github.com/mozilla/DeepSpeech]</ref> in Kombination mit einer Spracherkennungs-Engine wie Mozilla Deep Speech
* z.&nbsp;B. Mozilla Common Voice<ref name="ftn2">vgl. [https://voice.mozilla.org https://voice.mozilla.org] und [https://github.com/mozilla/DeepSpeech https://github.com/mozilla/DeepSpeech]</ref> in Kombination mit einer Spracherkennungs-Engine wie Mozilla Deep Speech
'''Erstellung von Spracherkennungs-Maschinen''' <br>
Um eine Spracherkennungs-Engine (Speech-to-Text) zu erstellen, werden verschiedene Ressourcen benötigt, darunter:
# Sprachdaten: Um ein Spracherkennungsmodell zu trainieren, werden große Mengen an Audioaufnahmen benötigt, die repräsentativ für die Sprache und den Dialekt sind, den die Engine erkennen soll. Diese Sprachdaten sollten auch verschiedene Sprecher, Akzente und Hintergrundgeräusche enthalten.
# Transkriptionen: Jede Audioaufnahme muss mit einer Texttranskription versehen werden, die angibt, was in der Aufnahme gesagt wird. Diese Transkriptionen werden verwendet, um das Modell zu trainieren und zu testen.
# Sprachmodelle: Sprachmodelle sind eine wichtige Komponente von Spracherkennungs-Engines, da sie die Wahrscheinlichkeit berechnen, mit der eine bestimmte Sequenz von Wörtern in einem bestimmten Kontext auftreten wird. Diese Modelle werden verwendet, um die Wahrscheinlichkeit des erkannten Textes zu berechnen und die Genauigkeit der Spracherkennungs-Engine zu verbessern.
# Aussprachelexika: Ein Aussprachelexikon enthält eine Liste von Wörtern und deren Aussprache in der jeweiligen Sprache. Dies wird verwendet, um die richtige Aussprache von Wörtern im erkannten Text zu bestimmen.
# Phonemmodelle: Phonemmodelle beschreiben, wie Wörter in ihre kleinsten sprachlichen Einheiten (Phoneme) aufgeteilt werden können. Diese Modelle werden verwendet, um die Wahrscheinlichkeit von Phonemsequenzen zu berechnen und die Genauigkeit der Spracherkennungs-Engine zu verbessern.
# Linguistische Ressourcen: Zusätzlich zu den oben genannten Ressourcen können auch linguistische Ressourcen wie Grammatiken, semantische Modelle und syntaktische Modelle verwendet werden, um die Genauigkeit der Spracherkennungs-Engine zu verbessern.


==== Baustein 2: Textübersetzung (Machine Translation, MT) ====
==== Baustein 2: Textübersetzung (Machine Translation, MT) ====
Rjadka 52: Rjadka 84:
** Mustererkennung
** Mustererkennung
** Training
** Training
* vgl. Kapitel 5 Abschnitt [https://koncept.serbski-inkubator.de/index.php/5._Schreiben_auf_elektronischen_Ger%C3%A4ten#.C3.9Cbersetzer Übersetzer]


==== Baustein 3: Intention erkennen und Anweisungen ausführen<ref name="ftn3">vgl. [https://mycroft.ai/wp-content/uploads/2018/08/mycroft-ai-introduction-to-voice-stack-whitepaper.pdf https://mycroft.ai/wp-content/uploads/2018/08/mycroft-ai-introduction-to-voice-stack-whitepaper.pdf]</ref>  ====
==== Baustein 3: Intention erkennen und Anweisungen ausführen<ref name="ftn3">vgl. [https://mycroft.ai/wp-content/uploads/2018/08/mycroft-ai-introduction-to-voice-stack-whitepaper.pdf https://mycroft.ai/wp-content/uploads/2018/08/mycroft-ai-introduction-to-voice-stack-whitepaper.pdf]</ref>  ====
Rjadka 58: Rjadka 91:
* Anweisungen werden abgeleitet und ausgeführt (Skill invocation)
* Anweisungen werden abgeleitet und ausgeführt (Skill invocation)
* z.&nbsp;B. [https://wit.ai/ https://wit.ai/] (eine Sprachplattform, welche zum Facebook-Konzern gehört)
* z.&nbsp;B. [https://wit.ai/ https://wit.ai/] (eine Sprachplattform, welche zum Facebook-Konzern gehört)
* z.B. [https://mycroft.ai/ https://mycroft.ai/]als datenschutzfreundliche Alternative


==== Baustein 4: Sprachausgabe (Text to Speech, TTS)<ref name="ftn4">Übersicht TTS-Engines: [https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/tts-engine https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/tts-engine]</ref> ====
==== Baustein 4: Sprachausgabe (Text to Speech, TTS)<ref name="ftn4">Übersicht TTS-Engines: [https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/tts-engine https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/tts-engine]</ref> ====


* schon für barrierefreie Webseiten notwendig
* bspw. für barrierefreie Webseiten notwendig
* stellt den einfachsten Teil dar
* Open Source Text-to-speech-System: MaryTTS
* modularer Aufbau: Lexikon, Sprache, Daten, Synthese
* Unit-Selectin-Synthese (Verkettung natürlichsprachlicher Elemente)
* ThorstenVoice (OSS Variante)
 
Die folgenden Schritte sind typischerweise erforderlich, um einen Text in eine gesprochene Sprachausgabe umzuwandeln:
# Linguistische Analyse: Der eingegebene Text wird vorverarbeitet, um dessen Struktur zu analysieren, einschließlich der Trennung von Sätzen, der Erkennung von Interpunktion und der Ermittlung der Betonung.
# Phonetische Umsetzung: Der Text wird in eine phonetische Darstellung umgewandelt, in der jeder Textabschnitt in eine entsprechende Sequenz von Lauten (Phonemen) übersetzt wird. Dies wird typischerweise durch eine phonetische Lexikon-Datenbank und Sprachregeln erreicht.
# Prosodische Modellierung: Es wird die Betonung und Intonation des Textes bestimmt. Hierbei werden Faktoren wie Akzent, Tonhöhe, Tempo, Pause und Rhythmus berücksichtigt, um eine natürliche Sprachmelodie zu erzeugen.
# Synthese: Der phonetisch umgesetzte Text wird dann in Sprache umgewandelt, indem die phonetischen Einheiten zu Sprachsignalen zusammengefügt werden. Dies kann entweder durch die Verwendung von Klangeinheiten, die in einer Datenbank gespeichert sind, oder durch das Generieren von Sprache auf der Grundlage von Modellen, wie z.B. Deep-Learning-Modellen, erfolgen.
 
Eine TTS-Engine benötigt folgende Voraussetzungen:
# Eine umfangreiche phonetische Datenbank oder ein phonetisches Modell, um die Übersetzung von Text in Phoneme zu ermöglichen.
# Ein Prosodie-Modell, um die natürliche Sprachmelodie zu erzeugen.
# Eine Sprachsynthesetechnologie, um die Phoneme in Sprachsignale zu konvertieren.
# Training mit großen Datenmengen, um die Sprachsynthese-Modelle auf die spezifische Sprache und Stimme zu optimieren.
<br>


=== Definition und Marktübersicht von Sprachassistenten ===
=== Definition und Marktübersicht von Sprachassistenten ===
Rjadka 83: Rjadka 133:
'''Marktübersicht'''
'''Marktübersicht'''


Betrachtet man alle weltweiten Geräte mit Sprachassistenten, dann sind die aktuell am häufigsten installierten Systeme Apples Siri und Google Assistant, gefolgt von Microsoft Cortana und Amazon Alexa.<ref name="ftn9">vgl. [https://voicebot.ai/2019/01/06/amazon-alexa-is-available-on-100-million-devices-heres-why-it-is-actually-more-and-how-it-stacks-up-against-apple-and-google/ https://voicebot.ai/2019/01/06/amazon-alexa-is-available-on-100-million-devices-heres-why-it-is-actually-more-and-how-it-stacks-up-against-apple-and-google/]</ref>
Die führenden Anbieter für Sprachassistenzsysteme am weltweiten Markt sind:
# Amazon mit seinem Sprachassistenzsystem "Alexa" und den Amazon Echo Geräten.
# Google mit seinem Sprachassistenzsystem "Google Assistant" und den Google Home Geräten.
# Apple mit seinem Sprachassistenzsystem "Siri" und der HomePod-Produktlinie.
# Microsoft mit seinem Sprachassistenzsystem "Cortana" und der Surface Headphones Produktlinie.
# Samsung mit seinem Sprachassistenzsystem "Bixby" und der Galaxy Home Produktlinie.


[[Image:Grafik 11.png|top]]
Diese Anbieter haben in den letzten Jahren in die Entwicklung und Verbesserung von Sprachassistenzsystemen investiert und setzen auf künstliche Intelligenz und maschinelles Lernen, um die Spracherkennung und -verarbeitung zu verbessern. Dabei sind ihre Sprachassistenzsysteme nicht nur auf den Heimgebrauch beschränkt, sondern auch in mobilen Geräten, Autos und anderen Branchen wie Gesundheitswesen, Einzelhandel und Finanzen verbreitet.


Bei den weltweit verkauften Smart Speakern führt Amazons Alexa die Rangfolge knapp vor Google Assistant.<ref name="ftn10">vgl. [https://voicebot.ai/2020/05/25/global-smart-speaker-growth-cools-in-q1-as-pandemic-leads-to-declining-china-sales-amazon-retains-top-spot-says-strategy-analytics/ https://voicebot.ai/2020/05/25/global-smart-speaker-growth-cools-in-q1-as-pandemic-leads-to-declining-china-sales-amazon-retains-top-spot-says-strategy-analytics/]</ref> Dabei scheinen Amazons Alexa und Google Assistant zukünftig die wichtigsten Rollen zu spielen, vermutlich aufgrund ihrer Integration von Apps von Drittanbietern.<ref name="ftn11">vgl. [https://voicebot.ai/2020/05/11/voice-industry-professionals-say-amazon-alexa-is-having-the-biggest-impact-followed-by-google-with-everyone-else-far-behind-new-report/ https://voicebot.ai/2020/05/11/voice-industry-professionals-say-amazon-alexa-is-having-the-biggest-impact-followed-by-google-with-everyone-else-far-behind-new-report/]</ref> Die Apps für Amazon Alexa werden Skills genannt. Diese lassen sich kostenlos aktivieren und erweitern das Funktionsspektrum des Alexa-Sprachdienstes um bestimmte Fähigkeiten.
Es ist schwierig, genaue Zahlen darüber zu finden, welchen Anteil jeder Anbieter am Gesamtmarkt für Sprachassistenzsysteme hat, da es keine einheitliche Definition des Marktes gibt und die Zahlen von verschiedenen Marktforschungsunternehmen variieren können. Basierend auf den verfügbaren Daten sind die größten Anbieter am Markt Amazon Alexa mit rund 25% Marktanteil, Google Assistant mit rund 20% Marktanteil und Apples Siri mit rund 15% Marktanteil weltweit. Es gibt jedoch Unterschiede in den Zahlen je nach Region und Art des Geräts (z.B. intelligente Lautsprecher, Mobiltelefone, Smart-Home-Geräte).  
 
[[Image:Grafik 21.png|top]]


Die beliebtesten Anwendungsfälle von Nutzern von Smart Speakern sind<ref name="ftn12">vgl. [https://voicebot.ai/2020/05/03/streaming-music-questions-weather-timers-and-alarms-remain-smart-speaker-killer-apps-third-party-voice-app-usage-not-growing/ https://voicebot.ai/2020/05/03/streaming-music-questions-weather-timers-and-alarms-remain-smart-speaker-killer-apps-third-party-voice-app-usage-not-growing/] </ref>
Die beliebtesten Anwendungsfälle von Nutzern von Smart Speakern sind<ref name="ftn12">vgl. [https://voicebot.ai/2020/05/03/streaming-music-questions-weather-timers-and-alarms-remain-smart-speaker-killer-apps-third-party-voice-app-usage-not-growing/ https://voicebot.ai/2020/05/03/streaming-music-questions-weather-timers-and-alarms-remain-smart-speaker-killer-apps-third-party-voice-app-usage-not-growing/] </ref>
Rjadka 101: Rjadka 154:
[[Image:Grafik 17.png|top]]
[[Image:Grafik 17.png|top]]


'''Aktuell unterstützte Sprachen<ref name="ftn13">'''vgl. [https://www.globalme.net/blog/language-support-voice-assistants-compared/ https://www.globalme.net/blog/language-support-voice-assistants-compared/] sowie die dort angegeben Webseiten'''</ref>
'''Aktuell unterstützte Sprachen'''<ref name="ftn13">vgl. [https://www.globalme.net/blog/language-support-voice-assistants-compared/ https://www.globalme.net/blog/language-support-voice-assistants-compared/] sowie die dort angegeben Webseiten</ref>
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Amazons Alexa''' unterstützt '''8 Sprachen'''</div>
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Amazons Alexa''' unterstützt '''9 Sprachen'''</div>
 
** Arabisch, Deutsch, Englisch (5 Dialekte), Französisch (2 Dialekte), Hindi (Indisch), Italienisch, Japanisch, Portugiesisch (Brasil.), Spanisch (3 Dialekte)
* Deutsch, Englisch (5 Dialekte), Französisch (2 Dialekte), Hindi (Indisch), Italienisch, Japanisch, Portugiesisch (Brasil.), Spanisch (3 Dialekte)
 
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Google Assistant''' unterstützt '''44 Sprachen '''auf Smartphones</div>
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Google Assistant''' unterstützt '''44 Sprachen '''auf Smartphones</div>
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Google Assistant''' unterstützt '''13 Sprachen''' auf Smart Speakern / Google Home</div>
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Google Assistant''' unterstützt '''13 Sprachen''' auf Smart Speakern / Google Home</div>
 
** Dänisch, Deutsch (2 Dialekte), Englisch (6 Dialekte), Französisch (2 Dialekte), Hindi, Italienisch, Japanisch, Koreanisch, Niederländisch, Norwegisch, Portugiesisch (Brasil.), Schwedisch, Spanisch (3 Dialekte)
* Dänisch, Deutsch (2 Dialekte), Englisch (6 Dialekte), Französisch (2 Dialekte), Hindi, Italienisch, Japanisch, Koreanisch, Niederländisch, Norwegisch, Portugiesisch (Brasil.), Schwedisch, Spanisch (3 Dialekte)
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Apples Siri unterstützt rund 42 Sprachen'''</div>
 
<br>
* <div style="margin-left:0.501cm;margin-right:0cm;">'''Apples Siri unterstützt 21 Sprachen''', zusätzlich zu Google Home:</div>
 
* Arabisch, Chinesisch, Finnisch, Hebräisch, Malaysisch, Russisch, Thailändisch, Türkisch sowie Dialekte für Chinesisch, Niederländisch, Italienisch
 
=== Exkurs Mozilla Common Voice & Deep Speech ===
 
Das Ziel von Mozilla Common Voice ist es, Sprachdateien „frei und öffentlich verfügbar“ zu machen und zu vermeiden, dass diese Technologie in den Händen weniger konzentriert ist. Common Voice ist eine globale Datenbank mit gespendeten Stimmen, mit der z.&nbsp;B. sprachgestützte Anwendungen in jeder Sprache trainiert werden können.
 
Zunächst braucht es eine große Sammlung von urheberrechtsfreien Sätzen, welche dann die Unterstützenden vorlesen können.<ref name="ftn14">vgl. [https://common-voice.github.io/sentence-collector/#/ https://common-voice.github.io/sentence-collector/#/]</ref> Anschließend kann das Sammeln von Sprachdaten erfolgen via Crowdsourcing. Insgesamt sind für eine Sprache 10.000 validierte Stunden notwendig (vgl. Englisch hat zum Stand März 2020 ca. 1.200 Stunden).
 
Die Bewertung der Sprachdaten ist durch jeden Zuhörenden ohne Anmeldung möglich. Der Zuhörende bekommt einen Satz angezeigt und hört eine Audio-Aufnahme des Satzes. Die Qualität der Audio-Aufnahme wird bewertet.
 
Der fertige Datensatz steht auf der Webseite später via CC0-Lizenz zur Nutzung zur Verfügung. Mozilla bietet hier die Open Source Spracherkennungs-Engine Deep Speech an (diese nutzt Googles TensorFlow), die optimal auf die Verarbeitung der Mozilla Common Voice Daten abgestimmt ist.<ref name="ftn15">vgl. [https://github.com/mozilla/DeepSpeech https://github.com/mozilla/DeepSpeech]</ref>
 
Mittels einer[https://wicg.github.io/speech-api/  ][https://wicg.github.io/speech-api/ Java-Script-API], in der mögliche Use-Cases aufgelistet sind (z.&nbsp;B. Voice Web Search, Speech Command) kann später ein eigener Sprach-Assistent erstellt und in eine App eingebunden werden.


== Ist-Analyse sorbischer Potenziale, Ressourcen und Projekte ==
== Ist-Analyse sorbischer Potenziale, Ressourcen und Projekte ==
Rjadka 131: Rjadka 167:
Während digitale Angebote wie Sprachausgabe und Spracherkennung in deutscher Sprache selbstverständlich sind und sowohl von internationalen Großkonzernen als auch von der öffentlichen Hand vorangetrieben und ausgebaut werden, gilt das für dieselben Angebote in sorbischer Sprache nur sehr eingeschränkt. Welche Grundlagen der Sprachunterstützung beider sorbischer Sprachen bereits realisiert oder geplant sind, sollen die folgenden Abschnitte untersuchen.
Während digitale Angebote wie Sprachausgabe und Spracherkennung in deutscher Sprache selbstverständlich sind und sowohl von internationalen Großkonzernen als auch von der öffentlichen Hand vorangetrieben und ausgebaut werden, gilt das für dieselben Angebote in sorbischer Sprache nur sehr eingeschränkt. Welche Grundlagen der Sprachunterstützung beider sorbischer Sprachen bereits realisiert oder geplant sind, sollen die folgenden Abschnitte untersuchen.


=== Ist-Stand der 4 Bausteine der Sprachassistenz ===
=== Ist-Stand der 4 Bausteine des Sprechens mit elektronischen Geräten===


==== Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT) ====
==== Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT) ====


* sorbische Ausgangslage: Vorarbeiten ansatzweise vorhanden
* sorbische Ausgangslage: die folgenden Vorarbeiten sind vorhanden
* Realisierung mittels Mozilla common voice, hierfür sind notwendig:
* '''Mozilla common voice''':
** <div style="margin-left:2cm;margin-right:0cm;">Mindestens 5.000 freigeschaltete sorbische Sätze, urheberrechtsfrei, gemeinfrei oder unter Creative-Commons-Lizenz (CC0)<ref name="ftn16">vgl. [https://common-voice.github.io/sentence-collector/#/ https://common-voice.github.io/sentence-collector/#/]</ref></div>
** die sorbischen Sprachen werden hier aktuell nicht weiter ergänzt, die gesammelten Daten werden jedoch in anderen Projekten weiter verwendet
** <div style="margin-left:2cm;margin-right:0cm;">validierte Sprachaufnahmen von ca. 10.000 Stunden sind notwendig, um ein produktiv einsetzbares Sprache-zu-Text-System zu trainieren</div>
*** die Anzahl an Daten ist bei weitem nicht ausreichend für den Einsatz von neuronalen Technologien
* Was wurde bereits erreicht?
*** die Qualität der Daten ist nur hinreichend für die Evaluation von Spracherkennungssystemen, nicht jedoch für deren Training (hierfür wird Tonstudio-Qualität benötigt)
** <div style="margin-left:2cm;margin-right:0cm;">Sehr engagierte Einzelpersonen sowie die Sächsischen Aufbau- und Erprobungskanäle (SAEK) treiben die Sammlung von freien Sprachdateien in Mozilla common voice voran</div>
** für das Obersorbische wurden bereits ca. 7.500 lizenzfreie Sätze gesammelt sowie 2 Stunden und 51 Minuten eingesprochen und validiert
** <div style="margin-left:2cm;margin-right:0cm;">die Webseiten-Lokalisierung für Ober- und Niedersorbisch sind zu 100% abgeschlossen ([https://voice.mozilla.org/hsb https://voice.mozilla.org/hsb] und [https://voice.mozilla.org/dsb https://voice.mozilla.org/dsb])</div>
** diese sind aktuell in sehr unterschiedlicher Qualität, sehr unausgewogen hinsichtlich der Stimmen (Geschlecht- und Alter-Verteilung)
** <div style="margin-left:2cm;margin-right:0cm;">für das Obersorbische wurden bereits ca. 7.000 lizenzfreie Sätze gesammelt sowie 1 Stunde und 44 Minuten eingesprochen und validiert (ca. 0,017%)</div>
** darüber hinaus lassen sich die Sätze common voice aktuell nicht thematisch zuordnen
** <div style="margin-left:2cm;margin-right:0cm;">diese sind aktuell in sehr unterschiedlicher Qualität, sehr unausgewogen hinsichtlich der Stimmen (Geschlecht- und Alter-Verteilung)</div>
** Für das Niedersorbische fehlen die Sätze und das Einsprechen<ref name="ftn17">vgl. [https://voice.mozilla.org/de/languages https://voice.mozilla.org/de/languages]</ref> <br>
** <div style="margin-left:2cm;margin-right:0cm;">darüber hinaus lassen sich die Sätze common voice aktuell nicht thematisch zuordnen </div>
 
** <div style="margin-left:2cm;margin-right:0cm;">Für das Niedersorbische fehlen die Sätze und das Einsprechen<ref name="ftn17">vgl. [https://voice.mozilla.org/de/languages https://voice.mozilla.org/de/languages]</ref></div>
* '''Prototyp "smart lamp" / "digidom"'''
** <div style="margin-left:2cm;margin-right:0cm;">Die folgenden Grafiken zeigen den aktuellen Stand der sorbischen Sprachen in Mozilla common voice:</div>
** 2020 startete das '''Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen'''“ der Stiftung für das sorbische Volk
** Durchgeführt wurde eine Machbarkeitsstudie zur automatischen Spracherkennung für die ober­sorbische Sprache vom Fraunhofer-Institut für keramische Technologien und Systeme Dresden (Abteilung Maschinelles Lernen und Datenanalyse) in Zusammenarbeit mit der Brandenburgischen Technischen Universität Cottbus mit folgenden Zielstellungen:
*** Realisierung eines prototypischen Spracherkenners für eine spezifizierte Beispielanwendung in einer stark beschränkten Sprachdomäne
*** Ziel wurde es, eine Smart-Home-Anwendung zu erstellen, welches mittels Sprachbefehlen eine Lampe bedienen kann, "digidom"
*** Einschätzung möglicher und empfohlener Technologien für die Entwicklung eines sorbischen Spracherkenners mit umfangreichem Wortschatz
*** Aussagen zur Anwendung der niedersorbischen Sprache
** Folgende Arbeitsschritte wurden bisher für dieses Projekt durchgeführt:
*** Statistische Auswertung von Textkorpora
*** Aufstellen der Phonemliste und der Ausspracheregeln
*** Auswahl an Aufzeichnungen aus „Common Voice“ sowie neue Aufzeichnungen wurden erstellt
*** Demonstrator unter Open Source Lizenz veröffentlicht<ref>vgl. [https://github.com/ZalozbaDev/web_demo_spoznawanje https://github.com/ZalozbaDev/web_demo_spoznawanje]</ref>
*** Prototyp „digidom“ unter Open Source Lizenz veröffentlicht <ref>vgl. [https://github.com/ZalozbaDev/raspberry_pi_demo_spoznawanje https://github.com/ZalozbaDev/raspberry_pi_demo_spoznawanje]</ref>
*** Veröfentlichung der Ergebnisse in einer Studie<ref>vgl. [http://www.essv.de/pdf/2021_43_50.pdf http://www.essv.de/pdf/2021_43_50.pdf]</ref>
*** Veröffentlichen von Kriterien zur Auswahl eines Sprachkorpus<ref>vgl. [https://github.com/ZalozbaDev/speech_recognition_corpus_creation/blob/main/report/report_summary_german.pdf https://github.com/ZalozbaDev/speech_recognition_corpus_creation/blob/main/report/report_summary_german.pdf]</ref> <br>  
* '''Folgeprojekt "Vorbereitung der Spracherkennung für das Obersorbische für eine Diktierfunktion"''' 2023:
** Das Ziel war die Entwicklung neuer und Verbesserung bestehender akustischer Modelle für die obersorbische Spracherkennung.
** Hierfür sollten akustische Modelle auf größeren Audiokorpora trainiert werden.
*** Es erfolgte eine Erweiterung der Sprachdatensätze mittels Augmentation, d. h. Einfügen von Hintergrundgeräuschen verschiedener Stärke.
*** Monophon- und Triphon-basierte Modelle wurden mit dem Open-Source-ASR-Toolkit KALDI trainiert.
*** Die Daten für die Modelle stammen aus verschiedenen Quellen, einschließlich des Common Voice Projekts, der ersten Machbarkeitsstudie (HSB-I) und neuen Audiodaten aus dem aktuellen Projekt.
*** Nach der Datenaugmentation umfassten die Sprachaufnahmen insgesamt 33:31:10 Stunden und 29.229 gesprochene Sätze.
** Triphon-basierte Modelle zeigten eine signifikant bessere Leistung als das monophon-basierte Modell.
** Ein robusteres und weiterentwickeltes triphon-basiertes akustisches Modell wurde erfolgreich erstellt.
** Mit den folgenden Schritten erfolgte die Verbesserung der Sprachmodellierung mit den bereitgestellten Ressourcen:
*** Vorverarbeitung und Normalisierung der Textdaten, z. B. Erkennen von Abkürzungen und Eigennamen, Segmentierung von Wörtern in morphologische Einheiten usw.
*** Wortklassenmodellierung durch Erkennung benannter Einheiten aus vordefinierten Wortklassen, z. B. Datums-, Uhrzeits-, Wochentags-, Namens-, Orts- und Zahlen-Ausdrücke.
*** Teilwortzerlegung mittels Byte Pair Encoding (BPE) und dem Morfessor-Algorithmus, um das Vokabular zu verkleinern.
** Die Wahl des richtigen Teilwortzerlegungsverfahrens und der geeigneten Vokabulargröße hat einen signifikanten Einfluss auf die Leistung des Sprachmodells.
** Im Ergebnis konnte eine Sammlung von normalisierten Textkorpora erzeugt werden, der für das Training von statistischen Sprachmodellen basierend auf ganzen Wörtern oder Wortteilen geeignet ist.
* Weitere Arbeit an Robustheit und Leistungsfähigkeit von "digidom" ist nötig <br>


[[Image:Grafik 15.png|top]][[Image:Grafik 18.png|top]]
* '''weitere Applikationen mittels Spracherkennung'''
 
** Spiele
* 2020 startete das Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen“ der Stiftung für das sorbische Volk
*** Lingufino, eine interaktive Puppe, die auf Spracheingaben reagiert
** <div style="margin-left:2cm;margin-right:0cm;">Geplant ist eine Machbarkeitsstudie zur automatischen Spracherkennung für die ober­sorbische Sprache vom Fraunhofer-Institut für keramische Technologien und Systeme Dresden (Abteilung Maschinelles Lernen und Datenanalyse) in Zusammenarbeit mit der Brandenburgischen Technischen Universität Cottbus mit folgenden Zielstellungen: </div>
** Diktierfunktion
*** <div style="margin-left:3cm;margin-right:0cm;">Realisierung eines prototypischen Spracherkenners für eine spezifizierte Beispielanwendung in einer stark beschränkten Sprachdomäne </div>
** Simultanübersetzung
*** <div style="margin-left:3cm;margin-right:0cm;">Einschätzung möglicher und empfohlener Technologien für die Entwicklung eines sorbischen Spracherkenners mit umfangreichem Wortschatz </div>
*** <div style="margin-left:3cm;margin-right:0cm;">Aussagen zur Anwendung der niedersorbischen Sprache </div>
** <div style="margin-left:2.251cm;margin-right:0cm;">Es wurden bereits erste Arbeitsschritte für dieses Projekt durchgeführt.</div>


==== Baustein 2: Textübersetzung (Machine Translation, MT) ====
==== Baustein 2: Textübersetzung (Machine Translation, MT) ====


* vgl. auch Kapitel 5 Abschnitt [https://koncept.serbski-inkubator.de/index.php/5._Schreiben_auf_elektronischen_Ger%C3%A4ten#.C3.9Cbersetzer Übersetzer]
* Notwendig: umfangreicher 2-sprachiger Textkorpus
* Notwendig: umfangreicher 2-sprachiger Textkorpus
** Urheberrechtsfrei, gemeinfrei oder unter Creative-Commons-Lizenz (CC0)
** Urheberrechtsfrei, gemeinfrei oder unter Creative-Commons-Lizenz (CC0)
** Satzweise übersetzt
** Satzweise übersetzt
** Vereinheitlicht, maschinenlesbar
** Vereinheitlicht, maschinenlesbar
* Sorbische Ausgangslage: eher kleiner paralleler Textkorpus liegt im WITAJ-Sprachzentrum vor
* Sorbische Ausgangslage: paralleler Textkorpus liegt im WITAJ-Sprachzentrum vor
* Aufgabe: laufende digitale Erfassung bestehender Übersetzungen in hoher Qualität
* Aufgabe: laufende digitale Erfassung bestehender Übersetzungen in hoher Qualität
* Herausforderung: Technologieneutralität, d.&nbsp;h. eine Textübersetzung unabhängig von einer speziellen Technologie zu erstellen, so dass sie später in verschiedenen Produkten und Diensten genutzt werden kann (Google Translate, Microsoft Bing Translator, DeepL)
* Herausforderung: Technologieneutralität, d.&nbsp;h. eine Textübersetzung unabhängig von einer speziellen Technologie zu erstellen, so dass sie später in verschiedenen Produkten und Diensten genutzt werden kann (Google Translate, Microsoft Bing Translator, DeepL)
* Seit 2019 laufendes Projekt des WITAJ-Sprachzentrums: Aufbau eines automatischen „Online-Übersetzers Deutsch-Sorbisch, Sorbisch-Deutsch“ zunächst für Obersorbisch, später auch Niedersorbisch
* '''sotra.app''': Seit 2019 laufendes Projekt des '''WITAJ-Sprachzentrums: Aufbau eines automatischen „Online-Übersetzers Deutsch-Sorbisch, Sorbisch-Deutsch“'''
** Aufbau eines großen 2-sprachigen Textkorpus, Ziel bis Ende 2020 ca. 170.000 Satzpaare (ca. 2 Mio. Wörter)
** seit 2021 verfügbar für Obersorbisch und seit 2022 auch in Niedersorbisch für Texte mit max. 6.000 Zeichen
** das Projekt startete mit dem Tool Microsoft Translator Hub (eingestellt durch Microsoft)
** Übersetzungen möglich von und nach Deutsch, Ober- und Niedersorbisch und Tschechisch (Beta, von und nach den sorbischen Sprachen)
** es wird nun der Ansatz verfolgt, offene Plattformen zu nutzen, um Unabhängigkeit von den Firmen Google, Microsoft, DeepL usw. und deren wirtschaftlichen Interessen zu bewahren
** zusätzlicher Service: Rechtschreibkontrolle
** aktuell wird das statistische System MOSES-decoder genutzt
** Mitte 2022 beinhaltete der 2-sprachige Textkorpus ca. 300.000 parallele Satzpaare
** parallel erfolgen Test des neuronalen Systems OpenNMT (Python)
** zukünftig geplant: OCR-Erkennung von Bildern mit Texten
** für März 2021 ist eine erste öffentlich zugänglichen Test-Version geplant, die weiterentwickelt werden soll
** Historie:
*** Aufbau eines großen 2-sprachigen Textkorpus, Ziel bis Ende 2020 ca. 170.000 Satzpaare (ca. 2 Mio. Wörter)
*** Ende 2021 beinhaltete der 2-sprachige Textkorpus ca. 260.000 parallele Satzpaare
*** das Projekt startete mit dem Tool Microsoft Translator Hub (eingestellt durch Microsoft)
*** es wird nun der Ansatz verfolgt, offene Plattformen zu nutzen, um Unabhängigkeit von den Firmen Google, Microsoft, DeepL usw. und deren wirtschaftlichen Interessen zu bewahren
*** aktuell wird das statistische System MOSES-decoder genutzt
*** parallel erfolgen Tests des neuronalen Systems OpenNMT (Python)
* '''Microsoft Bing Translator'''<ref name="ftn46">vgl. [https://www.bing.com/translator https://www.bing.com/translator]</ref>
** Der Bing Translator konnte mittels des 2-sprachigen Teytkorpus des WITAJ-Sprachzentrums auf beide sorbische Sprachen trainiert werden:
** Obersorbisch wird seit 2022 mit aktuell max. 1.000 Zeichen pro Text unterstützt.
** Niedersorbisch wird seit 2023 mit aktuell max. 1.000 Zeichen pro Text unterstützt.
** In der Microsoft Bing Translator App wird lediglich die Funktion 'Text übersetzen' unterstützt. Es fehlen die Funktionen 'Sprechen' (STT), 'autom. Spracherkennung', 'Text in Bild übersetzen', 'Audiowiedergabe der Übersetzung' (TTS), 'Offline übersetzen'.


==== Baustein 3: Intention erkennen und Anweisungen ausführen  ====
==== Baustein 3: Intention erkennen und Anweisungen ausführen  ====
Rjadka 180: Rjadka 255:
==== Baustein 4: Sprachausgabe (Text to Speech, TTS) ====
==== Baustein 4: Sprachausgabe (Text to Speech, TTS) ====


Erste Projekte in die Richtung Sprachausgabe wurden bereits umgesetzt:* '''Audioversion des Deutsch-Niedersorbischen Wörterbuchs (nicht als TTS realisiert)'''
Erste Projekte in die Richtung Sprachausgabe wurden bereits umgesetzt:
* '''Audioversion des Deutsch-Niedersorbischen Wörterbuchs (nicht als TTS realisiert)'''
** Für die niedersorbische Sprache wurden vom Sorbischen Institut seit 2014 Tondateien erstellt und in die online-Fassung des Deutsch-Niedersorbischen Wörterbuchs integriert. In einer wissenschaftlichen Studie wurden zudem die verschiedenen Erfahrungen mit praktischen Schwierigkeiten bei der Aussprache verarbeitet. Diese Studie diente dazu, im Jahre 2018 einen praktischen online-Führer zur Aussprache des Niedersorbischen zu erarbeiten. Hochwertige Tonaufnahmen wurden zusammengestellt und bestimmten Lautgruppen bzw. für den Spracherwerb wichtigen lautlichen Phänomenen zugeordnet, mit wichtigen erläuternden Texten ergänzt und auf [http://www.dolnoserbski.de www.dolnoserbski.de] als neue Dienstleistung angeboten. Dadurch steht erstmals eine praktische, durch Tonbeispiele illustrierte Anleitung zur Aussprache des Niedersorbischen zur Verfügung.
** Für die niedersorbische Sprache wurden vom Sorbischen Institut seit 2014 Tondateien erstellt und in die online-Fassung des Deutsch-Niedersorbischen Wörterbuchs integriert. In einer wissenschaftlichen Studie wurden zudem die verschiedenen Erfahrungen mit praktischen Schwierigkeiten bei der Aussprache verarbeitet. Diese Studie diente dazu, im Jahre 2018 einen praktischen online-Führer zur Aussprache des Niedersorbischen zu erarbeiten. Hochwertige Tonaufnahmen wurden zusammengestellt und bestimmten Lautgruppen bzw. für den Spracherwerb wichtigen lautlichen Phänomenen zugeordnet, mit wichtigen erläuternden Texten ergänzt und auf [http://www.dolnoserbski.de www.dolnoserbski.de] als neue Dienstleistung angeboten. Dadurch steht erstmals eine praktische, durch Tonbeispiele illustrierte Anleitung zur Aussprache des Niedersorbischen zur Verfügung.
* '''Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache'''
* '''Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache'''
** Seit 2018 erfolgen die Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch für die Integration in Webseiten, Online-Wörterbücher u.&nbsp;ä. durch das Sorbische Institut in Bautzen. Geplanter Abschluss ist 2023.
** Seit 2018 erfolgen die Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch für die Integration in Webseiten, Online-Wörterbücher u.&nbsp;ä. durch das Sorbische Institut in Bautzen. Geplanter Abschluss ist 2023.
** Seit 2023 können die beiden Vorlesestimmen Juro (niedersorbisch) und Matej (obersorbisch) in einer ersten Version ausprobiert werden.<ref>vgl. [http://tts-juro-matej.serbski-institut.de http://tts-juro-matej.serbski-institut.de], [https://www.serbski-institut.de/projekte-sprachwissenschaft/entwicklung-einer-vorlesefunktion-fuer-die-nieder-und-obersorbische-schriftsprache/ Projektseite SI], [https://www.serbski-institut.de/erste-version-der-sorbischen-vorlesefunktion-und-sprachlandschaft-schleife/ Pressemitteilung SI]</ref> <br>
* '''Bookii-Bücher in sorbischer Sprache'''<ref>vgl. [https://www.domowina-verlag.de/kinderbuecher/bookii-buecher.html?limit=20 https://www.domowina-verlag.de/kinderbuecher/bookii-buecher.html?limit=20]</ref>
** Aktuell gibt es 9 Bookii-Bücher in obersorbischer Sprache
** und 3 Bookii-Bücher in niedersorbischer Sprache.
* '''bamborak''', TTS-System für Obersorbisch<ref name="ftn56">vgl. [https://gaussia.de/bamborak/ https://gaussia.de/bamborak]</ref>
** Seit 2022 entwickelt K. Baier ein obersorbisches TTS-System auf Basis eines neuronalen Netzes.
** Bisher wurden hierfür ca. 2.400 Sätze aufgenommen und durch das neuronale Netz verarbeitet.


==== Fazit ====
==== Fazit ====
Rjadka 218: Rjadka 301:
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Sorbisches Institut, gefördert durch die Stiftung für das sorbische Volk
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Sorbisches Institut, gefördert durch die Stiftung für das sorbische Volk
|-
|-
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache<ref name="ftn18">'''vgl. [https://www.serbski-institut.de/de/Entwicklung-einer-Vorlesefunktion-fuer-die-nieder--und-obersorbische-Schriftsprache/ https://www.serbski-institut.de/de/Entwicklung-einer-Vorlesefunktion-fuer-die-nieder--und-obersorbische-Schriftsprache/] '''</ref>
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache'''<ref name="ftn18">vgl. [https://www.serbski-institut.de/de/Entwicklung-einer-Vorlesefunktion-fuer-die-nieder--und-obersorbische-Schriftsprache/ https://www.serbski-institut.de/de/Entwicklung-einer-Vorlesefunktion-fuer-die-nieder--und-obersorbische-Schriftsprache/]</ref>
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch (geplanter Abschluss 2023)
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch (geplanter Abschluss 2023)
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2018
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2018
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Sorbisches Institut, gefördert durch das Sächsische Staatsministerium für Wissenschaft, Kultur und Tourismus (SMWT)
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Sorbisches Institut, gefördert durch das Sächsische Staatsministerium für Wissenschaft, Kultur und Tourismus (SMWK)
|-
|-
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Online-Übersetzer Deutsch-Sorbisch, Sorbisch-Deutsch'''
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Online-Übersetzer Deutsch-Sorbisch, Sorbisch-Deutsch'''


'''(zunächst Obersorbisch)'''
'''(zunächst Obersorbisch)'''
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Entwicklung und Bereitstellung eines Online-Übersetzers für Sätze und Texte, Deutsch-Sorbisch und Sorbisch-Deutsch. Als Übersetzungs­grundlage dient ein bilingualer Textkorpus, welcher erstellt wird und für das Training eines Übersetzungssystems verwendet wird.
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Entwicklung und Bereitstellung eines Online-Übersetzungsdienstes für Sätze und Texte, Deutsch-Sorbisch und Sorbisch-Deutsch. Als Übersetzungs­grundlage dient ein bilingualer Textkorpus, welcher erstellt wird und für das Training eines Übersetzungssystems verwendet wird.
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2019  
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2019  
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | WITAJ-Sprachzentrum, gefördert durch die Stiftung für das sorbische Volk
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | WITAJ-Sprachzentrum, gefördert durch die Stiftung für das sorbische Volk
Rjadka 233: Rjadka 316:
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Erstellung von öffentlich zugänglichen Sprachdaten, diese stehen via CC0-Lizenz zur freien Nutzung zur Verfügung, z.&nbsp;B. für das Training eine Spracherkennungs-Engine
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Erstellung von öffentlich zugänglichen Sprachdaten, diese stehen via CC0-Lizenz zur freien Nutzung zur Verfügung, z.&nbsp;B. für das Training eine Spracherkennungs-Engine
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2019
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2019
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | engagierte Einzel­personen
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | engagierte Privat­personen
|-
|-
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen'''
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen'''
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Machbarkeitsstudie zur automatischen Spracherkennung für die obersorbische Sprache
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Machbarkeitsstudie zur automatischen Spracherkennung für die obersorbische Sprache, Prototypen "smart lamp" und "digidom"
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2020
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2020
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Stiftung für das sorbische Volk
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Stiftung für das sorbische Volk
|-
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Bereitstellung von interaktiven Spielzeugen und Büchern in den sorbischen Sprachen'''
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Bereitstellung von interaktiven Bookii-Büchern und der sprechenden interaktiven Puppe Lingufino in den sorbischen Sprachen
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit 2018
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Domowina Verlag gGmbH und  Medienpädagogisches Projekt LUCIJA des Sorbischen Schulvereins e. V., gefördert durch die Stiftung für das sorbische Volk
|-
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | '''Bereitstellung von Online-Vorlesefunktionen in obersorbischer Sprache'''
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Vorlesefunktion auf Basis neuronaler Netze für Zahlen und Uhrzeit<ref name="ftn">vgl. [https://gaussia.de/slp/ https://gaussia.de/slp]</ref> sowie für Texte<ref name="ftn56">vgl. [https://gaussia.de/bamborak/ https://gaussia.de/bamborak]</ref>
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | Seit ca. 2020
| style="border:0.5pt solid #000000;padding-top:0cm;padding-bottom:0cm;padding-left:0.191cm;padding-right:0.191cm;" | eine engagierte Privatperson
|-
|-
|}
|}
Rjadka 244: Rjadka 337:
== Zukünftige Maßnahmen und Projekte bzgl. Sprachassistenz ==
== Zukünftige Maßnahmen und Projekte bzgl. Sprachassistenz ==


Die folgenden Maßnahmen ergeben sich aus der Ist-Analyse. Sie werden in Abschnitt&nbsp;Fehler: Verweis nicht gefunden beschrieben.
Die folgenden Maßnahmen ergeben sich aus der Ist-Analyse. Sie werden in Abschnitt&nbsp;13.2 beschrieben.


{| style="border-spacing:0;"
{| style="border-spacing:0;"
Rjadka 284: Rjadka 377:
|-
|-
|}
|}


----
----
<references/>
<references/>

Aktualna wersija wot 6. julija 2023, 13:15

Einleitung

Dieser Themenbereich beinhaltet die Unterstützung des Anwenders beim Sprechen mit elektronischen Geräten in den sorbischen Sprachen. Im Fokus steht die Interaktion von Menschen mit elektronischen Geräten mittels gesprochener Worte. Dies umfasst folgende Bereiche:

  • Sprachausgabe: das Vorlesen geschriebener sorbischer Wörter
  • Spracherkennung: das Erkennen und Darstellen von gesprochenen sorbischen Wörtern durch elektronische Geräte (Computer, Smartphones usw.)
  • Sprachverarbeitung: das Verarbeiten gesprochener sorbischer Wörter und Reagieren darauf (z. B. Anweisungen ausführen, Antworten).

Mögliche Einsatzbereiche und Applikationen sind bspw.

  • Sprachassistenten,
  • Spiele, Spielzeuge (wie Lingufino),
  • Untertitel und Simultanübersetzungen (z. B. bei Videokonferenzen).


Visionen und Ziel für die sorbische digitale Welt

Vision 2028

„Sorben und Sorbisch-Lernende nutzen für die Interaktion mit elektronischen Geräten die gesprochene sorbische Sprache (gleichwertig zur geschriebenen Sprache und gleichwertig zur deutschen Sprache).“ (z.B. für Sprachassistenz oder andere Applikationen)

Konkrete Visionen 2025

„Sorben und Sorbisch-Lernende können mit den meistgenutzten elektronischen Geräten sprechen – die sorbischen Worte werden vom Gerät erkannt und dargestellt (Spracherkennung).“
„Sorben und Sorbisch-Lernende können sich mit den meistgenutzten elektronischen Geräten sorbische Worte und Texte anhören (Sprachausgabe).“

Konkrete Ziele

Einzelne Applikationen verstehen die gesprochenen sorbischen Sprachen und stellen gesprochene Worte dar. (Spracherkennung)
Einzelne Applikationen können sorbische Worte vorlesen. (Sprachausgabe)
Einzelne Applikationen können gesprochene sorbische Worte und Sätze erkennen, verarbeiten und ausgeben, z. B. in einem Online-Videokonferenzsystem mit Simultanübersetzung als Untertitel.


Ist-Analyse Stand der Entwicklung von Sprachassistenzsystemen

Welche Bausteine werden für eine Sprachassistenz benötigt?

Um eine sprachliche Interaktion mit einem elektronischen Gerät ähnlich wie mit Menschen zu erreichen, sind verschiedene technische Bausteine notwendig, welche jeweils unterschiedliche Aufgaben übernehmen. Die folgende Einteilung der Bausteine orientiert sich an einem Vortrag von Jan Budar vom 13.09.2018 in Senftenberg zu “Digitalisierung als Chance für die Sorben”.

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)[1]

  • basiert auf phonetischen Informationen zu
    • einzelnen Buchstaben und Silben
    • deren Kombinationen
    • ihrer Position im Wort/Satz

Umwandlung von gesprochener Sprache in Text
Die typischen Schritte zur Umwandlung von gesprochener Sprache in Text (Speech-to-Text, STT) sind:

  1. Aufnahme der Sprache: Der erste Schritt besteht darin, die gesprochene Sprache aufzunehmen. Dies kann entweder über ein Mikrofon oder eine andere Audioquelle erfolgen.
  2. Signalverarbeitung: Die aufgenommenen Audiosignale werden durch Signalverarbeitungsalgorithmen vorverarbeitet. Dazu gehören zum Beispiel Rauschunterdrückung, Echo-Entfernung und Entzerrung.
  3. Sprachsegmentierung: Die Audioaufnahme wird in kurze Segmente unterteilt, die normalerweise zwischen 10 und 30 Millisekunden lang sind. Diese Segmente werden dann weiterverarbeitet.
  4. Merkmalsextraktion: Für jedes Sprachsegment werden akustische Merkmale wie Frequenz, Lautstärke, Tonhöhe und Dauer extrahiert. Diese Merkmale dienen als Eingabe für das Spracherkennungsmodell.
  5. Spracherkennung: Das Spracherkennungsmodell verwendet die extrahierten Merkmale, um die gesprochene Sprache in Text umzuwandeln. Dieser Schritt kann auf unterschiedliche Weise durchgeführt werden, z.B. mit Hidden Markov Models (HMMs), künstlichen neuronalen Netzen (KNNs) oder Deep-Learning-Modellen.
  6. Postprocessing: Der erkannte Text wird postprozessiert, um mögliche Fehler oder Inkonsistenzen im Text zu korrigieren. Dazu können beispielsweise Grammatik- und Sprachmodelle verwendet werden, um den erkannten Text zu verbessern.
  7. Textausgabe: Der endgültige Text wird dann ausgegeben, z.B. in einer Textdatei oder als Eingabe für eine andere Anwendung.

Je nach Anwendung und Sprachmodell können die genauen Schritte und Technologien zur Umwandlung von Sprache in Text variieren.

Training von Spracherkennungs-Maschinen

  • vgl. auch Vortrag von D. Sobe 2022 im Rahmen einer Online-Abendveranstaltung[2]

Klassischerweise wird die Spracherkennung durch die Verwendung von stochastische Modellen wie Hidden-Markov-Modellen (HMM) und Gauss'schen Mischmodellen (GMM) durchgeführt. Das Sprachsignal wird dabei in kurze Abschnitte, sogenannte Phoneme, unterteilt. Die Phoneme werden dann in einer HMM- oder GMM-Datenbank gespeichert. Bei der Erkennung wird das Sprachsignal in Phoneme aufgeteilt und mit der HMM- oder GMM-Datenbank abgeglichen, um die wahrscheinlichste Sequenz von Phonemen zu finden. Diese wird dann in Text umgewandelt und ausgegeben.

In den letzten Jahren haben sich Deep Learning Modelle mit tiefen neuronalen Netzen, wie z.B. Recurrent Neural Networks (RNNs) und Convolutional Neural Networks (CNNs), als effektive Methoden zur Spracherkennung erwiesen. Diese Modelle können komplexe Beziehungen zwischen Phonemen und Wörtern erfassen und somit die Genauigkeit der Spracherkennung verbessern.

  • z. B. Mozilla Common Voice[3] in Kombination mit einer Spracherkennungs-Engine wie Mozilla Deep Speech

Erstellung von Spracherkennungs-Maschinen
Um eine Spracherkennungs-Engine (Speech-to-Text) zu erstellen, werden verschiedene Ressourcen benötigt, darunter:

  1. Sprachdaten: Um ein Spracherkennungsmodell zu trainieren, werden große Mengen an Audioaufnahmen benötigt, die repräsentativ für die Sprache und den Dialekt sind, den die Engine erkennen soll. Diese Sprachdaten sollten auch verschiedene Sprecher, Akzente und Hintergrundgeräusche enthalten.
  2. Transkriptionen: Jede Audioaufnahme muss mit einer Texttranskription versehen werden, die angibt, was in der Aufnahme gesagt wird. Diese Transkriptionen werden verwendet, um das Modell zu trainieren und zu testen.
  3. Sprachmodelle: Sprachmodelle sind eine wichtige Komponente von Spracherkennungs-Engines, da sie die Wahrscheinlichkeit berechnen, mit der eine bestimmte Sequenz von Wörtern in einem bestimmten Kontext auftreten wird. Diese Modelle werden verwendet, um die Wahrscheinlichkeit des erkannten Textes zu berechnen und die Genauigkeit der Spracherkennungs-Engine zu verbessern.
  4. Aussprachelexika: Ein Aussprachelexikon enthält eine Liste von Wörtern und deren Aussprache in der jeweiligen Sprache. Dies wird verwendet, um die richtige Aussprache von Wörtern im erkannten Text zu bestimmen.
  5. Phonemmodelle: Phonemmodelle beschreiben, wie Wörter in ihre kleinsten sprachlichen Einheiten (Phoneme) aufgeteilt werden können. Diese Modelle werden verwendet, um die Wahrscheinlichkeit von Phonemsequenzen zu berechnen und die Genauigkeit der Spracherkennungs-Engine zu verbessern.
  6. Linguistische Ressourcen: Zusätzlich zu den oben genannten Ressourcen können auch linguistische Ressourcen wie Grammatiken, semantische Modelle und syntaktische Modelle verwendet werden, um die Genauigkeit der Spracherkennungs-Engine zu verbessern.

Baustein 2: Textübersetzung (Machine Translation, MT)

  • Grundlage hierfür sind Massen an übersetzten Sätzen
  • Künstliche Intelligenz lernt aus diesen übersetzten Sätzen durch
    • Mustererkennung
    • Training
  • vgl. Kapitel 5 Abschnitt Übersetzer

Baustein 3: Intention erkennen und Anweisungen ausführen[4]

  • aus dem erkannten Text wird die Intention des Nutzers extrahiert (intent parser)
  • Anweisungen werden abgeleitet und ausgeführt (Skill invocation)
  • z. B. https://wit.ai/ (eine Sprachplattform, welche zum Facebook-Konzern gehört)
  • z.B. https://mycroft.ai/als datenschutzfreundliche Alternative

Baustein 4: Sprachausgabe (Text to Speech, TTS)[5]

  • bspw. für barrierefreie Webseiten notwendig
  • Open Source Text-to-speech-System: MaryTTS
  • modularer Aufbau: Lexikon, Sprache, Daten, Synthese
  • Unit-Selectin-Synthese (Verkettung natürlichsprachlicher Elemente)
  • ThorstenVoice (OSS Variante)

Die folgenden Schritte sind typischerweise erforderlich, um einen Text in eine gesprochene Sprachausgabe umzuwandeln:

  1. Linguistische Analyse: Der eingegebene Text wird vorverarbeitet, um dessen Struktur zu analysieren, einschließlich der Trennung von Sätzen, der Erkennung von Interpunktion und der Ermittlung der Betonung.
  2. Phonetische Umsetzung: Der Text wird in eine phonetische Darstellung umgewandelt, in der jeder Textabschnitt in eine entsprechende Sequenz von Lauten (Phonemen) übersetzt wird. Dies wird typischerweise durch eine phonetische Lexikon-Datenbank und Sprachregeln erreicht.
  3. Prosodische Modellierung: Es wird die Betonung und Intonation des Textes bestimmt. Hierbei werden Faktoren wie Akzent, Tonhöhe, Tempo, Pause und Rhythmus berücksichtigt, um eine natürliche Sprachmelodie zu erzeugen.
  4. Synthese: Der phonetisch umgesetzte Text wird dann in Sprache umgewandelt, indem die phonetischen Einheiten zu Sprachsignalen zusammengefügt werden. Dies kann entweder durch die Verwendung von Klangeinheiten, die in einer Datenbank gespeichert sind, oder durch das Generieren von Sprache auf der Grundlage von Modellen, wie z.B. Deep-Learning-Modellen, erfolgen.

Eine TTS-Engine benötigt folgende Voraussetzungen:

  1. Eine umfangreiche phonetische Datenbank oder ein phonetisches Modell, um die Übersetzung von Text in Phoneme zu ermöglichen.
  2. Ein Prosodie-Modell, um die natürliche Sprachmelodie zu erzeugen.
  3. Eine Sprachsynthesetechnologie, um die Phoneme in Sprachsignale zu konvertieren.
  4. Training mit großen Datenmengen, um die Sprachsynthese-Modelle auf die spezifische Sprache und Stimme zu optimieren.


Definition und Marktübersicht von Sprachassistenten

Ein Sprachassistent ist eine bestimmte Art von Software, die gesprochene Worte analysiert, in den richtigen Kontext einordnet und darauf reagiert. Sprachassistenten sind als Software meist in Smartphones oder Smart Speaker, aber auch in Konsolen (PS4), Fernseher und smart watches integriert. Ein Smart Speaker wiederum ist ein bestimmtes Gerät, auf welchem der Sprachassistent als Software installiert ist.[6] Spricht ein Mensch mit diesem Gerät, so beantwortet es über seine Sprachsoftware verbal Fragen oder führt Anweisungen aus, z. B. steuert es vernetzte smart home Geräte (TV-Geräte, Heizungsthermostate, Rollläden, Lampen, Waschmaschine, Backofen, Kaffee­maschine bis hin zur Toilettenspülung usw.). Auch in Autos, Kopfhörern, Bürogeräten und Kleidung sind bereits Sprachassistenten im Einsatz.

Die Entwicklung der Sprachassistenten:* 2010 Apples Siri („Hey Siri“)

  • 2012 Google Assistant (vormals Google Now) („Ok, Google“)
  • 2013 Microsoft Cortana („Hey Cortana“)
  • 2014 Amazon Alexa („Alexa“)
  • 2015 Mycroft - open Source Smart Speaker (“Hey Mycroft”)[7]
  • 2017 Sprachassistenten der chinesischen Firmen Baidu und Alibaba
  • 2018 Samsung Bixby („Hi Bixby“)
  • 2019 Leon – open source personal assistant[8]

Heute sind weltweit bereits mehr als 4 Milliarden Sprachassistenten im Einsatz. Bis 2023 rechnet die Marktforschungsfirma Juniper Research mit 8 Milliarden Sprachassistenten.[9]

Grafik 16.png

Marktübersicht

Die führenden Anbieter für Sprachassistenzsysteme am weltweiten Markt sind:

  1. Amazon mit seinem Sprachassistenzsystem "Alexa" und den Amazon Echo Geräten.
  2. Google mit seinem Sprachassistenzsystem "Google Assistant" und den Google Home Geräten.
  3. Apple mit seinem Sprachassistenzsystem "Siri" und der HomePod-Produktlinie.
  4. Microsoft mit seinem Sprachassistenzsystem "Cortana" und der Surface Headphones Produktlinie.
  5. Samsung mit seinem Sprachassistenzsystem "Bixby" und der Galaxy Home Produktlinie.

Diese Anbieter haben in den letzten Jahren in die Entwicklung und Verbesserung von Sprachassistenzsystemen investiert und setzen auf künstliche Intelligenz und maschinelles Lernen, um die Spracherkennung und -verarbeitung zu verbessern. Dabei sind ihre Sprachassistenzsysteme nicht nur auf den Heimgebrauch beschränkt, sondern auch in mobilen Geräten, Autos und anderen Branchen wie Gesundheitswesen, Einzelhandel und Finanzen verbreitet.

Es ist schwierig, genaue Zahlen darüber zu finden, welchen Anteil jeder Anbieter am Gesamtmarkt für Sprachassistenzsysteme hat, da es keine einheitliche Definition des Marktes gibt und die Zahlen von verschiedenen Marktforschungsunternehmen variieren können. Basierend auf den verfügbaren Daten sind die größten Anbieter am Markt Amazon Alexa mit rund 25% Marktanteil, Google Assistant mit rund 20% Marktanteil und Apples Siri mit rund 15% Marktanteil weltweit. Es gibt jedoch Unterschiede in den Zahlen je nach Region und Art des Geräts (z.B. intelligente Lautsprecher, Mobiltelefone, Smart-Home-Geräte).

Die beliebtesten Anwendungsfälle von Nutzern von Smart Speakern sind[10]

  1. Musik hören
  2. Fragen stellen
  3. Wetter checken
  4. Zeitschaltuhr einschalten
  5. Alarm einstellen
  6. Radio hören

Grafik 17.png

Aktuell unterstützte Sprachen[11]

  • Amazons Alexa unterstützt 9 Sprachen
    • Arabisch, Deutsch, Englisch (5 Dialekte), Französisch (2 Dialekte), Hindi (Indisch), Italienisch, Japanisch, Portugiesisch (Brasil.), Spanisch (3 Dialekte)
  • Google Assistant unterstützt 44 Sprachen auf Smartphones
  • Google Assistant unterstützt 13 Sprachen auf Smart Speakern / Google Home
    • Dänisch, Deutsch (2 Dialekte), Englisch (6 Dialekte), Französisch (2 Dialekte), Hindi, Italienisch, Japanisch, Koreanisch, Niederländisch, Norwegisch, Portugiesisch (Brasil.), Schwedisch, Spanisch (3 Dialekte)
  • Apples Siri unterstützt rund 42 Sprachen


Ist-Analyse sorbischer Potenziale, Ressourcen und Projekte

Während digitale Angebote wie Sprachausgabe und Spracherkennung in deutscher Sprache selbstverständlich sind und sowohl von internationalen Großkonzernen als auch von der öffentlichen Hand vorangetrieben und ausgebaut werden, gilt das für dieselben Angebote in sorbischer Sprache nur sehr eingeschränkt. Welche Grundlagen der Sprachunterstützung beider sorbischer Sprachen bereits realisiert oder geplant sind, sollen die folgenden Abschnitte untersuchen.

Ist-Stand der 4 Bausteine des Sprechens mit elektronischen Geräten

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)

  • sorbische Ausgangslage: die folgenden Vorarbeiten sind vorhanden
  • Mozilla common voice:
    • die sorbischen Sprachen werden hier aktuell nicht weiter ergänzt, die gesammelten Daten werden jedoch in anderen Projekten weiter verwendet
      • die Anzahl an Daten ist bei weitem nicht ausreichend für den Einsatz von neuronalen Technologien
      • die Qualität der Daten ist nur hinreichend für die Evaluation von Spracherkennungssystemen, nicht jedoch für deren Training (hierfür wird Tonstudio-Qualität benötigt)
    • für das Obersorbische wurden bereits ca. 7.500 lizenzfreie Sätze gesammelt sowie 2 Stunden und 51 Minuten eingesprochen und validiert
    • diese sind aktuell in sehr unterschiedlicher Qualität, sehr unausgewogen hinsichtlich der Stimmen (Geschlecht- und Alter-Verteilung)
    • darüber hinaus lassen sich die Sätze common voice aktuell nicht thematisch zuordnen
    • Für das Niedersorbische fehlen die Sätze und das Einsprechen[12]
  • Prototyp "smart lamp" / "digidom"
    • 2020 startete das Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen“ der Stiftung für das sorbische Volk
    • Durchgeführt wurde eine Machbarkeitsstudie zur automatischen Spracherkennung für die ober­sorbische Sprache vom Fraunhofer-Institut für keramische Technologien und Systeme Dresden (Abteilung Maschinelles Lernen und Datenanalyse) in Zusammenarbeit mit der Brandenburgischen Technischen Universität Cottbus mit folgenden Zielstellungen:
      • Realisierung eines prototypischen Spracherkenners für eine spezifizierte Beispielanwendung in einer stark beschränkten Sprachdomäne
      • Ziel wurde es, eine Smart-Home-Anwendung zu erstellen, welches mittels Sprachbefehlen eine Lampe bedienen kann, "digidom"
      • Einschätzung möglicher und empfohlener Technologien für die Entwicklung eines sorbischen Spracherkenners mit umfangreichem Wortschatz
      • Aussagen zur Anwendung der niedersorbischen Sprache
    • Folgende Arbeitsschritte wurden bisher für dieses Projekt durchgeführt:
      • Statistische Auswertung von Textkorpora
      • Aufstellen der Phonemliste und der Ausspracheregeln
      • Auswahl an Aufzeichnungen aus „Common Voice“ sowie neue Aufzeichnungen wurden erstellt
      • Demonstrator unter Open Source Lizenz veröffentlicht[13]
      • Prototyp „digidom“ unter Open Source Lizenz veröffentlicht [14]
      • Veröfentlichung der Ergebnisse in einer Studie[15]
      • Veröffentlichen von Kriterien zur Auswahl eines Sprachkorpus[16]
  • Folgeprojekt "Vorbereitung der Spracherkennung für das Obersorbische für eine Diktierfunktion" 2023:
    • Das Ziel war die Entwicklung neuer und Verbesserung bestehender akustischer Modelle für die obersorbische Spracherkennung.
    • Hierfür sollten akustische Modelle auf größeren Audiokorpora trainiert werden.
      • Es erfolgte eine Erweiterung der Sprachdatensätze mittels Augmentation, d. h. Einfügen von Hintergrundgeräuschen verschiedener Stärke.
      • Monophon- und Triphon-basierte Modelle wurden mit dem Open-Source-ASR-Toolkit KALDI trainiert.
      • Die Daten für die Modelle stammen aus verschiedenen Quellen, einschließlich des Common Voice Projekts, der ersten Machbarkeitsstudie (HSB-I) und neuen Audiodaten aus dem aktuellen Projekt.
      • Nach der Datenaugmentation umfassten die Sprachaufnahmen insgesamt 33:31:10 Stunden und 29.229 gesprochene Sätze.
    • Triphon-basierte Modelle zeigten eine signifikant bessere Leistung als das monophon-basierte Modell.
    • Ein robusteres und weiterentwickeltes triphon-basiertes akustisches Modell wurde erfolgreich erstellt.
    • Mit den folgenden Schritten erfolgte die Verbesserung der Sprachmodellierung mit den bereitgestellten Ressourcen:
      • Vorverarbeitung und Normalisierung der Textdaten, z. B. Erkennen von Abkürzungen und Eigennamen, Segmentierung von Wörtern in morphologische Einheiten usw.
      • Wortklassenmodellierung durch Erkennung benannter Einheiten aus vordefinierten Wortklassen, z. B. Datums-, Uhrzeits-, Wochentags-, Namens-, Orts- und Zahlen-Ausdrücke.
      • Teilwortzerlegung mittels Byte Pair Encoding (BPE) und dem Morfessor-Algorithmus, um das Vokabular zu verkleinern.
    • Die Wahl des richtigen Teilwortzerlegungsverfahrens und der geeigneten Vokabulargröße hat einen signifikanten Einfluss auf die Leistung des Sprachmodells.
    • Im Ergebnis konnte eine Sammlung von normalisierten Textkorpora erzeugt werden, der für das Training von statistischen Sprachmodellen basierend auf ganzen Wörtern oder Wortteilen geeignet ist.
  • Weitere Arbeit an Robustheit und Leistungsfähigkeit von "digidom" ist nötig
  • weitere Applikationen mittels Spracherkennung
    • Spiele
      • Lingufino, eine interaktive Puppe, die auf Spracheingaben reagiert
    • Diktierfunktion
    • Simultanübersetzung

Baustein 2: Textübersetzung (Machine Translation, MT)

  • vgl. auch Kapitel 5 Abschnitt Übersetzer
  • Notwendig: umfangreicher 2-sprachiger Textkorpus
    • Urheberrechtsfrei, gemeinfrei oder unter Creative-Commons-Lizenz (CC0)
    • Satzweise übersetzt
    • Vereinheitlicht, maschinenlesbar
  • Sorbische Ausgangslage: paralleler Textkorpus liegt im WITAJ-Sprachzentrum vor
  • Aufgabe: laufende digitale Erfassung bestehender Übersetzungen in hoher Qualität
  • Herausforderung: Technologieneutralität, d. h. eine Textübersetzung unabhängig von einer speziellen Technologie zu erstellen, so dass sie später in verschiedenen Produkten und Diensten genutzt werden kann (Google Translate, Microsoft Bing Translator, DeepL)
  • sotra.app: Seit 2019 laufendes Projekt des WITAJ-Sprachzentrums: Aufbau eines automatischen „Online-Übersetzers Deutsch-Sorbisch, Sorbisch-Deutsch“
    • seit 2021 verfügbar für Obersorbisch und seit 2022 auch in Niedersorbisch für Texte mit max. 6.000 Zeichen
    • Übersetzungen möglich von und nach Deutsch, Ober- und Niedersorbisch und Tschechisch (Beta, von und nach den sorbischen Sprachen)
    • zusätzlicher Service: Rechtschreibkontrolle
    • Mitte 2022 beinhaltete der 2-sprachige Textkorpus ca. 300.000 parallele Satzpaare
    • zukünftig geplant: OCR-Erkennung von Bildern mit Texten
    • Historie:
      • Aufbau eines großen 2-sprachigen Textkorpus, Ziel bis Ende 2020 ca. 170.000 Satzpaare (ca. 2 Mio. Wörter)
      • Ende 2021 beinhaltete der 2-sprachige Textkorpus ca. 260.000 parallele Satzpaare
      • das Projekt startete mit dem Tool Microsoft Translator Hub (eingestellt durch Microsoft)
      • es wird nun der Ansatz verfolgt, offene Plattformen zu nutzen, um Unabhängigkeit von den Firmen Google, Microsoft, DeepL usw. und deren wirtschaftlichen Interessen zu bewahren
      • aktuell wird das statistische System MOSES-decoder genutzt
      • parallel erfolgen Tests des neuronalen Systems OpenNMT (Python)
  • Microsoft Bing Translator[17]
    • Der Bing Translator konnte mittels des 2-sprachigen Teytkorpus des WITAJ-Sprachzentrums auf beide sorbische Sprachen trainiert werden:
    • Obersorbisch wird seit 2022 mit aktuell max. 1.000 Zeichen pro Text unterstützt.
    • Niedersorbisch wird seit 2023 mit aktuell max. 1.000 Zeichen pro Text unterstützt.
    • In der Microsoft Bing Translator App wird lediglich die Funktion 'Text übersetzen' unterstützt. Es fehlen die Funktionen 'Sprechen' (STT), 'autom. Spracherkennung', 'Text in Bild übersetzen', 'Audiowiedergabe der Übersetzung' (TTS), 'Offline übersetzen'.

Baustein 3: Intention erkennen und Anweisungen ausführen

  • Hierzu sind keine sorbischen Projekte bekannt. Es kann zu einem späteren Zeitpunkt im Bedarfsfall ggf. auf bereits bestehende Projekte zurückgegriffen werden, wie z. B. https://wit.ai/.

Baustein 4: Sprachausgabe (Text to Speech, TTS)

Erste Projekte in die Richtung Sprachausgabe wurden bereits umgesetzt:

  • Audioversion des Deutsch-Niedersorbischen Wörterbuchs (nicht als TTS realisiert)
    • Für die niedersorbische Sprache wurden vom Sorbischen Institut seit 2014 Tondateien erstellt und in die online-Fassung des Deutsch-Niedersorbischen Wörterbuchs integriert. In einer wissenschaftlichen Studie wurden zudem die verschiedenen Erfahrungen mit praktischen Schwierigkeiten bei der Aussprache verarbeitet. Diese Studie diente dazu, im Jahre 2018 einen praktischen online-Führer zur Aussprache des Niedersorbischen zu erarbeiten. Hochwertige Tonaufnahmen wurden zusammengestellt und bestimmten Lautgruppen bzw. für den Spracherwerb wichtigen lautlichen Phänomenen zugeordnet, mit wichtigen erläuternden Texten ergänzt und auf www.dolnoserbski.de als neue Dienstleistung angeboten. Dadurch steht erstmals eine praktische, durch Tonbeispiele illustrierte Anleitung zur Aussprache des Niedersorbischen zur Verfügung.
  • Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache
    • Seit 2018 erfolgen die Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch für die Integration in Webseiten, Online-Wörterbücher u. ä. durch das Sorbische Institut in Bautzen. Geplanter Abschluss ist 2023.
    • Seit 2023 können die beiden Vorlesestimmen Juro (niedersorbisch) und Matej (obersorbisch) in einer ersten Version ausprobiert werden.[18]
  • Bookii-Bücher in sorbischer Sprache[19]
    • Aktuell gibt es 9 Bookii-Bücher in obersorbischer Sprache
    • und 3 Bookii-Bücher in niedersorbischer Sprache.
  • bamborak, TTS-System für Obersorbisch[20]
    • Seit 2022 entwickelt K. Baier ein obersorbisches TTS-System auf Basis eines neuronalen Netzes.
    • Bisher wurden hierfür ca. 2.400 Sätze aufgenommen und durch das neuronale Netz verarbeitet.

Fazit

Für eine funktionierende Spracherkennung der sorbischen Sprachen ist es noch ein weiter Weg, auf dem die ersten Schritte bereits gegangen wurden. Eine breite Basis an digitalen Wortsammlungen (sog. linguistischen Ressourcen) in Form von Wörterbüchern, Textkorpora sowie entsprechende morphologische Generatoren sind für beide sorbische Sprachen vorhanden, vgl. Kapitel 5. Schreiben auf elektronischen Geräten. Hierfür sind noch die Nutzungsrechte zu klären, vgl. Kapitel 10. Open Access, Open Data, Lizenzen.

Für die hierauf aufbauenden digitalen sorbischen Sprachdienste werden aktuell gerade erst die Grundlagen gelegt oder eruiert. Für die Umsetzung einer Spracherkennung laufen aktuell 2 Projekte: das freiwillige Projekt der Sammlung von Sprachdaten mittels Mozilla common voice sowie das Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen“ der Stiftung für das sorbische Volk.

Für die Umsetzung einer automatischen Textübersetzung gibt es das Projekt „Online-Übersetzer Deutsch-Sorbisch, Sorbisch-Deutsch“ des WITAJ-Sprachzentrums. Dieses bezieht sich aktuell zunächst auf obersorbische Texte.

Für den Baustein 3 „Intention erkennen, Anweisungen ausführen“ gibt es keine speziellen sorbischen Projekte, jedoch eine Reihe weltweiter Projekte, einige davon open source. Sind die weiteren Bausteine realisiert, so kann ein passendes System für die Umsetzung dieses Bausteins recherchiert werden.

Für die Sprachausgabe entwickelt das Sorbische Institut bereits eine Vorlesefunktion für beide sorbischen Sprachen, welche voraussichtlich 2023 abgeschlossen ist. Ebenso werden vom Sorbischen Institut die niedersorbischen Online-Wörterbücher nach und nach mit Tonbeispielen unterlegt. Für das Niedersorbische sind hierfür bereits umfangreiche Tonbeispiele zur Aussprache des Niedersorbischen auf www.dolnoserbski.de veröffentlicht.

Übersicht von bisherigen Maßnahmen und Projekten bzgl. Sprachassistenz

Weitere Projekte zu Wörterbüchern u. ä. werden in Abschnitt 5.3.2 "Übersicht von bisherigen Maßnahmen und Projekten bzgl. Schreibunterstützung" genannt.

Name Beschreibung Zeitraum Verantwortlich
Audioversion des Deutsch-Niedersorbischen Wörterbuchs Tonbeispiele zur Aussprache des Niedersorbischen Seit 2014 Sorbisches Institut
Erarbeitung eines online-Führers mit Tonbeispielen zur Aussprache des Niedersorbischen Veröffentlichung auf www.dolnoserbski.de 2018 Sorbisches Institut, gefördert durch die Stiftung für das sorbische Volk
Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache[21] Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch (geplanter Abschluss 2023) Seit 2018 Sorbisches Institut, gefördert durch das Sächsische Staatsministerium für Wissenschaft, Kultur und Tourismus (SMWK)
Online-Übersetzer Deutsch-Sorbisch, Sorbisch-Deutsch

(zunächst Obersorbisch)

Entwicklung und Bereitstellung eines Online-Übersetzungsdienstes für Sätze und Texte, Deutsch-Sorbisch und Sorbisch-Deutsch. Als Übersetzungs­grundlage dient ein bilingualer Textkorpus, welcher erstellt wird und für das Training eines Übersetzungssystems verwendet wird. Seit 2019 WITAJ-Sprachzentrum, gefördert durch die Stiftung für das sorbische Volk
Mozilla Common Voice obersorbisch und niedersorbisch Erstellung von öffentlich zugänglichen Sprachdaten, diese stehen via CC0-Lizenz zur freien Nutzung zur Verfügung, z. B. für das Training eine Spracherkennungs-Engine Seit 2019 engagierte Privat­personen
Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen Machbarkeitsstudie zur automatischen Spracherkennung für die obersorbische Sprache, Prototypen "smart lamp" und "digidom" Seit 2020 Stiftung für das sorbische Volk
Bereitstellung von interaktiven Spielzeugen und Büchern in den sorbischen Sprachen Bereitstellung von interaktiven Bookii-Büchern und der sprechenden interaktiven Puppe Lingufino in den sorbischen Sprachen Seit 2018 Domowina Verlag gGmbH und Medienpädagogisches Projekt LUCIJA des Sorbischen Schulvereins e. V., gefördert durch die Stiftung für das sorbische Volk
Bereitstellung von Online-Vorlesefunktionen in obersorbischer Sprache Vorlesefunktion auf Basis neuronaler Netze für Zahlen und Uhrzeit[22] sowie für Texte[20] Seit ca. 2020 eine engagierte Privatperson

Zukünftige Maßnahmen und Projekte bzgl. Sprachassistenz

Die folgenden Maßnahmen ergeben sich aus der Ist-Analyse. Sie werden in Abschnitt 13.2 beschrieben.

Sub-Thema Nr. Maßnahme Zielstellung:
Spracherkennung 1.1_1 Entwicklung einer obersorbischer Spracherkennung (HSB) Die obersorbische Spracherkennung ist auf den meistgenutzten elektronischen Geräten nutzbar.
Spracherkennung 1.1_2 Entwicklung einer niedersorbischer Spracherkennung (DSB) Die niedersorbische Spracherkennung ist auf den meistgenutzten elektronischen Geräten nutzbar.
Übersetzungsdienst 1.1_3 Entwicklung obersorbischer Übersetzungsdienst (für Sätze) (HSB) Ein obersorbischer Übersetzungsdienst ist auf den meistgenutzten elektronischen Geräten nutzbar.
Übersetzungsdienst 1.1_4 Entwicklung niedersorbischer Übersetzungsdienst (für Sätze) (DSB) Ein niedersorbischer Übersetzungsdienst ist auf den meistgenutzten elektronischen Geräten nutzbar.
Sprachausgabe 1.1_5 und 1.1_6 Entwicklung einer Sprachausgabe (HSB, DSB) Eine Sprachausgabe in beiden sorbischen Sprachen ist auf den meistgenutzten elektronischen Geräten nutzbar.
Intention und Anweisungen 1.1_7 Finden einer Software für 'Intention und Anweisungen' Für die Interaktion mit elektronischen Geräten kann die gesprochene sorbische Sprache gleichwertig zur geschriebenen Sprache genutzt werden.




  1. Übersicht STT-Engines: https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/stt-engine
  2. vgl. Veranstaltung auf digiserb.de, Folien bei digiserb.de, Video bei YouTube.
  3. vgl. https://voice.mozilla.org und https://github.com/mozilla/DeepSpeech
  4. vgl. https://mycroft.ai/wp-content/uploads/2018/08/mycroft-ai-introduction-to-voice-stack-whitepaper.pdf
  5. Übersicht TTS-Engines: https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/tts-engine
  6. vgl. https://de.wikipedia.org/wiki/Intelligenter_pers%C3%B6nlicher_Assistent
  7. vgl. https://mycroft.ai/ und https://www.kickstarter.com/projects/aiforeveryone/mycroft-an-open-source-artificial-intelligence-for/description
  8. vgl. https://getleon.ai/
  9. vgl. https://voicebot.ai/google-home-google-assistant-stats/#voice-asst-in-use-juniper
  10. vgl. https://voicebot.ai/2020/05/03/streaming-music-questions-weather-timers-and-alarms-remain-smart-speaker-killer-apps-third-party-voice-app-usage-not-growing/
  11. vgl. https://www.globalme.net/blog/language-support-voice-assistants-compared/ sowie die dort angegeben Webseiten
  12. vgl. https://voice.mozilla.org/de/languages
  13. vgl. https://github.com/ZalozbaDev/web_demo_spoznawanje
  14. vgl. https://github.com/ZalozbaDev/raspberry_pi_demo_spoznawanje
  15. vgl. http://www.essv.de/pdf/2021_43_50.pdf
  16. vgl. https://github.com/ZalozbaDev/speech_recognition_corpus_creation/blob/main/report/report_summary_german.pdf
  17. vgl. https://www.bing.com/translator
  18. vgl. http://tts-juro-matej.serbski-institut.de, Projektseite SI, Pressemitteilung SI
  19. vgl. https://www.domowina-verlag.de/kinderbuecher/bookii-buecher.html?limit=20
  20. 20,0 20,1 vgl. https://gaussia.de/bamborak
  21. vgl. https://www.serbski-institut.de/de/Entwicklung-einer-Vorlesefunktion-fuer-die-nieder--und-obersorbische-Schriftsprache/
  22. vgl. https://gaussia.de/slp