4. Sprechen mit elektronischen Geräten: Rozdźěl mjez wersijomaj

Wersija wot 27. apryla 2023, 18:07

Einleitung

Dieser Themenbereich beinhaltet die Unterstützung des Anwenders beim Sprechen mit elektronischen Geräten in den sorbischen Sprachen. Im Fokus steht die Interaktion von Menschen mit elektronischen Geräten mittels gesprochener Worte. Dies umfasst folgende Bereiche:

Sprachausgabe: das Vorlesen geschriebener sorbischer Wörter
Spracherkennung: das Erkennen' und Darstellen von gesprochenen sorbischen Wörtern durch elektronische Geräte
Sprachverarbeitung: das Verarbeiten gesprochener sorbischer Wörter und Reagieren darauf (z. B. Anweisungen ausführen, Antworten).

Mögliche Einsatzbereiche und Applikationen sind bspw.

Sprachassistenten,
Spiele, Spielzeuge (wie Lingufino),
Untertitel und Simultanübersetzungen (z. B. bei Videokonferenzen).

Visionen und Ziel für die sorbische digitale Welt

Vision 2028

„Sorben und Sorbisch-Lernende nutzen für die Interaktion mit elektronischen Geräten die gesprochene sorbische Sprache (gleichwertig zur geschriebenen Sprache und gleichwertig zur deutschen Sprache).“ (z.B. für Sprachassistenz oder andere Applikationen)

Konkrete Visionen 2025

„Sorben und Sorbisch-Lernende können mit den meistgenutzten elektronischen Geräten sprechen – die sorbischen Worte werden vom Gerät erkannt und dargestellt (Spracherkennung).“

„Sorben und Sorbisch-Lernende können sich mit den meistgenutzten elektronischen Geräten sorbische Worte und Texte anhören (Sprachausgabe).“

Konkrete Ziele

Einzelne Applikationen verstehen die gesprochenen sorbischen Sprachen und stellen gesprochene Worte dar. (Spracherkennung)

Einzelne Applikationen können sorbische Worte vorlesen. (Sprachausgabe)

Einzelne Applikationen können gesprochene sorbische Worte und Sätze erkennen, verarbeiten und ausgeben, z. B. in einem Online-Videokonferenzsystem mit Simultanübersetzung als Untertitel.

Ist-Analyse Stand der Entwicklung von Sprachassistenzsystemen

Welche Bausteine werden für eine Sprachassistenz benötigt?

Um eine sprachliche Interaktion mit einem elektronischen Gerät ähnlich wie mit Menschen zu erreichen, sind verschiedene technische Bausteine notwendig, welche jeweils unterschiedliche Aufgaben übernehmen. Die folgende Einteilung der Bausteine orientiert sich an einem Vortrag von Jan Budar vom 13.09.2018 in Senftenberg zu “Digitalisierung als Chance für die Sorben”.

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)^[1]

basiert auf phonetischen Informationen zu
- einzelnen Buchstaben und Silben
- deren Kombinationen
- ihrer Position im Wort/Satz

Training von Spracherkennungs-Maschinen Klassischerweise wird die Spracherkennung durch die Verwendung von stochastische Modellen wie Hidden-Markov-Modellen (HMM) und Gauss'schen Mischmodellen (GMM) durchgeführt. Das Sprachsignal wird dabei in kurze Abschnitte, sogenannte Phoneme, unterteilt. Die Phoneme werden dann in einer HMM- oder GMM-Datenbank gespeichert. Bei der Erkennung wird das Sprachsignal in Phoneme aufgeteilt und mit der HMM- oder GMM-Datenbank abgeglichen, um die wahrscheinlichste Sequenz von Phonemen zu finden. Diese wird dann in Text umgewandelt und ausgegeben.

In den letzten Jahren haben sich Deep Learning Modelle mit tiefen neuronalen Netzen, wie z.B. Recurrent Neural Networks (RNNs) und Convolutional Neural Networks (CNNs), als effektive Methoden zur Spracherkennung erwiesen. Diese Modelle können komplexe Beziehungen zwischen Phonemen und Wörtern erfassen und somit die Genauigkeit der Spracherkennung verbessern.

z. B. Mozilla Common Voice^[2] in Kombination mit einer Spracherkennungs-Engine wie Mozilla Deep Speech

Baustein 2: Textübersetzung (Machine Translation, MT)

Grundlage hierfür sind Massen an übersetzten Sätzen
Künstliche Intelligenz lernt aus diesen übersetzten Sätzen durch
- Mustererkennung
- Training
vgl. Kapitel 5 Abschnitt Übersetzer

Baustein 3: Intention erkennen und Anweisungen ausführen^[3]

aus dem erkannten Text wird die Intention des Nutzers extrahiert (intent parser)
Anweisungen werden abgeleitet und ausgeführt (Skill invocation)
z. B. https://wit.ai/ (eine Sprachplattform, welche zum Facebook-Konzern gehört)
z.B. https://mycroft.ai/als datenschutzfreundliche Alternative

Baustein 4: Sprachausgabe (Text to Speech, TTS)^[4]

bspw. für barrierefreie Webseiten notwendig
Open Source Text-to-speech-System: MaryTTS
modularer Aufbau: Lexikon, Sprache, Daten, Synthese
Unit-Selectin-Synthese (Verkettung natürlichsprachlicher Elemente)
ThorstenVoice (OSS Variante)

Die folgenden Schritte sind typischerweise erforderlich, um einen Text in eine gesprochene Sprachausgabe umzuwandeln:

Linguistische Analyse: Der eingegebene Text wird vorverarbeitet, um dessen Struktur zu analysieren, einschließlich der Trennung von Sätzen, der Erkennung von Interpunktion und der Ermittlung der Betonung.
Phonetische Umsetzung: Der Text wird in eine phonetische Darstellung umgewandelt, in der jeder Textabschnitt in eine entsprechende Sequenz von Lauten (Phonemen) übersetzt wird. Dies wird typischerweise durch eine phonetische Lexikon-Datenbank und Sprachregeln erreicht.
Prosodische Modellierung: Es wird die Betonung und Intonation des Textes bestimmt. Hierbei werden Faktoren wie Akzent, Tonhöhe, Tempo, Pause und Rhythmus berücksichtigt, um eine natürliche Sprachmelodie zu erzeugen.
Synthese: Der phonetisch umgesetzte Text wird dann in Sprache umgewandelt, indem die phonetischen Einheiten zu Sprachsignalen zusammengefügt werden. Dies kann entweder durch die Verwendung von Klangeinheiten, die in einer Datenbank gespeichert sind, oder durch das Generieren von Sprache auf der Grundlage von Modellen, wie z.B. Deep-Learning-Modellen, erfolgen.

Eine TTS-Engine benötigt folgende Voraussetzungen:

Eine umfangreiche phonetische Datenbank oder ein phonetisches Modell, um die Übersetzung von Text in Phoneme zu ermöglichen.
Ein Prosodie-Modell, um die natürliche Sprachmelodie zu erzeugen.
Eine Sprachsynthesetechnologie, um die Phoneme in Sprachsignale zu konvertieren.
Training mit großen Datenmengen, um die Sprachsynthese-Modelle auf die spezifische Sprache und Stimme zu optimieren.

Definition und Marktübersicht von Sprachassistenten

Ein Sprachassistent ist eine bestimmte Art von Software, die gesprochene Worte analysiert, in den richtigen Kontext einordnet und darauf reagiert. Sprachassistenten sind als Software meist in Smartphones oder Smart Speaker, aber auch in Konsolen (PS4), Fernseher und smart watches integriert. Ein Smart Speaker wiederum ist ein bestimmtes Gerät, auf welchem der Sprachassistent als Software installiert ist.^[5] Spricht ein Mensch mit diesem Gerät, so beantwortet es über seine Sprachsoftware verbal Fragen oder führt Anweisungen aus, z. B. steuert es vernetzte smart home Geräte (TV-Geräte, Heizungsthermostate, Rollläden, Lampen, Waschmaschine, Backofen, Kaffeemaschine bis hin zur Toilettenspülung usw.). Auch in Autos, Kopfhörern, Bürogeräten und Kleidung sind bereits Sprachassistenten im Einsatz.

Die Entwicklung der Sprachassistenten:* 2010 Apples Siri („Hey Siri“)

2012 Google Assistant (vormals Google Now) („Ok, Google“)
2013 Microsoft Cortana („Hey Cortana“)
2014 Amazon Alexa („Alexa“)
2015 Mycroft - open Source Smart Speaker (“Hey Mycroft”)^[6]
2017 Sprachassistenten der chinesischen Firmen Baidu und Alibaba
2018 Samsung Bixby („Hi Bixby“)
2019 Leon – open source personal assistant^[7]

Heute sind weltweit bereits mehr als 4 Milliarden Sprachassistenten im Einsatz. Bis 2023 rechnet die Marktforschungsfirma Juniper Research mit 8 Milliarden Sprachassistenten.^[8]

Marktübersicht

Die führenden Anbieter für Sprachassistenzsysteme am weltweiten Markt sind:

Amazon mit seinem Sprachassistenzsystem "Alexa" und den Amazon Echo Geräten.
Google mit seinem Sprachassistenzsystem "Google Assistant" und den Google Home Geräten.
Apple mit seinem Sprachassistenzsystem "Siri" und der HomePod-Produktlinie.
Microsoft mit seinem Sprachassistenzsystem "Cortana" und der Surface Headphones Produktlinie.
Samsung mit seinem Sprachassistenzsystem "Bixby" und der Galaxy Home Produktlinie.

Diese Anbieter haben in den letzten Jahren in die Entwicklung und Verbesserung von Sprachassistenzsystemen investiert und setzen auf künstliche Intelligenz und maschinelles Lernen, um die Spracherkennung und -verarbeitung zu verbessern. Dabei sind ihre Sprachassistenzsysteme nicht nur auf den Heimgebrauch beschränkt, sondern auch in mobilen Geräten, Autos und anderen Branchen wie Gesundheitswesen, Einzelhandel und Finanzen verbreitet.

Es ist schwierig, genaue Zahlen darüber zu finden, welchen Anteil jeder Anbieter am Gesamtmarkt für Sprachassistenzsysteme hat, da es keine einheitliche Definition des Marktes gibt und die Zahlen von verschiedenen Marktforschungsunternehmen variieren können. Basierend auf den verfügbaren Daten sind die größten Anbieter am Markt Amazon Alexa mit rund 25% Marktanteil, Google Assistant mit rund 20% Marktanteil und Apples Siri mit rund 15% Marktanteil weltweit. Es gibt jedoch Unterschiede in den Zahlen je nach Region und Art des Geräts (z.B. intelligente Lautsprecher, Mobiltelefone, Smart-Home-Geräte).

Die beliebtesten Anwendungsfälle von Nutzern von Smart Speakern sind^[9]

Musik hören
Fragen stellen
Wetter checken
Zeitschaltuhr einschalten
Alarm einstellen
Radio hören

Aktuell unterstützte Sprachen^[10]

Amazons Alexa unterstützt 9 Sprachen
- Arabisch, Deutsch, Englisch (5 Dialekte), Französisch (2 Dialekte), Hindi (Indisch), Italienisch, Japanisch, Portugiesisch (Brasil.), Spanisch (3 Dialekte)
Google Assistant unterstützt 44 Sprachen auf Smartphones
Google Assistant unterstützt 13 Sprachen auf Smart Speakern / Google Home
- Dänisch, Deutsch (2 Dialekte), Englisch (6 Dialekte), Französisch (2 Dialekte), Hindi, Italienisch, Japanisch, Koreanisch, Niederländisch, Norwegisch, Portugiesisch (Brasil.), Schwedisch, Spanisch (3 Dialekte)
Apples Siri unterstützt rund 42 Sprachen

Ist-Analyse sorbischer Potenziale, Ressourcen und Projekte

Während digitale Angebote wie Sprachausgabe und Spracherkennung in deutscher Sprache selbstverständlich sind und sowohl von internationalen Großkonzernen als auch von der öffentlichen Hand vorangetrieben und ausgebaut werden, gilt das für dieselben Angebote in sorbischer Sprache nur sehr eingeschränkt. Welche Grundlagen der Sprachunterstützung beider sorbischer Sprachen bereits realisiert oder geplant sind, sollen die folgenden Abschnitte untersuchen.

Ist-Stand der 4 Bausteine der Sprachassistenz

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)

sorbische Ausgangslage: Vorarbeiten ansatzweise vorhanden
Mozilla common voice:
- die sorbischen Sprachen werden hier aktuell nicht weiter ergänzt, die gesammelten Daten werden jedoch in anderen Projekten weiter verwendet
- für das Obersorbische wurden bereits ca. 7.500 lizenzfreie Sätze gesammelt sowie 2 Stunden und 51 Minuten eingesprochen und validiert
- diese sind aktuell in sehr unterschiedlicher Qualität, sehr unausgewogen hinsichtlich der Stimmen (Geschlecht- und Alter-Verteilung)
- darüber hinaus lassen sich die Sätze common voice aktuell nicht thematisch zuordnen
- Für das Niedersorbische fehlen die Sätze und das Einsprechen^[11]

2020 startete das Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen“ der Stiftung für das sorbische Volk
- Geplant ist eine Machbarkeitsstudie zur automatischen Spracherkennung für die obersorbische Sprache vom Fraunhofer-Institut für keramische Technologien und Systeme Dresden (Abteilung Maschinelles Lernen und Datenanalyse) in Zusammenarbeit mit der Brandenburgischen Technischen Universität Cottbus mit folgenden Zielstellungen:
  - Realisierung eines prototypischen Spracherkenners für eine spezifizierte Beispielanwendung in einer stark beschränkten Sprachdomäne
  - Einschätzung möglicher und empfohlener Technologien für die Entwicklung eines sorbischen Spracherkenners mit umfangreichem Wortschatz
  - Aussagen zur Anwendung der niedersorbischen Sprache
- Es wurden bereits erste Arbeitsschritte für dieses Projekt durchgeführt.

Baustein 2: Textübersetzung (Machine Translation, MT)

Notwendig: umfangreicher 2-sprachiger Textkorpus
- Urheberrechtsfrei, gemeinfrei oder unter Creative-Commons-Lizenz (CC0)
- Satzweise übersetzt
- Vereinheitlicht, maschinenlesbar
Sorbische Ausgangslage: eher kleiner paralleler Textkorpus liegt im WITAJ-Sprachzentrum vor
Aufgabe: laufende digitale Erfassung bestehender Übersetzungen in hoher Qualität
Herausforderung: Technologieneutralität, d. h. eine Textübersetzung unabhängig von einer speziellen Technologie zu erstellen, so dass sie später in verschiedenen Produkten und Diensten genutzt werden kann (Google Translate, Microsoft Bing Translator, DeepL)
Seit 2019 laufendes Projekt des WITAJ-Sprachzentrums: Aufbau eines automatischen „Online-Übersetzers Deutsch-Sorbisch, Sorbisch-Deutsch“ zunächst für Obersorbisch, später auch Niedersorbisch
- Aufbau eines großen 2-sprachigen Textkorpus, Ziel bis Ende 2020 ca. 170.000 Satzpaare (ca. 2 Mio. Wörter)
- das Projekt startete mit dem Tool Microsoft Translator Hub (eingestellt durch Microsoft)
- es wird nun der Ansatz verfolgt, offene Plattformen zu nutzen, um Unabhängigkeit von den Firmen Google, Microsoft, DeepL usw. und deren wirtschaftlichen Interessen zu bewahren
- aktuell wird das statistische System MOSES-decoder genutzt
- parallel erfolgen Test des neuronalen Systems OpenNMT (Python)
- für März 2021 ist eine erste öffentlich zugänglichen Test-Version geplant, die weiterentwickelt werden soll

Baustein 3: Intention erkennen und Anweisungen ausführen

Hierzu sind keine sorbischen Projekte bekannt. Es kann zu einem späteren Zeitpunkt im Bedarfsfall ggf. auf bereits bestehende Projekte zurückgegriffen werden, wie z. B. https://wit.ai/.

Baustein 4: Sprachausgabe (Text to Speech, TTS)

Erste Projekte in die Richtung Sprachausgabe wurden bereits umgesetzt:

Audioversion des Deutsch-Niedersorbischen Wörterbuchs (nicht als TTS realisiert)
- Für die niedersorbische Sprache wurden vom Sorbischen Institut seit 2014 Tondateien erstellt und in die online-Fassung des Deutsch-Niedersorbischen Wörterbuchs integriert. In einer wissenschaftlichen Studie wurden zudem die verschiedenen Erfahrungen mit praktischen Schwierigkeiten bei der Aussprache verarbeitet. Diese Studie diente dazu, im Jahre 2018 einen praktischen online-Führer zur Aussprache des Niedersorbischen zu erarbeiten. Hochwertige Tonaufnahmen wurden zusammengestellt und bestimmten Lautgruppen bzw. für den Spracherwerb wichtigen lautlichen Phänomenen zugeordnet, mit wichtigen erläuternden Texten ergänzt und auf www.dolnoserbski.de als neue Dienstleistung angeboten. Dadurch steht erstmals eine praktische, durch Tonbeispiele illustrierte Anleitung zur Aussprache des Niedersorbischen zur Verfügung.
Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache
- Seit 2018 erfolgen die Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch für die Integration in Webseiten, Online-Wörterbücher u. ä. durch das Sorbische Institut in Bautzen. Geplanter Abschluss ist 2023.

Fazit

Für eine funktionierende Spracherkennung der sorbischen Sprachen ist es noch ein weiter Weg, auf dem die ersten Schritte bereits gegangen wurden. Eine breite Basis an digitalen Wortsammlungen (sog. linguistischen Ressourcen) in Form von Wörterbüchern, Textkorpora sowie entsprechende morphologische Generatoren sind für beide sorbische Sprachen vorhanden, vgl. Kapitel 5. Schreiben auf elektronischen Geräten. Hierfür sind noch die Nutzungsrechte zu klären, vgl. Kapitel 10. Open Access, Open Data, Lizenzen.

Für die hierauf aufbauenden digitalen sorbischen Sprachdienste werden aktuell gerade erst die Grundlagen gelegt oder eruiert. Für die Umsetzung einer Spracherkennung laufen aktuell 2 Projekte: das freiwillige Projekt der Sammlung von Sprachdaten mittels Mozilla common voice sowie das Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen“ der Stiftung für das sorbische Volk.

Für die Umsetzung einer automatischen Textübersetzung gibt es das Projekt „Online-Übersetzer Deutsch-Sorbisch, Sorbisch-Deutsch“ des WITAJ-Sprachzentrums. Dieses bezieht sich aktuell zunächst auf obersorbische Texte.

Für den Baustein 3 „Intention erkennen, Anweisungen ausführen“ gibt es keine speziellen sorbischen Projekte, jedoch eine Reihe weltweiter Projekte, einige davon open source. Sind die weiteren Bausteine realisiert, so kann ein passendes System für die Umsetzung dieses Bausteins recherchiert werden.

Für die Sprachausgabe entwickelt das Sorbische Institut bereits eine Vorlesefunktion für beide sorbischen Sprachen, welche voraussichtlich 2023 abgeschlossen ist. Ebenso werden vom Sorbischen Institut die niedersorbischen Online-Wörterbücher nach und nach mit Tonbeispielen unterlegt. Für das Niedersorbische sind hierfür bereits umfangreiche Tonbeispiele zur Aussprache des Niedersorbischen auf www.dolnoserbski.de veröffentlicht.

Übersicht von bisherigen Maßnahmen und Projekten bzgl. Sprachassistenz

Weitere Projekte zu Wörterbüchern u. ä. werden in Abschnitt 5.3.2 "Übersicht von bisherigen Maßnahmen und Projekten bzgl. Schreibunterstützung" genannt.

Name	Beschreibung	Zeitraum	Verantwortlich
Audioversion des Deutsch-Niedersorbischen Wörterbuchs	Tonbeispiele zur Aussprache des Niedersorbischen	Seit 2014	Sorbisches Institut
Erarbeitung eines online-Führers mit Tonbeispielen zur Aussprache des Niedersorbischen	Veröffentlichung auf www.dolnoserbski.de	2018	Sorbisches Institut, gefördert durch die Stiftung für das sorbische Volk
Entwicklung einer Vorlesefunktion für die nieder- und obersorbische Schriftsprache^[12]	Konzeption, Planung und Entwicklung einer Vorlesesoftware für Nieder- und Obersorbisch (geplanter Abschluss 2023)	Seit 2018	Sorbisches Institut, gefördert durch das Sächsische Staatsministerium für Wissenschaft, Kultur und Tourismus (SMWT)
Online-Übersetzer Deutsch-Sorbisch, Sorbisch-Deutsch (zunächst Obersorbisch)	Entwicklung und Bereitstellung eines Online-Übersetzers für Sätze und Texte, Deutsch-Sorbisch und Sorbisch-Deutsch. Als Übersetzungsgrundlage dient ein bilingualer Textkorpus, welcher erstellt wird und für das Training eines Übersetzungssystems verwendet wird.	Seit 2019	WITAJ-Sprachzentrum, gefördert durch die Stiftung für das sorbische Volk
Mozilla Common Voice obersorbisch und niedersorbisch	Erstellung von öffentlich zugänglichen Sprachdaten, diese stehen via CC0-Lizenz zur freien Nutzung zur Verfügung, z. B. für das Training eine Spracherkennungs-Engine	Seit 2019	engagierte Einzelpersonen
Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen	Machbarkeitsstudie zur automatischen Spracherkennung für die obersorbische Sprache	Seit 2020	Stiftung für das sorbische Volk

Zukünftige Maßnahmen und Projekte bzgl. Sprachassistenz

Die folgenden Maßnahmen ergeben sich aus der Ist-Analyse. Sie werden in Abschnitt 13.2 beschrieben.

Sub-Thema	Nr.	Maßnahme	Zielstellung:
Spracherkennung	1.1_1	Entwicklung einer obersorbischer Spracherkennung (HSB)	Die obersorbische Spracherkennung ist auf den meistgenutzten elektronischen Geräten nutzbar.
Spracherkennung	1.1_2	Entwicklung einer niedersorbischer Spracherkennung (DSB)	Die niedersorbische Spracherkennung ist auf den meistgenutzten elektronischen Geräten nutzbar.
Übersetzungsdienst	1.1_3	Entwicklung obersorbischer Übersetzungsdienst (für Sätze) (HSB)	Ein obersorbischer Übersetzungsdienst ist auf den meistgenutzten elektronischen Geräten nutzbar.
Übersetzungsdienst	1.1_4	Entwicklung niedersorbischer Übersetzungsdienst (für Sätze) (DSB)	Ein niedersorbischer Übersetzungsdienst ist auf den meistgenutzten elektronischen Geräten nutzbar.
Sprachausgabe	1.1_5 und 1.1_6	Entwicklung einer Sprachausgabe (HSB, DSB)	Eine Sprachausgabe in beiden sorbischen Sprachen ist auf den meistgenutzten elektronischen Geräten nutzbar.
Intention und Anweisungen	1.1_7	Finden einer Software für 'Intention und Anweisungen'	Für die Interaktion mit elektronischen Geräten kann die gesprochene sorbische Sprache gleichwertig zur geschriebenen Sprache genutzt werden.

[ftn1-1] Übersicht STT-Engines: https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/stt-engine

[ftn2-2] vgl. https://voice.mozilla.org und https://github.com/mozilla/DeepSpeech

[ftn3-3] vgl. https://mycroft.ai/wp-content/uploads/2018/08/mycroft-ai-introduction-to-voice-stack-whitepaper.pdf

[ftn4-4] Übersicht TTS-Engines: https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/tts-engine

[ftn5-5] vgl. https://de.wikipedia.org/wiki/Intelligenter_pers%C3%B6nlicher_Assistent

[ftn6-6] vgl. https://mycroft.ai/ und https://www.kickstarter.com/projects/aiforeveryone/mycroft-an-open-source-artificial-intelligence-for/description

[ftn7-7] vgl. https://getleon.ai/

[ftn8-8] vgl. https://voicebot.ai/google-home-google-assistant-stats/#voice-asst-in-use-juniper

[ftn12-9] vgl. https://voicebot.ai/2020/05/03/streaming-music-questions-weather-timers-and-alarms-remain-smart-speaker-killer-apps-third-party-voice-app-usage-not-growing/

[ftn13-10] vgl. https://www.globalme.net/blog/language-support-voice-assistants-compared/ sowie die dort angegeben Webseiten

[ftn17-11] vgl. https://voice.mozilla.org/de/languages

[ftn18-12] vgl. https://www.serbski-institut.de/de/Entwicklung-einer-Vorlesefunktion-fuer-die-nieder--und-obersorbische-Schriftsprache/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

@@ Rjadka 150: / Rjadka 150: @@
 * sorbische Ausgangslage: Vorarbeiten ansatzweise vorhanden
-* Realisierung mittels Mozilla common voice, hierfür sind notwendig:
+* Mozilla common voice:
-** Mindestens 5.000 freigeschaltete sorbische Sätze, urheberrechtsfrei, gemeinfrei oder unter Creative-Commons-Lizenz (CC0)<ref name="ftn16">vgl. [https://common-voice.github.io/sentence-collector/#/ https://common-voice.github.io/sentence-collector/#/]</ref>
+** die sorbischen Sprachen werden hier aktuell nicht weiter ergänzt, die gesammelten Daten werden jedoch in anderen Projekten weiter verwendet
-** validierte Sprachaufnahmen von ca. 10.000 Stunden sind notwendig, um ein produktiv einsetzbares Sprache-zu-Text-System zu trainieren
+** für das Obersorbische wurden bereits ca. 7.500 lizenzfreie Sätze gesammelt sowie 2 Stunden und 51 Minuten eingesprochen und validiert
-* Was wurde bereits erreicht?
-** Sehr engagierte Einzelpersonen sowie die Sächsischen Aufbau- und Erprobungskanäle (SAEK) treiben die Sammlung von freien Sprachdateien in Mozilla common voice voran
-** die Webseiten-Lokalisierung für Ober- und Niedersorbisch sind zu 100% abgeschlossen ([https://voice.mozilla.org/hsb https://voice.mozilla.org/hsb] und [https://voice.mozilla.org/dsb https://voice.mozilla.org/dsb])
-** für das Obersorbische wurden bereits ca. 7.000 lizenzfreie Sätze gesammelt sowie 1 Stunde und 44 Minuten eingesprochen und validiert (ca. 0,017%)
 ** diese sind aktuell in sehr unterschiedlicher Qualität, sehr unausgewogen hinsichtlich der Stimmen (Geschlecht- und Alter-Verteilung)
 ** darüber hinaus lassen sich die Sätze common voice aktuell nicht thematisch zuordnen
 ** Für das Niedersorbische fehlen die Sätze und das Einsprechen<ref name="ftn17">vgl. [https://voice.mozilla.org/de/languages https://voice.mozilla.org/de/languages]</ref>
-** Die folgenden Grafiken zeigen den aktuellen Stand der sorbischen Sprachen in Mozilla common voice:
-[[Image:Grafik 15.png|top]][[Image:Grafik 18.png|top]]
 * 2020 startete das Projekt „Spracherkennung und maschinelle Übersetzung der sorbischen Sprachen“ der Stiftung für das sorbische Volk

4. Sprechen mit elektronischen Geräten: Rozdźěl mjez wersijomaj

Wersija wot 27. apryla 2023, 18:07

Wobsah

Einleitung

Visionen und Ziel für die sorbische digitale Welt

Vision 2028

Konkrete Visionen 2025

Konkrete Ziele

Ist-Analyse Stand der Entwicklung von Sprachassistenzsystemen

Welche Bausteine werden für eine Sprachassistenz benötigt?

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)^[1]

Baustein 2: Textübersetzung (Machine Translation, MT)

Baustein 3: Intention erkennen und Anweisungen ausführen^[3]

Baustein 4: Sprachausgabe (Text to Speech, TTS)^[4]

Definition und Marktübersicht von Sprachassistenten

Ist-Analyse sorbischer Potenziale, Ressourcen und Projekte

Ist-Stand der 4 Bausteine der Sprachassistenz

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)

Baustein 2: Textübersetzung (Machine Translation, MT)

Baustein 3: Intention erkennen und Anweisungen ausführen

Baustein 4: Sprachausgabe (Text to Speech, TTS)

Fazit

Übersicht von bisherigen Maßnahmen und Projekten bzgl. Sprachassistenz

Zukünftige Maßnahmen und Projekte bzgl. Sprachassistenz

Nawigaciski meni

Pytać

4. Sprechen mit elektronischen Geräten: Rozdźěl mjez wersijomaj

Wersija wot 27. apryla 2023, 18:07

Einleitung

Visionen und Ziel für die sorbische digitale Welt

Vision 2028

Konkrete Visionen 2025

Konkrete Ziele

Ist-Analyse Stand der Entwicklung von Sprachassistenzsystemen

Welche Bausteine werden für eine Sprachassistenz benötigt?

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)[1]

Baustein 2: Textübersetzung (Machine Translation, MT)

Baustein 3: Intention erkennen und Anweisungen ausführen[3]

Baustein 4: Sprachausgabe (Text to Speech, TTS)[4]

Definition und Marktübersicht von Sprachassistenten

Ist-Analyse sorbischer Potenziale, Ressourcen und Projekte

Ist-Stand der 4 Bausteine der Sprachassistenz

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)

Baustein 2: Textübersetzung (Machine Translation, MT)

Baustein 3: Intention erkennen und Anweisungen ausführen

Baustein 4: Sprachausgabe (Text to Speech, TTS)

Fazit

Übersicht von bisherigen Maßnahmen und Projekten bzgl. Sprachassistenz

Zukünftige Maßnahmen und Projekte bzgl. Sprachassistenz

Nawigaciski meni

Pytać

Baustein 1: Spracherkennung (Automatic Speech Recognition, ASR; Speech to Text, STT)^[1]

Baustein 3: Intention erkennen und Anweisungen ausführen^[3]

Baustein 4: Sprachausgabe (Text to Speech, TTS)^[4]