
Sprache zu Text unter Linux: 7 beste Spracherkennungs-Tools, die wirklich funktionieren (2026)
🗣️ TL;DR
🐧 Linux hat im Vergleich zu Mac/Windows nur sehr wenige gute Spracherkennungsoptionen
🌐 Einfachste Lösung: Die Voicy-Browsererweiterung funktioniert unter Linux in Chrome/Chromium
⚙️ Open-Source-Optionen: Nerd Dictation (VOSK), Speech Note (Whisper), IBus-Spracheingabe
🏠 Integriert: GNOME hat eine einfache Spracheingabe, den meisten Distributionen fehlt native Spracherkennung
🔧 Entwicklerfreundlich: whisper.cpp CLI für individuelle Workflows
💻 Volle Kontrolle: Talon Voice für freihändige Computersteuerung (nur X11)
Linux-Nutzer wurden beim Thema Spracherkennungssoftware abgehängt. Während Mac-Nutzer eine hervorragende integrierte Diktierfunktion genießen und Windows brauchbare Optionen bietet, stehen Linux-Desktop-Nutzer vor einer frustrierenden Realität: Die meisten Diktierwerkzeuge existieren für ihre Plattform schlicht nicht.
Aber die Situation ist nicht hoffnungslos. Mehrere praktikable Lösungen sind entstanden, von browserbasierten Tools bis hin zu leistungsstarken Open-Source-Projekten. Hier sind alle Spracherkennungsoptionen, die 2026 auf Linux tatsächlich funktionieren.
Warum Linux keine gute Spracherkennungssoftware hat
Der Marktanteil des Linux-Desktops bleibt im Vergleich zu Windows und macOS gering, wodurch er für Entwickler kommerzieller Spracherkennungssoftware weniger attraktiv ist. Zusätzlich erschwert das fragmentierte Linux-Ökosystem - mehrere Desktop-Umgebungen, Audiosysteme und Eingabemethoden - technische Herausforderungen, die Unternehmen oft vermeiden.
Die Open-Source-Community und cloudbasierte Lösungen beginnen jedoch, diese Lücke zu schließen.
7 Spracherkennungslösungen für Linux
1. Voicy (Browsererweiterung) ⭐ Empfohlen
Was es ist: Voicy ist ein cloudbasierter Spracherkennungsdienst, der über Browsererweiterungen funktioniert. Zwar bietet Voicy keine native Linux-App, aber die Chrome- und Firefox-Erweiterungen funktionieren auf Linux-Systemen einwandfrei.
So funktioniert es unter Linux:
Installiere die Voicy-Chrome-Erweiterung in Chrome, Chromium oder Brave
Klicke auf das Mikrofonsymbol oder verwende Tastenkombinationen
Unterstützt 50+ Sprachen mit hoher Genauigkeit
✅ Vorteile:
Hervorragende Genauigkeit dank fortschrittlicher KI
Funktioniert in jedem Webbrowser unter Linux
Keine Installation oder Einrichtung erforderlich
50+ Sprachen unterstützt
Kostenlose Testversion verfügbar
Funktioniert in Web-Apps, E-Mail und sozialen Medien
❌ Nachteile:
Erfordert eine Internetverbindung
Funktioniert nur im Browser
Nach der kostenlosen Testversion ist ein Abonnement erforderlich
Preis: Kostenlose Testversion, dann 8,49 $/Monat, 82 $/Jahr oder 220 $ lebenslang
Am besten für: Linux-Nutzer, die die genaueste und unkomplizierteste Spracherkennungserfahrung möchten und hauptsächlich im Browser arbeiten.
2. Nerd Dictation (Open Source)
Was es ist: Nerd Dictation ist ein leichtgewichtiges Python-Skript, das offline Spracherkennung über die VOSK-API bereitstellt. Es ist für Kommandozeilen-Enthusiasten gedacht, die eine anpassbare Lösung suchen.
So funktioniert es:
Eine einzelne Python-Datei mit minimalen Abhängigkeiten
Verwendet VOSK-Sprachmodelle (unter 50 MB)
Start/Stopp über Terminalbefehle
Schreibt Text dorthin, wo dein Cursor gerade fokussiert ist
✅ Vorteile:
Vollständig offline und privat
Extrem leichtgewichtig
Endlos anpassbar über Python-Skripte
Keine Hintergrundprozesse
Kostenlos und Open Source
❌ Nachteile:
Nur CLI, keine grafische Oberfläche
VOSK-Genauigkeit unterhalb moderner KI-Modelle
Erfordert technische Einrichtung
Nur eingeschränkte Wayland-Unterstützung
Installation: Erfordert Python, VOSK und xdotool. Vollständige Einrichtungsanleitungen findest du im GitHub-Repository.
Am besten für: Kommandozeilen-Nutzer, die volle Kontrolle wollen und technische Einrichtung nicht scheuen.
3. IBus-Spracheingabe (integriert)
Was es ist: IBus (Intelligent Input Bus) ist das Standard-Framework für Eingabemethoden unter Linux. Neuere Projekte haben über IBus-Erweiterungen Funktionen für Spracheingabe hinzugefügt.
So funktioniert es:
Integriert sich in GNOME und die meisten Linux-Desktop-Umgebungen
Verwendet VOSK oder Whisper für Spracherkennung
Eingabemethoden mit Strg+Leertaste wechseln
Schreibt direkt in jede Anwendung
✅ Vorteile:
Systemweite Eingabemethode
Funktioniert in jeder Anwendung
In die Desktop-Umgebung integriert
Kann offline funktionieren
❌ Nachteile:
Komplexer Einrichtungsprozess
Auf den meisten Distributionen nicht direkt verfügbar
Eingeschränkte Dokumentation
Je nach Backend unterschiedliche Genauigkeit
Am besten für: Nutzer, die eine systemweite Spracheingabe möchten und sich mit Linux-Konfiguration wohlfühlen.
4. Speech Note (Flatpak)
Was es ist: Speech Note ist eine Qt-basierte Anwendung, die Notizen mit Spracherkennung kombiniert. Sie unterstützt mehrere Spracherkennungs-Engines, darunter Whisper.
So funktioniert es:
GUI-Anwendung mit integriertem Notizeditor
Mehrere Spracherkennungs-Engines (Whisper, VOSK, andere)
Auf den meisten Distributionen per Flatpak installierbar
Enthält Text-to-Speech- und Übersetzungsfunktionen
✅ Vorteile:
Benutzerfreundliche grafische Oberfläche
Mehrere Backends für Spracherkennung
Einfache Flatpak-Installation
Zusätzliche Funktionen wie TTS und Übersetzung
Unterstützung für GPU-Beschleunigung
❌ Nachteile:
Für Notizen gedacht, nicht für systemweite Spracherkennung
Die Qt-Oberfläche kann auf GNOME deplatziert wirken
Nur eingeschränkte Integration globaler Tastenkombinationen
Am besten für: Nutzer, die eine All-in-one-Notiz-App mit integrierter Spracherkennung möchten.
5. Google Chrome Spracheingabe
Was es ist: Googles integrierte Spracheingabe ist für Linux-Nutzer über Chrome- oder Chromium-Browser verfügbar, insbesondere in Google Docs und anderen Webanwendungen.
So funktioniert es:
Öffne Google Docs und gehe zu Tools → Spracheingabe
Funktioniert in den Browsern Chrome, Chromium und Brave
Cloudbasierte Erkennung über Googles Server
Unterstützt 100+ Sprachen
✅ Vorteile:
Keine Einrichtung erforderlich
Hervorragende Genauigkeit
Viele Sprachen unterstützt
Kostenlos nutzbar
❌ Nachteile:
Funktioniert nur in Google Docs/Web-Apps
Erfordert eine Internetverbindung
Audio wird an Googles Server gesendet
Auf die Browser-Umgebung beschränkt
Am besten für: Schnelle Spracherkennung in Google Docs, wenn du keine systemweite Funktionalität brauchst.
6. Whisper.cpp (Entwicklertool)
Was es ist: whisper.cpp ist eine C++-Implementierung von OpenAIs Whisper-Spracherkennungsmodell. Es ist keine Diktier-App, sondern eine leistungsstarke Engine, mit der Entwickler individuelle Lösungen bauen.
So funktioniert es:
Kommandozeilentool zum Transkribieren von Audiodateien
Für CPU-Inferenz optimiert
Unterstützt 99+ Sprachen
Kann in individuelle Skripte und Workflows integriert werden
✅ Vorteile:
Herausragende Genauigkeit
Läuft vollständig offline
Hoch optimierte Leistung
Wird sehr aktiv weiterentwickelt
99+ Sprachen unterstützt
❌ Nachteile:
Keine GUI und keine Push-to-Talk-Funktion
Erfordert eigenes Skripting für den Echtzeit-Einsatz
Für Dateitranskription entwickelt, nicht für Live-Spracheingabe
Technisches Fachwissen erforderlich
Am besten für: Entwickler, die individuelle Spracherkennungs-Workflows bauen oder die bestmögliche Offline-Genauigkeit brauchen.
7. Talon Voice (Fortgeschritten)
Was es ist: Talon Voice geht weit über einfache Spracherkennung hinaus. Es ist ein umfassendes System zur freihändigen Computersteuerung, das vollständig sprachgesteuertes Arbeiten ermöglicht, einschließlich Coding und Anwendungssteuerung.
So funktioniert es:
Komplette Sprachsteuerung des Desktops, nicht nur Texteingabe
Enthält spezialisierte Befehle fürs Programmieren
Optionale Integration von Eye-Tracking
Unterstützt Linux auf X11 (nicht Wayland)
✅ Vorteile:
Vollständige freihändige Computersteuerung
Hervorragend für Voice-Coding
Kann für Barrierefreiheit lebensverändernd sein
Aktive Community und Weiterentwicklung
❌ Nachteile:
Steile Lernkurve
Die Kern-Engine ist proprietär
Nur X11, keine Wayland-Unterstützung
Vor allem auf Englisch ausgerichtet
Preis: Kostenlose öffentliche Version, 25 $/Monat für Beta-Zugang über Patreon
Am besten für: Nutzer, die vollständiges freihändiges Arbeiten am Computer oder sprachgesteuertes Programmieren brauchen.
Vergleichstabelle
Tool | Genauigkeit | Offline | Systemweit | Einrichtungsaufwand | Preis |
|---|---|---|---|---|---|
Voicy | Hervorragend | ❌ Cloud | ❌ Nur im Browser | Einfach | 8,49 $/Monat |
Nerd Dictation | Gut | ✅ Ja | ✅ Ja | Schwer | Kostenlos |
IBus Voice | Gut | ✅ Ja | ✅ Ja | Schwer | Kostenlos |
Speech Note | Sehr gut | ✅ Ja | ❌ Nur in der App | Einfach | Kostenlos |
Chrome Voice | Hervorragend | ❌ Cloud | ❌ Nur Google Docs | Einfach | Kostenlos |
whisper.cpp | Hervorragend | ✅ Ja | 🔧 Benutzerdefiniert | Sehr schwer | Kostenlos |
Talon Voice | Gut | ✅ Ja | ✅ Volle Kontrolle | Sehr schwer | Kostenlos/25 $ |
Unsere Empfehlungen
🌐 Für die meisten Linux-Nutzer: Voicy
Wenn du die meiste Zeit in Webbrowsern verbringst (Gmail, Google Docs, webbasierte Tools), bietet Voicys Browsererweiterung die beste Balance aus Genauigkeit, Benutzerfreundlichkeit und Zuverlässigkeit. Sie funktioniert sofort nach der Installation ohne Konfiguration.
Schau dir unseren vollständigen Leitfaden zu Browsererweiterungen für Sprache zu Text an, um mehr darüber zu erfahren, wie Voicy im Vergleich zu anderen browserbasierten Lösungen abschneidet.
🐧 Für Linux-Puristen: Nerd Dictation
Wenn du Open-Source-Lösungen bevorzugst und Kommandozeilentools nichts ausmachen, bietet Nerd Dictation eine leichte, vollständig Offline-Option. Perfekt für Nutzer, die ihre Spracherkennung individuell anpassen möchten.
📝 Für Notizmacher: Speech Note
Wenn du Spracherkennung hauptsächlich zum Notieren brauchst und integrierte Übersetzungs- sowie Text-to-Speech-Funktionen schätzt, bietet Speech Note ein hervorragendes Preis-Leistungs-Verhältnis in einem benutzerfreundlichen Paket.
🔧 Für Entwickler: whisper.cpp
Wenn du individuelle Workflows baust oder die höchstmögliche Genauigkeit für Offline-Transkription brauchst, ist whisper.cpp die Grundlage, auf der viele andere Tools aufbauen.
Für umfassendere Informationen über Diktier-Software auf allen Plattformen siehe unseren vollständigen Leitfaden zur besten Spracherkennungssoftware im Jahr 2026.
So richtest du dein erstes Linux-Spracherkennungssystem ein
Schnellstart: Voicy (5 Minuten)
Öffne Chrome, Chromium oder Firefox auf deinem Linux-System
Besuche die Voicy-Website und installiere die Browsererweiterung
Erstelle ein kostenloses Konto und starte deine Testphase
Wechsle in ein beliebiges Textfeld in deinem Browser
Klicke auf das Voicy-Mikrofonsymbol und beginne zu sprechen
Open-Source-Weg: Nerd Dictation (30 Minuten)
Installiere Python 3.6+ und pip auf deinem System
Installiere die benötigten Pakete:
pip3 install voskInstalliere xdotool:
sudo apt install xdotool(Ubuntu/Debian)Klonen Sie das Repository:
git clone https://github.com/ideasman42/nerd-dictation.gitLade ein VOSK-Modell herunter und konfiguriere die Pfade
Richte Tastenkombinationen ein, um die Spracherkennung zu starten/stoppen
Häufig gestellte Fragen
Hat Linux eine integrierte Spracherkennung wie macOS?
Nein, die meisten Linux-Distributionen enthalten keine Spracherkennungsfunktion direkt nach der Installation. Anders als macOS, das eine systemweite Diktierfunktion integriert hat, müssen Linux-Nutzer Drittanbieterlösungen installieren.
Kann ich Dragon NaturallySpeaking unter Linux verwenden?
Dragon NaturallySpeaking läuft nicht nativ unter Linux. Zwar führen einige Nutzer es über Wine (Windows-Emulation) aus, aber dieser Ansatz ist unzuverlässig und für den produktiven Einsatz nicht empfohlen.
Welche Linux-Spracherkennungslösung ist am genauesten?
Cloudbasierte Lösungen wie Voicy und die Spracheingabe in Google Chrome bieten in der Regel die höchste Genauigkeit, da sie fortschrittliche KI-Modelle verwenden. Für Offline-Lösungen bietet whisper.cpp modernste Genauigkeit.
Kann ich Spracheingabe unter Wayland verwenden?
Die Unterstützung hängt vom jeweiligen Tool ab. Nerd Dictation hat nur eingeschränkte Wayland-Unterstützung, während browserbasierte Lösungen wie Voicy problemlos funktionieren. Talon Voice unterstützt derzeit nur X11.
Sind meine Sprachdaten mit diesen Tools privat?
Das hängt vom Tool ab. Offline-Lösungen wie Nerd Dictation und whisper.cpp behalten alle Daten lokal. Cloudbasierte Tools wie Voicy und Google senden Audio zur Verarbeitung an entfernte Server. Lies die Datenschutzrichtlinie des jeweiligen Dienstes für Details.
Kann ich diese Systeme auf meinen speziellen Wortschatz trainieren?
Die meisten modernen Systeme benötigen kein Training. Tools wie Nerd Dictation erlauben jedoch benutzerdefinierten Wortschatz, und Voicy lernt im Laufe der Zeit aus deinen Korrekturen.
Welche Distributionen eignen sich am besten für Spracherkennung?
Ubuntu und andere Debian-basierte Distributionen bieten die beste Softwareverfügbarkeit. Fedora und openSUSE funktionieren ebenfalls gut. Wichtiger als die konkrete Distribution sind ein aktueller Kernel und ein aktuelles Audiosystem.
Kann ich Sprachbefehle zur Systemsteuerung verwenden, nicht nur Spracherkennung?
Ja, dafür brauchst du aber spezialisierte Software. Talon Voice bietet umfassende Sprachsteuerung für das gesamte System. Für einfachere Sprachbefehle kannst du ein Spracherkennungstool mit Automatisierungsskripten kombinieren.
Wie viele Systemressourcen verbrauchen diese Tools?
Der Ressourcenverbrauch variiert stark. Browserbasierte Tools wie Voicy benötigen nur wenige lokale Ressourcen. Offline-Tools wie whisper.cpp können CPU-intensiv sein, besonders mit größeren Modellen. Nerd Dictation ist sehr leichtgewichtig.
Kann ich Spracherkennung zum Programmieren unter Linux verwenden?
Ja, allerdings erfordert das spezialisierte Tools. Talon Voice wurde speziell für Voice-Coding entwickelt und unterstützt mehrere Programmiersprachen. Allgemeine Spracherkennungstools können Code verarbeiten, aber du musst Syntaxzeichen meist buchstabieren.
Die Zukunft der Linux-Spracherkennung
Die Linux-Landschaft für Spracherkennung verbessert sich rasant. Open-Source-KI-Modelle wie Whisper haben hochwertige Offline-Erkennung für alle zugänglich gemacht. Projekte wie Fedora's ibus-speech-to-text-Initiative deuten darauf hin, dass native Spracherkennung in Linux-Distributionen bald zum Standard werden könnte.
Gleichzeitig schließen browserbasierte Lösungen weiterhin die Lücke und machen professionelle Diktierqualität schon heute für Linux-Nutzer verfügbar, ohne auf native Implementierungen warten zu müssen.
Fazit
Auch wenn Linux noch immer nicht die nahtlose, integrierte Diktierfunktion bietet, die man von macOS kennt, sind die verfügbaren Optionen deutlich reifer geworden. Ob du dich für eine cloudbasierte Lösung wie Voicy für maximale Genauigkeit und Bequemlichkeit entscheidest oder für ein Open-Source-Tool wie Nerd Dictation für volle Kontrolle und Datenschutz, du kannst heute auf deinem Linux-System produktive Spracherkennungsfunktionen nutzen.
Entscheidend ist, das Tool an deinen Workflow anzupassen. Browserlastige Nutzer finden Voicy am bequemsten, während Kommandozeilen-Enthusiasten die Anpassbarkeit von Nerd Dictation schätzen werden. Für umfassende Anforderungen an Barrierefreiheit eröffnet Talon Voice vollständig freihändiges Arbeiten am Computer.
Linux-Spracheingabe hat einen langen Weg zurückgelegt, und die Zukunft sieht noch heller aus.









