Voicy

Herunterladen für Linux (Ubuntu/Debian)

Download für Linux (Fedora)

Download für Windows

Download für Mac

Voicy

Studentenermäßigung

Rabatt für Behinderte

Blog

Herunterladen für Linux (Ubuntu/Debian)

Download für Linux (Fedora)

Voicy

Preise

Kostenlos ausprobieren

Titelbild: Sprache zu Text unter Linux – Der Leitfaden 2026

Sprache zu Text unter Linux: 7 beste Spracherkennungs-Tools, die wirklich funktionieren (2026)

13. März 2026

🗣️ TL;DR

🐧 Linux hat im Vergleich zu Mac/Windows nur sehr wenige gute Spracherkennungsoptionen
🌐 Einfachste Lösung: Die Voicy-Browsererweiterung funktioniert unter Linux in Chrome/Chromium
⚙️ Open-Source-Optionen: Nerd Dictation (VOSK), Speech Note (Whisper), IBus-Spracheingabe
🏠 Integriert: GNOME hat eine einfache Spracheingabe, den meisten Distributionen fehlt native Spracherkennung
🔧 Entwicklerfreundlich: whisper.cpp CLI für individuelle Workflows
💻 Volle Kontrolle: Talon Voice für freihändige Computersteuerung (nur X11)

Linux-Nutzer wurden beim Thema Spracherkennungssoftware abgehängt. Während Mac-Nutzer eine hervorragende integrierte Diktierfunktion genießen und Windows brauchbare Optionen bietet, stehen Linux-Desktop-Nutzer vor einer frustrierenden Realität: Die meisten Diktierwerkzeuge existieren für ihre Plattform schlicht nicht.

Aber die Situation ist nicht hoffnungslos. Mehrere praktikable Lösungen sind entstanden, von browserbasierten Tools bis hin zu leistungsstarken Open-Source-Projekten. Hier sind alle Spracherkennungsoptionen, die 2026 auf Linux tatsächlich funktionieren.

Warum Linux keine gute Spracherkennungssoftware hat

Der Marktanteil des Linux-Desktops bleibt im Vergleich zu Windows und macOS gering, wodurch er für Entwickler kommerzieller Spracherkennungssoftware weniger attraktiv ist. Zusätzlich erschwert das fragmentierte Linux-Ökosystem - mehrere Desktop-Umgebungen, Audiosysteme und Eingabemethoden - technische Herausforderungen, die Unternehmen oft vermeiden.

Die Open-Source-Community und cloudbasierte Lösungen beginnen jedoch, diese Lücke zu schließen.

7 Spracherkennungslösungen für Linux

1. Voicy (Browsererweiterung) ⭐ Empfohlen

Was es ist: Voicy ist ein cloudbasierter Spracherkennungsdienst, der über Browsererweiterungen funktioniert. Zwar bietet Voicy keine native Linux-App, aber die Chrome- und Firefox-Erweiterungen funktionieren auf Linux-Systemen einwandfrei.

So funktioniert es unter Linux:

Installiere die Voicy-Chrome-Erweiterung in Chrome, Chromium oder Brave
Klicke auf das Mikrofonsymbol oder verwende Tastenkombinationen
Unterstützt 50+ Sprachen mit hoher Genauigkeit

✅ Vorteile:

Hervorragende Genauigkeit dank fortschrittlicher KI
Funktioniert in jedem Webbrowser unter Linux
Keine Installation oder Einrichtung erforderlich
50+ Sprachen unterstützt
Kostenlose Testversion verfügbar
Funktioniert in Web-Apps, E-Mail und sozialen Medien

❌ Nachteile:

Erfordert eine Internetverbindung
Funktioniert nur im Browser
Nach der kostenlosen Testversion ist ein Abonnement erforderlich

Preis: Kostenlose Testversion, dann 8,49 $/Monat, 82 $/Jahr oder 220 $ lebenslang

Am besten für: Linux-Nutzer, die die genaueste und unkomplizierteste Spracherkennungserfahrung möchten und hauptsächlich im Browser arbeiten.

2. Nerd Dictation (Open Source)

Was es ist: Nerd Dictation ist ein leichtgewichtiges Python-Skript, das offline Spracherkennung über die VOSK-API bereitstellt. Es ist für Kommandozeilen-Enthusiasten gedacht, die eine anpassbare Lösung suchen.

So funktioniert es:

Eine einzelne Python-Datei mit minimalen Abhängigkeiten
Verwendet VOSK-Sprachmodelle (unter 50 MB)
Start/Stopp über Terminalbefehle
Schreibt Text dorthin, wo dein Cursor gerade fokussiert ist

✅ Vorteile:

Vollständig offline und privat
Extrem leichtgewichtig
Endlos anpassbar über Python-Skripte
Keine Hintergrundprozesse
Kostenlos und Open Source

❌ Nachteile:

Nur CLI, keine grafische Oberfläche
VOSK-Genauigkeit unterhalb moderner KI-Modelle
Erfordert technische Einrichtung
Nur eingeschränkte Wayland-Unterstützung

Installation: Erfordert Python, VOSK und xdotool. Vollständige Einrichtungsanleitungen findest du im GitHub-Repository.

Am besten für: Kommandozeilen-Nutzer, die volle Kontrolle wollen und technische Einrichtung nicht scheuen.

3. IBus-Spracheingabe (integriert)

Was es ist: IBus (Intelligent Input Bus) ist das Standard-Framework für Eingabemethoden unter Linux. Neuere Projekte haben über IBus-Erweiterungen Funktionen für Spracheingabe hinzugefügt.

So funktioniert es:

Integriert sich in GNOME und die meisten Linux-Desktop-Umgebungen
Verwendet VOSK oder Whisper für Spracherkennung
Eingabemethoden mit Strg+Leertaste wechseln
Schreibt direkt in jede Anwendung

✅ Vorteile:

Systemweite Eingabemethode
Funktioniert in jeder Anwendung
In die Desktop-Umgebung integriert
Kann offline funktionieren

❌ Nachteile:

Komplexer Einrichtungsprozess
Auf den meisten Distributionen nicht direkt verfügbar
Eingeschränkte Dokumentation
Je nach Backend unterschiedliche Genauigkeit

Am besten für: Nutzer, die eine systemweite Spracheingabe möchten und sich mit Linux-Konfiguration wohlfühlen.

4. Speech Note (Flatpak)

Was es ist: Speech Note ist eine Qt-basierte Anwendung, die Notizen mit Spracherkennung kombiniert. Sie unterstützt mehrere Spracherkennungs-Engines, darunter Whisper.

So funktioniert es:

GUI-Anwendung mit integriertem Notizeditor
Mehrere Spracherkennungs-Engines (Whisper, VOSK, andere)
Auf den meisten Distributionen per Flatpak installierbar
Enthält Text-to-Speech- und Übersetzungsfunktionen

✅ Vorteile:

Benutzerfreundliche grafische Oberfläche
Mehrere Backends für Spracherkennung
Einfache Flatpak-Installation
Zusätzliche Funktionen wie TTS und Übersetzung
Unterstützung für GPU-Beschleunigung

❌ Nachteile:

Für Notizen gedacht, nicht für systemweite Spracherkennung
Die Qt-Oberfläche kann auf GNOME deplatziert wirken
Nur eingeschränkte Integration globaler Tastenkombinationen

Am besten für: Nutzer, die eine All-in-one-Notiz-App mit integrierter Spracherkennung möchten.

5. Google Chrome Spracheingabe

Was es ist: Googles integrierte Spracheingabe ist für Linux-Nutzer über Chrome- oder Chromium-Browser verfügbar, insbesondere in Google Docs und anderen Webanwendungen.

So funktioniert es:

Öffne Google Docs und gehe zu Tools → Spracheingabe
Funktioniert in den Browsern Chrome, Chromium und Brave
Cloudbasierte Erkennung über Googles Server
Unterstützt 100+ Sprachen

✅ Vorteile:

Keine Einrichtung erforderlich
Hervorragende Genauigkeit
Viele Sprachen unterstützt
Kostenlos nutzbar

❌ Nachteile:

Funktioniert nur in Google Docs/Web-Apps
Erfordert eine Internetverbindung
Audio wird an Googles Server gesendet
Auf die Browser-Umgebung beschränkt

Am besten für: Schnelle Spracherkennung in Google Docs, wenn du keine systemweite Funktionalität brauchst.

6. Whisper.cpp (Entwicklertool)

Was es ist: whisper.cpp ist eine C++-Implementierung von OpenAIs Whisper-Spracherkennungsmodell. Es ist keine Diktier-App, sondern eine leistungsstarke Engine, mit der Entwickler individuelle Lösungen bauen.

So funktioniert es:

Kommandozeilentool zum Transkribieren von Audiodateien
Für CPU-Inferenz optimiert
Unterstützt 99+ Sprachen
Kann in individuelle Skripte und Workflows integriert werden

✅ Vorteile:

Herausragende Genauigkeit
Läuft vollständig offline
Hoch optimierte Leistung
Wird sehr aktiv weiterentwickelt
99+ Sprachen unterstützt

❌ Nachteile:

Keine GUI und keine Push-to-Talk-Funktion
Erfordert eigenes Skripting für den Echtzeit-Einsatz
Für Dateitranskription entwickelt, nicht für Live-Spracheingabe
Technisches Fachwissen erforderlich

Am besten für: Entwickler, die individuelle Spracherkennungs-Workflows bauen oder die bestmögliche Offline-Genauigkeit brauchen.

7. Talon Voice (Fortgeschritten)

Was es ist: Talon Voice geht weit über einfache Spracherkennung hinaus. Es ist ein umfassendes System zur freihändigen Computersteuerung, das vollständig sprachgesteuertes Arbeiten ermöglicht, einschließlich Coding und Anwendungssteuerung.

So funktioniert es:

Komplette Sprachsteuerung des Desktops, nicht nur Texteingabe
Enthält spezialisierte Befehle fürs Programmieren
Optionale Integration von Eye-Tracking
Unterstützt Linux auf X11 (nicht Wayland)

✅ Vorteile:

Vollständige freihändige Computersteuerung
Hervorragend für Voice-Coding
Kann für Barrierefreiheit lebensverändernd sein
Aktive Community und Weiterentwicklung

❌ Nachteile:

Steile Lernkurve
Die Kern-Engine ist proprietär
Nur X11, keine Wayland-Unterstützung
Vor allem auf Englisch ausgerichtet

Preis: Kostenlose öffentliche Version, 25 $/Monat für Beta-Zugang über Patreon

Am besten für: Nutzer, die vollständiges freihändiges Arbeiten am Computer oder sprachgesteuertes Programmieren brauchen.

Vergleichstabelle

Tool	Genauigkeit	Offline	Systemweit	Einrichtungsaufwand	Preis
Voicy	Hervorragend	❌ Cloud	❌ Nur im Browser	Einfach	8,49 $/Monat
Nerd Dictation	Gut	✅ Ja	✅ Ja	Schwer	Kostenlos
IBus Voice	Gut	✅ Ja	✅ Ja	Schwer	Kostenlos
Speech Note	Sehr gut	✅ Ja	❌ Nur in der App	Einfach	Kostenlos
Chrome Voice	Hervorragend	❌ Cloud	❌ Nur Google Docs	Einfach	Kostenlos
whisper.cpp	Hervorragend	✅ Ja	🔧 Benutzerdefiniert	Sehr schwer	Kostenlos
Talon Voice	Gut	✅ Ja	✅ Volle Kontrolle	Sehr schwer	Kostenlos/25 $

Unsere Empfehlungen

🌐 Für die meisten Linux-Nutzer: Voicy

Wenn du die meiste Zeit in Webbrowsern verbringst (Gmail, Google Docs, webbasierte Tools), bietet Voicys Browsererweiterung die beste Balance aus Genauigkeit, Benutzerfreundlichkeit und Zuverlässigkeit. Sie funktioniert sofort nach der Installation ohne Konfiguration.

Schau dir unseren vollständigen Leitfaden zu Browsererweiterungen für Sprache zu Text an, um mehr darüber zu erfahren, wie Voicy im Vergleich zu anderen browserbasierten Lösungen abschneidet.

🐧 Für Linux-Puristen: Nerd Dictation

Wenn du Open-Source-Lösungen bevorzugst und Kommandozeilentools nichts ausmachen, bietet Nerd Dictation eine leichte, vollständig Offline-Option. Perfekt für Nutzer, die ihre Spracherkennung individuell anpassen möchten.

📝 Für Notizmacher: Speech Note

Wenn du Spracherkennung hauptsächlich zum Notieren brauchst und integrierte Übersetzungs- sowie Text-to-Speech-Funktionen schätzt, bietet Speech Note ein hervorragendes Preis-Leistungs-Verhältnis in einem benutzerfreundlichen Paket.

🔧 Für Entwickler: whisper.cpp

Wenn du individuelle Workflows baust oder die höchstmögliche Genauigkeit für Offline-Transkription brauchst, ist whisper.cpp die Grundlage, auf der viele andere Tools aufbauen.

Für umfassendere Informationen über Diktier-Software auf allen Plattformen siehe unseren vollständigen Leitfaden zur besten Spracherkennungssoftware im Jahr 2026.

So richtest du dein erstes Linux-Spracherkennungssystem ein

Schnellstart: Voicy (5 Minuten)

Öffne Chrome, Chromium oder Firefox auf deinem Linux-System
Besuche die Voicy-Website und installiere die Browsererweiterung
Erstelle ein kostenloses Konto und starte deine Testphase
Wechsle in ein beliebiges Textfeld in deinem Browser
Klicke auf das Voicy-Mikrofonsymbol und beginne zu sprechen

Open-Source-Weg: Nerd Dictation (30 Minuten)

Installiere Python 3.6+ und pip auf deinem System
Installiere die benötigten Pakete: pip3 install vosk
Installiere xdotool: sudo apt install xdotool (Ubuntu/Debian)
Klonen Sie das Repository: git clone https://github.com/ideasman42/nerd-dictation.git
Lade ein VOSK-Modell herunter und konfiguriere die Pfade
Richte Tastenkombinationen ein, um die Spracherkennung zu starten/stoppen

Häufig gestellte Fragen

Hat Linux eine integrierte Spracherkennung wie macOS?

Nein, die meisten Linux-Distributionen enthalten keine Spracherkennungsfunktion direkt nach der Installation. Anders als macOS, das eine systemweite Diktierfunktion integriert hat, müssen Linux-Nutzer Drittanbieterlösungen installieren.

Kann ich Dragon NaturallySpeaking unter Linux verwenden?

Dragon NaturallySpeaking läuft nicht nativ unter Linux. Zwar führen einige Nutzer es über Wine (Windows-Emulation) aus, aber dieser Ansatz ist unzuverlässig und für den produktiven Einsatz nicht empfohlen.

Welche Linux-Spracherkennungslösung ist am genauesten?

Cloudbasierte Lösungen wie Voicy und die Spracheingabe in Google Chrome bieten in der Regel die höchste Genauigkeit, da sie fortschrittliche KI-Modelle verwenden. Für Offline-Lösungen bietet whisper.cpp modernste Genauigkeit.

Kann ich Spracheingabe unter Wayland verwenden?

Die Unterstützung hängt vom jeweiligen Tool ab. Nerd Dictation hat nur eingeschränkte Wayland-Unterstützung, während browserbasierte Lösungen wie Voicy problemlos funktionieren. Talon Voice unterstützt derzeit nur X11.

Sind meine Sprachdaten mit diesen Tools privat?

Das hängt vom Tool ab. Offline-Lösungen wie Nerd Dictation und whisper.cpp behalten alle Daten lokal. Cloudbasierte Tools wie Voicy und Google senden Audio zur Verarbeitung an entfernte Server. Lies die Datenschutzrichtlinie des jeweiligen Dienstes für Details.

Kann ich diese Systeme auf meinen speziellen Wortschatz trainieren?

Die meisten modernen Systeme benötigen kein Training. Tools wie Nerd Dictation erlauben jedoch benutzerdefinierten Wortschatz, und Voicy lernt im Laufe der Zeit aus deinen Korrekturen.

Welche Distributionen eignen sich am besten für Spracherkennung?

Ubuntu und andere Debian-basierte Distributionen bieten die beste Softwareverfügbarkeit. Fedora und openSUSE funktionieren ebenfalls gut. Wichtiger als die konkrete Distribution sind ein aktueller Kernel und ein aktuelles Audiosystem.

Kann ich Sprachbefehle zur Systemsteuerung verwenden, nicht nur Spracherkennung?

Ja, dafür brauchst du aber spezialisierte Software. Talon Voice bietet umfassende Sprachsteuerung für das gesamte System. Für einfachere Sprachbefehle kannst du ein Spracherkennungstool mit Automatisierungsskripten kombinieren.

Wie viele Systemressourcen verbrauchen diese Tools?

Der Ressourcenverbrauch variiert stark. Browserbasierte Tools wie Voicy benötigen nur wenige lokale Ressourcen. Offline-Tools wie whisper.cpp können CPU-intensiv sein, besonders mit größeren Modellen. Nerd Dictation ist sehr leichtgewichtig.

Kann ich Spracherkennung zum Programmieren unter Linux verwenden?

Ja, allerdings erfordert das spezialisierte Tools. Talon Voice wurde speziell für Voice-Coding entwickelt und unterstützt mehrere Programmiersprachen. Allgemeine Spracherkennungstools können Code verarbeiten, aber du musst Syntaxzeichen meist buchstabieren.

Die Zukunft der Linux-Spracherkennung

Die Linux-Landschaft für Spracherkennung verbessert sich rasant. Open-Source-KI-Modelle wie Whisper haben hochwertige Offline-Erkennung für alle zugänglich gemacht. Projekte wie Fedora's ibus-speech-to-text-Initiative deuten darauf hin, dass native Spracherkennung in Linux-Distributionen bald zum Standard werden könnte.

Gleichzeitig schließen browserbasierte Lösungen weiterhin die Lücke und machen professionelle Diktierqualität schon heute für Linux-Nutzer verfügbar, ohne auf native Implementierungen warten zu müssen.

Fazit

Auch wenn Linux noch immer nicht die nahtlose, integrierte Diktierfunktion bietet, die man von macOS kennt, sind die verfügbaren Optionen deutlich reifer geworden. Ob du dich für eine cloudbasierte Lösung wie Voicy für maximale Genauigkeit und Bequemlichkeit entscheidest oder für ein Open-Source-Tool wie Nerd Dictation für volle Kontrolle und Datenschutz, du kannst heute auf deinem Linux-System produktive Spracherkennungsfunktionen nutzen.

Entscheidend ist, das Tool an deinen Workflow anzupassen. Browserlastige Nutzer finden Voicy am bequemsten, während Kommandozeilen-Enthusiasten die Anpassbarkeit von Nerd Dictation schätzen werden. Für umfassende Anforderungen an Barrierefreiheit eröffnet Talon Voice vollständig freihändiges Arbeiten am Computer.

Linux-Spracheingabe hat einen langen Weg zurückgelegt, und die Zukunft sieht noch heller aus.

‹ Wie Sie KI zum Schreiben von E-Mails verwenden: 5 Tools + Sprachbefehle für 2026

12 beste Tools für Remote Worker im Jahr 2026 (getestet & bewertet) ›

Titelbild: Sprache zu Text  Chrome-Erweiterungen Einrichtungsanleitung

Anleitungen zur Spracheingabe

Sprache zu Text Chrome-Erweiterung - Vollständige Einrichtungsanleitung (2026)

18. Februar 2026

Titelbild: Spracherkennungssoftware: Der umfassende Leitfaden für 2026

Anleitungen zur Spracheingabe

Spracherkennungssoftware: Der komplette Leitfaden für 2026

18. Februar 2026

Anleitungen zur Spracheingabe

Genauigkeit der Spracherkennung - Wie KI-Modelle im Jahr 2026 abschneiden

18. Februar 2026

Nicholas Cino

Wirklich erstaunliche Erweiterung. Funktioniert wunderbar und ist wirklich schnell! Reduziert die Zeit für das Schreiben komplexer E-Mails um etwa 80 %.

CL Cobb

Ich habe andere Produkte dieser Art ausprobiert und bisher ist Voicy das benutzerfreundlichste. Es verbessert wirklich meinen Arbeitsablauf.

Pam Lang

Ich bin so faul geworden, überall zu tippen. Danke, danke, danke für dieses Produkt!

Steve Moore

Voicy ist ein absoluter Game-Changer! Die Geschwindigkeit ist beeindruckend.

Victor Rodriguez

Fast nahezu sofortige Antworten vom Entwickler, großartiger Support, großartige App!

Crystal Willis

Ich liebe Voicy!! Ich habe mehrere verschiedene Sprache-zu-Text-Apps ausprobiert. Keine von ihnen vergleicht sich mit Voicy!

Nicholas Cino

Wirklich erstaunliche Erweiterung. Funktioniert wunderbar und ist wirklich schnell! Reduziert die Zeit für das Schreiben komplexer E-Mails um etwa 80 %.

CL Cobb

Ich habe andere Produkte dieser Art ausprobiert und bisher ist Voicy das benutzerfreundlichste. Es verbessert wirklich meinen Arbeitsablauf.

Pam Lang

Ich bin so faul geworden, überall zu tippen. Danke, danke, danke für dieses Produkt!