
Linuxでの音声入力: 実際に使える7つの最高の音声認識ソフト(2026年)
🗣️ 要点
🐧 Linuxには、Mac/Windowsと比べて優れた音声入力の選択肢が非常に少ない
🌐 最も簡単な解決策: Voicyのブラウザ拡張機能は、Linux上のChrome/Chromiumで動作する
⚙️ オープンソースの選択肢: Nerd Dictation(VOSK)、Speech Note(Whisper)、IBusの音声入力
🏠 標準搭載: GNOMEには基本的な音声入力があり、ほとんどのディストリビューションにはネイティブの音声入力機能がない
🔧 開発者向け: カスタムワークフロー向けの whisper.cpp CLI
💻 完全制御: ハンズフリー・コンピューティング向けの Talon Voice(X11のみ)
Linuxユーザーは、音声入力ソフトの面で取り残されてきました。Macユーザーが優れた標準搭載の音声入力を使え、Windowsにもそこそこ使える選択肢がある一方で、Linuxデスクトップユーザーが直面する現実は厳しいものです。ほとんどの音声入力ツールは、そもそもこのプラットフォーム向けに存在しないのです。
しかし、状況は絶望的ではありません。ブラウザベースのツールから強力なオープンソースプロジェクトまで、いくつもの有力なソリューションが登場しています。ここでは、2026年にLinuxで実際に動作する音声入力の選択肢をすべて紹介します。
なぜLinuxには良い音声入力ソフトが少ないのか
Linuxのデスクトップ市場シェアはWindowsやmacOSに比べて依然として小さく、商用の音声認識ソフト開発者にとって魅力が低いのが現状です。さらに、複数のデスクトップ環境、オーディオシステム、入力メソッドが混在するLinuxの断片化したエコシステムは、企業が避けがちな技術的課題を生み出しています。
とはいえ、オープンソースコミュニティとクラウドベースのソリューションがこのギャップを埋め始めています。
Linux向けの7つの音声入力ソリューション
1. Voicy(ブラウザ拡張機能) ⭐ おすすめ
これは何か: Voicyは、ブラウザ拡張機能を通じて動作するクラウドベースの音声入力サービスです。VoicyにはLinux向けのネイティブアプリはありませんが、ChromeとFirefoxの拡張機能はLinux環境で完璧に動作します。
Linuxでの動作方法:
Chrome、Chromium、またはBraveにVoicyのChrome拡張機能をインストールする
マイクアイコンをクリックするか、キーボードショートカットを使う
50以上の言語に対応し、高精度で動作する
✅ 長所:
高度なAIによる優れた精度
Linux上のどのWebブラウザでも使える
インストールやセットアップは不要
50以上の言語に対応
無料トライアルあり
Webアプリ、メール、SNSで使える
❌ 短所:
インターネット接続が必要
ブラウザ内でしか動作しない
無料トライアル後はサブスクリプションが必要
料金: 無料トライアル、その後は月額$8.49、年額$82、または買い切り$220
こんな人向け: とにかく高精度で手間のない音声入力を求め、主にブラウザで作業するLinuxユーザー。
2. Nerd Dictation(オープンソース)
これは何か: Nerd Dictationは、VOSK APIを使ってオフラインの音声入力を提供する軽量なPythonスクリプトです。カスタマイズしやすいソリューションを求めるコマンドライン派向けに設計されています。
動作方法:
依存関係が最小限の単一Pythonファイル
VOSKの言語モデル(50MB未満)を使用
ターミナルコマンドで開始/停止
カーソルがある場所にそのままテキストを入力する
✅ 長所:
完全オフラインでプライバシーが守られる
非常に軽量
Pythonスクリプトで無限にカスタマイズ可能
バックグラウンドプロセスなし
無料かつオープンソース
❌ 短所:
CLI専用で、グラフィカルインターフェースはない
VOSKの精度は最新のAIモデルより低い
技術的なセットアップが必要
Wayland対応は限定的
インストール: Python、VOSK、xdotoolが必要です。完全なセットアップ手順はGitHubリポジトリにあります。
こんな人向け: 完全な制御を求め、技術的なセットアップを気にしないコマンドラインユーザー。
3. IBus音声入力(標準搭載)
これは何か: IBus(Intelligent Input Bus)は、Linuxの標準入力メソッドフレームワークです。最近のプロジェクトでは、IBus拡張を通じて音声入力機能が追加されています。
動作方法:
GNOMEやほとんどのLinuxデスクトップ環境と統合される
音声認識にはVOSKまたはWhisperを使用する
Ctrl+Spaceで入力メソッドを切り替える
あらゆるアプリケーションに直接入力できる
✅ 長所:
システム全体で使える入力メソッド
どのアプリでも動作する
デスクトップ環境と統合されている
オフラインでも使える
❌ 短所:
セットアップが複雑
ほとんどのディストリビューションでは最初から利用できない
ドキュメントが限られている
バックエンドによって精度が変動する
こんな人向け: システム全体で使える音声入力が欲しく、Linuxの設定に慣れているユーザー。
4. Speech Note(Flatpak)
これは何か: Speech Noteは、メモ取りと音声認識を組み合わせたQtベースのアプリです。Whisperを含む複数の音声認識エンジンに対応しています。
動作方法:
メモエディタを内蔵したGUIアプリ
複数の音声認識エンジン(Whisper、VOSK、その他)
ほとんどのディストリビューションでFlatpak経由でインストール可能
テキスト読み上げと翻訳機能を搭載
✅ 長所:
使いやすいグラフィカルインターフェース
複数の音声認識バックエンド
Flatpakで簡単にインストールできる
TTSや翻訳などの追加機能
GPUアクセラレーション対応
❌ 短所:
システム全体の音声入力ではなく、メモ取り向けに設計されている
QtのインターフェースはGNOMEでは少し浮いて感じられることがある
グローバルなキーボードショートカット統合は限定的
こんな人向け: 音声認識を内蔵した、オールインワンのメモアプリを求めるユーザー。
5. Google Chromeの音声入力
これは何か: Googleの標準音声入力は、ChromeまたはChromiumブラウザ経由でLinuxユーザーが利用できます。特にGoogle Docsやその他のWebアプリで使えます。
動作方法:
Google Docsを開き、ツール → 音声入力に進む
Chrome、Chromium、Braveブラウザで動作する
Googleのサーバー経由のクラウドベース音声認識
100以上の言語に対応
✅ 長所:
セットアップ不要
優れた精度
多くの言語に対応
無料で使える
❌ 短所:
Google DocsやWebアプリでしか使えない
インターネット接続が必要
音声はGoogleのサーバーに送信される
ブラウザ環境に限定される
こんな人向け: システム全体の機能は不要で、Google Docsで素早く音声入力したい場合。
6. whisper.cpp(開発者向けツール)
これは何か: whisper.cppは、OpenAIのWhisper音声認識モデルをC++で実装したものです。音声入力アプリそのものではなく、開発者がカスタムソリューションを作るために使う強力なエンジンです。
動作方法:
音声ファイルをテキスト化するためのコマンドラインツール
CPU推論向けに最適化されている
99以上の言語に対応
カスタムスクリプトやワークフローに組み込める
✅ 長所:
最先端の精度
完全オフラインで動作
高度に最適化されたパフォーマンス
非常に活発にメンテナンスされている
99以上の言語に対応
❌ 短所:
GUIやプッシュ・トゥ・トーク機能はない
リアルタイム利用にはカスタムスクリプトが必要
ライブ音声入力ではなく、ファイルの文字起こし向けに設計されている
技術的な知識が必要
こんな人向け: カスタムの音声入力ワークフローを構築したい開発者、または可能な限り最高のオフライン精度が必要な人。
7. Talon Voice(上級者向け)
これは何か: Talon Voiceは、単なる音声入力をはるかに超えています。コーディングやアプリ操作を含む、完全な音声駆動のコンピューティングを可能にする包括的なハンズフリーPC制御システムです。
動作方法:
テキスト入力だけでなく、デスクトップ全体を完全に音声で操作できる
専用のコーディングコマンドを搭載
オプションでアイトラッキングと連携可能
LinuxのX11をサポート(Waylandは非対応)
✅ 長所:
完全なハンズフリーPC制御
音声コーディングに最適
アクセシビリティの面で生活を大きく変えうる
活発なコミュニティと開発
❌ 短所:
習得のハードルが高い
コアエンジンはプロプライエタリ
X11のみで、Waylandは非対応
主に英語向け
料金: 無料の公開版、Patreon経由のベータアクセスは月額$25
こんな人向け: 完全なハンズフリーコンピューティングや音声駆動プログラミングが必要なユーザー。
比較表
ツール | 精度 | オフライン | システム全体 | 設定の難易度 | 価格 |
|---|---|---|---|---|---|
Voicy | 優秀 | ❌ クラウド | ❌ ブラウザのみ | 簡単 | $8.49/月 |
Nerd Dictation | 良好 | ✅ はい | ✅ はい | 難しい | 無料 |
IBus Voice | 良好 | ✅ はい | ✅ はい | 難しい | 無料 |
Speech Note | 非常に良好 | ✅ はい | ❌ アプリのみ | 簡単 | 無料 |
Chrome Voice | 優秀 | ❌ クラウド | ❌ Google Docsのみ | 簡単 | 無料 |
whisper.cpp | 優秀 | ✅ はい | 🔧 カスタム | 非常に難しい | 無料 |
Talon Voice | 良好 | ✅ はい | ✅ 完全制御 | 非常に難しい | 無料/$25 |
おすすめ
🌐 ほとんどのLinuxユーザー向け: Voicy
普段の作業の大半をWebブラウザ(Gmail、Google Docs、Webベースのツール)で行うなら、Voicyのブラウザ拡張機能は、精度、使いやすさ、信頼性のバランスが最も優れています。インストール後すぐに使え、設定は不要です。
Voicyと他のブラウザベースのソリューションの比較については、音声入力ブラウザ拡張機能の完全ガイドをご覧ください。
🐧 Linuxを徹底的に使いたい人向け: Nerd Dictation
オープンソースのソリューションを好み、コマンドラインツールを気にしないなら、Nerd Dictationは軽量で完全オフラインの選択肢を提供します。音声入力体験を自分好みにカスタマイズしたいユーザーに最適です。
📝 メモを取る人向け: Speech Note
主にメモ取りのために音声入力が必要で、翻訳やテキスト読み上げ機能が最初から組み込まれている点を重視するなら、Speech Noteは使いやすいパッケージとして非常に価値があります。
🔧 開発者向け: whisper.cpp
カスタムワークフローを構築している場合や、オフライン文字起こしで可能な限り高い精度が必要なら、whisper.cppは多くの他ツールの土台となっている基盤です。
各プラットフォームにまたがる音声入力ソフトについて、より包括的な情報を知りたい場合は、2026年版ベスト音声入力ソフト完全ガイドをご覧ください。
Linuxで最初の音声入力環境をセットアップする
クイックスタート: Voicy(5分)
LinuxシステムでChrome、Chromium、またはFirefoxを開く
VoicyのWebサイトにアクセスしてブラウザ拡張機能をインストールする
無料アカウントを作成してトライアルを開始する
ブラウザ内の任意のテキストフィールドに移動する
Voicyのマイクアイコンをクリックして話し始める
オープンソースの方法: Nerd Dictation(30分)
システムにPython 3.6以上とpipをインストールする
必要なパッケージをインストールする:
pip3 install voskxdotoolをインストールする:
sudo apt install xdotool(Ubuntu/Debian)リポジトリをクローンする:
git clone https://github.com/ideasman42/nerd-dictation.gitVOSKモデルをダウンロードし、パスを設定する
音声入力を開始/停止するキーボードショートカットを設定する
よくある質問
macOSのように、Linuxにも標準搭載の音声認識機能はありますか?
いいえ、ほとんどのLinuxディストリビューションには、箱から出してすぐ使える音声入力機能は含まれていません。macOSのようにシステム全体の音声入力が標準搭載されているわけではないため、Linuxユーザーはサードパーティのソリューションをインストールする必要があります。
LinuxでDragon NaturallySpeakingは使えますか?
Dragon NaturallySpeakingはLinux上ではネイティブに動作しません。一部のユーザーはWine(Windowsエミュレーション)経由で動かしていますが、この方法は信頼性が低く、本番環境での使用には推奨されません。
Linuxで最も精度の高い音声入力ソリューションはどれですか?
VoicyやGoogle Chromeの音声入力のようなクラウドベースのソリューションは、先進的なAIモデルを使っているため、通常は最も高い精度を提供します。オフラインのソリューションなら、whisper.cppが最先端の精度を提供します。
Waylandで音声入力は使えますか?
対応はツールによって異なります。Nerd DictationはWayland対応が限定的ですが、Voicyのようなブラウザベースのソリューションは問題なく動作します。Talon Voiceは現時点ではX11のみ対応です。
これらのツールで自分の音声データはプライベートですか?
ツールによって異なります。Nerd Dictationやwhisper.cppのようなオフラインソリューションでは、すべてのデータがローカルに保存されます。VoicyやGoogleのようなクラウドベースのツールでは、音声が処理のためにリモートサーバーへ送信されます。詳細は各サービスのプライバシーポリシーを確認してください。
自分の特定の語彙を認識できるように、これらのシステムを学習させることはできますか?
最近の多くのシステムでは学習は必要ありません。ただし、Nerd Dictationのようにカスタム語彙を使えるツールもあり、Voicyは時間の経過とともにあなたの修正から学習します。
音声認識に最も向いているディストリビューションはどれですか?
Ubuntuや他のDebian系ディストリビューションは、ソフトウェアの入手性が最も優れています。FedoraやopenSUSEもよく動作します。ディストリビューションそのものよりも、比較的新しいカーネルとオーディオシステムがあるかどうかのほうが重要です。
音声入力だけでなく、システム制御用の音声コマンドも使えますか?
はい、ただし専用のソフトウェアが必要です。Talon Voiceはシステム全体を包括的に音声制御できます。よりシンプルな音声コマンドなら、音声認識ツールと自動化スクリプトを組み合わせる方法もあります。
これらのツールはどれくらいのシステムリソースを使いますか?
リソース使用量はかなり異なります。Voicyのようなブラウザベースのツールは、ローカルのリソース消費が最小限です。whisper.cppのようなオフラインツールは、特に大きなモデルを使う場合にCPU負荷が高くなることがあります。Nerd Dictationは非常に軽量です。
Linuxでコーディングに音声入力を使えますか?
はい、ただし専用ツールが必要です。Talon Voiceは音声コーディング用に特化して設計されており、複数のプログラミング言語をサポートしています。一般的な音声入力ツールでもコードは扱えますが、構文記号は自分で読み上げる必要があります。
Linuxの音声認識の未来
Linuxの音声認識環境は急速に改善しています。WhisperのようなオープンソースAIモデルにより、高品質なオフライン音声認識が誰でも使えるようになりました。Fedoraのibus-speech-to-textイニシアチブのようなプロジェクトは、ネイティブの音声認識がLinuxディストリビューションの標準になる可能性を示しています。
一方で、ブラウザベースのソリューションは引き続きギャップを埋め、ネイティブ実装を待たずに、プロ品質の音声入力をLinuxユーザーに今すぐ提供しています。
結論
Linuxには、macOSにあるようなシームレスで標準搭載の音声入力体験はまだありませんが、利用できる選択肢は大きく成熟しました。最大限の精度と手軽さを求めてVoicyのようなクラウドベースのソリューションを選ぶにせよ、完全な制御とプライバシーを重視してNerd Dictationのようなオープンソースツールを選ぶにせよ、今すぐLinuxシステムで生産的な音声入力機能を使えます。
大切なのは、自分のワークフローに合ったツールを選ぶことです。ブラウザ中心のユーザーにはVoicyが最も便利で、コマンドライン派はNerd Dictationの自由なカスタマイズ性を高く評価するでしょう。包括的なアクセシビリティが必要な場合は、Talon Voiceが完全なハンズフリー・コンピューティングを実現します。
Linuxの音声入力はここまで進化してきており、未来はさらに明るいと言えます。









