会議の音声データを文字起こししたいためだけにYouTubeに機密情報をアップし、情報漏洩に繋がったという事故が確認されています。それは論外だとしても、クラウドサービスに機密情報や個人情報を預けることは心配だという声も多いです。この記事では「Whisper」を使ってWindowsのローカル環境で文字起こしをする方法をご紹介しています。さらに「Obsidian」を使うことで、その後のテキスト管理も容易となっています。
ローカルでWhisperを実行するメリット・デメリット
WhisperをObsidian経由で動作させるシステムの概要と、ローカル環境で文字起こしをするメリット・デメリットについて解説します。
Whisperとは
「Whisper(ウィスパー)」とは、OpenAIが開発した音声認識モデルで、人間の話す言葉をテキストに変換(Speech-to-Text)することができる、文字起こしAIです。
2022年に、オープンソースで公開されました。
OpenAIのAPIで利用できる他、様々な派生ツールが開発されています。
今回は、ノートアプリのObsidianとWhisperを連携し、完全にWindowsローカル環境で文字起こしをする方法をご紹介します。
ローカルで文字起こしするメリット
情報の保護
ローカル環境でWhisperを実行する最大のメリットは、機密情報や個人情報を保護することができるという点です。
例えばYouTubeに動画をアップすれば、自動的に文字起こしされますが、誰かに見られてしまうリスクがあります。
ローカであれば、誰にも見られることがなく、安全に実行することができます。
無料
クラウド環境で文字起こしをする場合は、料金がかかることが普通ですが、ローカルであれば何回実行しても無料です。(電気代等は別として)
情報の整理
今回は、Obsidianに音声・動画ファイルを取り込み、それをテキスト化することを目的としています。
全ての情報を一元管理することで、活用の幅が広がります。
さらにテキスト化されたことで、AIが利用しやすくもなります。
デメリット
ハイスペックPCが必要
Whisperを実行するには、NVIDIAのGPUがほぼ必須となります。
目安として、ゲーミングPC程度のスペックが必要です。
作業が手間
環境構築や作業の手間は必要となります。
今回は、ソースとなる音声・動画ファイルも、ローカルに保存されてることが前提となっています。
YouTubeにアップされている動画の文字起こしをしたいのであれば、Chrome拡張の「YouTube字幕」や、Google NotebookLMなど、簡単な方法がいくらでもあります。
-
NotebookLMでYouTubeから文字起こしして、自動で要約したり、ポッドキャストを作成したりする方法
Googleが開発しているNotebookLMは、pdfやYouTubeのリンクなどをソースとして、AIを活用して情報を自動的に整理することができるツールです。YouTubeの文字起こしデータを取り込 ...
精度が悪い
クラウド環境に比べ、ローカル環境でAIを実行することは性能面で劣るため、文字起こしの精度も悪くなります。
ただし、全然実用レベルではありますし、校正もAIにさせることで、精度をさらに高めることができます。
システムの概要
ローカル環境でWhisperを利用するだけであれば、様々な方法があります。
今回は、Obsidian上から実行することで、その後のテキスト管理も容易にしているという点が特徴です。
必要となるツールをご紹介します。
Docker Desktop
「Docker Desktop」は、Windows上に仮想環境を構築するためのツールです。
下記の「Whisper ASR Webservice」の前提となっています。
Whisper ASR Webservice
「Whisper ASR Webservice」は、Whisperを、REST APIとして利用できるようにしたツールです。
これにより、他のアプリとの連携が簡単になります。
Obsidian
「Obsidian」は、完全にローカルで動作するノートアプリです。
全てのノートをMarkdown形式で保存するため、AIと相性が良いです。
-
ノートをリンクでつないで管理できるObsidianの使い方
情報をただ保存するだけでなく、いじくり回しながらアイデアをまとめたいという方に向いているノートアプリがObsidianです。Obsidianは、ノート間のリンクを重視しているので、発想を広げたり、まと ...
Obsidianプラグイン: Transcription
「Transcription」は、Obsidian上から「Whisper ASR Webservice」に接続できるプラグインです。
Swiftinkにも接続できますが、全てローカルで実行するという今回の趣旨とは異なるので、割愛させていただきます。
LM Studio(オプション)
「LM Studio」は、ローカル環境でLLM(AI)を簡単に実行できるツールです。
文字起こしされたテキストを校正するために使用します。
-
WindowsでAIを実行するなら一番簡単な方法? LM Studioの使い方
ローカル環境でAIを利用するための様々なツールが開発されていますが、現状Windowsで一番簡単に使えるのが、LM Studioです。クラウドベースのAIを利用すると、個人情報や機密情報が特定の企業に ...
Obsidianプラグイン: Copilot(オプション)
「Copilot」は、LM Studioと連携し、Obsidian上からAIチャットを利用できるようにするプラグインです。
-
ObsidianのCopilotプラグインで、ローカルLLMと連携する方法
最近のクラウドノートアプリは、AIサポート機能が当たり前となっていますが、ローカルノートアプリのObsidianでも、プラグインをインストールすれば、AI連携できるようになります。完全にオフラインで動 ...
ObsidianでWhisperをローカル実行する方法
WhisperをObsidian経由で実行する方法として、「Docker Desktop」「Whisper ASR Webservice」「Transcriptionプラグイン」のインストールと使い方を解説します。合わせて「LM Studio」と「Copilotプラグイン」で校正をして文字起こしの精度を高める方法もご紹介します。
Docker Desktopのインストール
Dockerとは、ソフトウェアを動かすための環境を「コンテナ」という形でまとめた仮想環境のことです。
Docker Desktopは、Windowsでコンテナを動かすためのツールです。
ブラウザで「https://www.docker.com/ja-jp/」を開き、画面を下にスクロールし、「Docker Desktopをダウンロードする」をクリックします。
ほとんどのデスクトップPCは「AMD64」です。
タブレット端末の場合は「ARM64」の可能性もあります。
ダウンロードしたファイルを実行します。
「Use WSL 2 instead of Hyper-V」にチェックが入っていることを確認します。
「WSL 2」や「Hyper-V」というのは、仮想環境の仕組みの違いのことです。
「Add shortcut to desktop」はどちらでもいいです。
完了するまでに数分かかりますので、待ちます。
利用規約とプライバシーポリシーを確認し、「Accept」をクリックします。
アカウント登録画面となりますが、とりあえず「Skip」で大丈夫です。
利用目的を聞かれますが、こちらも「Skip」で大丈夫です。
Docker Desktopのインストールが完了しました。
Whisper ASR Webserviceのインストール
次に「Whisper ASR Webservice」をインストールします。
Dockerが起動している状態で、コマンドプロンプトかWindows PowerShellを開き、以下のコマンドを実行します。
GPUを利用する場合
docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=openai_whisper onerahmet/openai-whisper-asr-webservice:latest-gpu
CPUを利用する場合
docker run -d -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=openai_whisper onerahmet/openai-whisper-asr-webservice:latest
ブラウザで「http://localhost:9000」を開き、以下のような画面となれば成功です。
ObsidianプラグインTranscriptionのインストール
次にObsidianに、Transcriptionプラグインをインストールします。
Obsidianの「設定」-「コミュニティプラグイン」-「閲覧」で、「transcription」を検索します。
いくつかヒットしますが、djmango氏のものを選択します。
「インストール」をクリックします。
「有効化」をクリックします。
「オプション」をクリックします。
「Transcription engine」で、「Whisper ASR」を選択します。
「Language」で、「Japanese」を選択します。(Auto-detectでいいのかもしれませんが)

以上で準備は完了です。
Transcriptionの使い方
実際にTranscriptionプラグインを使って文字起こしをする方法をご紹介します。
サンプルとして、以前NotebookLMで生成した音声ファイルを使用しています。
AIがテキストから音声生成したものを、再度AIによってテキストに戻すという意味がないことをしていますが、テストとして使用しているだけなのでご了承ください。
まず、音声または動画ファイルがObsidian上で管理されており、ノートに組み込まれている必要があります。
Windowsであれば「Ctrl+P」、またはコマンドパレットアイコンをクリックします。
「Transcription」と入力し、候補の中から「Transcription: Transcribe file in view」をクリックします。
該当のファイル名をクリックします。
自動的に、文字起こしされた内容がノートに書き込まれます。
私の環境では、7分の動画で10秒程度でした。
オプションで「Enable timestamps」をオンにすれば、タイムスタンプを付与することもできます。
以下のようになりました。
正常に文字起こしされない場合
いくつかのファイルで試していたのですが、中には、正常に文字起こしされないものもありました。
正確に言うと、動作はしているのですが、空欄で返ってきている状態です。
このファイルに対して「exiftool -all= ファイル名」で、メタデータを削除したところ、正常に文字起こしできるようになりました。
ファイルが破損していたのか、何かしらのメタデータが影響していたのかは不明です。
exiftoolに関しては、下記の記事をご参照ください。
-
AI生成した画像であることがバレる? C2PAとは
画像や動画の生成AIが進化し、本物と偽物の区別がつかなくなってきています。そこで業界団体は、作成者や使用ツールなどの情報をコンテンツに埋め込み、さらにデジタル署名をして信頼性を確保する、C2PAという ...
ObsidianプラグインCopilotで校正
実際に文字起こしされた内容を確認すると、いくつか気になる点もあります。
音声は概ね正しく解釈されているのですが、漢字の変換が間違っています。
赤字は漢字変換が間違っている箇所、下線は正しいけれど後から修正された箇所です。
(ジェミナイトについては、元音声から間違っているので、ここでは無視します)
さて今回はGoogleの最新イベント、その発表内容について深く掘り下げていこうと思います。
特にAIのジェミナイト、それ関連の新製品ですね。
えぇ。
情報があのかなり多いんですが、今日のミッションとしては、この中から特に重要で、皆さんの知的高機身を薬ぐるようなポイントを、えー、中室していきたいと思います。
Google自身もジェミナイの時代って言ってましたね。
AIを本当にそのインフラからアプリデバイスまで全部に統合して、より使えるものにしようと、そういう意気ごみを感じますね。
これに対して、Copilotプラグインで、校正の指示を出しました。

プロンプトは単純に
{activeNote}を校正してください
のみです。
モデルは「gemma-3-12b-it-qat」を使用しています。
結果は、以下のようになりました。
さて今回はGoogleの最新イベント、その発表内容について深く掘り下げていこうと思います。
特にAIのジェミナイト、それに関連する新製品ですね。
情報がかなり多いんですが、今日のミッションとしては、この中から特に重要で、皆さんの知的好奇心をくすぐるようなポイントを抽出していきたいと思います。
Google自身もジェミナイの時代と言っていましたね。
AIを本当にインフラからアプリ、デバイスまで全部に統合して、より使えるものにしようという意気込みを感じますね。
一部過剰に修正されている箇所もありますが、かなり良いのではないでしょうか。
「あー」「えー」を残したいという場合は、プロンプトを工夫すれば大丈夫だと思います。
Copilotプラグインについては、下記の記事をご参照ください。
-
ObsidianのCopilotプラグインで、ローカルLLMと連携する方法
最近のクラウドノートアプリは、AIサポート機能が当たり前となっていますが、ローカルノートアプリのObsidianでも、プラグインをインストールすれば、AI連携できるようになります。完全にオフラインで動 ...
まとめ WhisperとObsidianを使えばローカル環境で文字起こしできる
Whisperは、OpenAIが開発した文字起こしAIで、ローカル環境で実行することもできます。
Whisperを実行する方法はいろいろありますが、Obsidianプラグインを利用することで、その後のノート管理も含めて便利に使用できます。
AIは要約が得意なので、会議の音声データを文字起こしして、楽に議事録を作成したいというニーズは多くあります。
しかし既存のクラウドAIサービスを利用するとなると、機密情報や個人情報の漏洩が問題となります。
WhisperとObsidianを使用する方法であれば、完全にローカル環境で動作するので、安全に利用できます。
さらに無料です。