WhisperとObsidianを使ってWindowsローカルで文字起こしする方法

2025年5月7日 2025年5月11日

このページには広告が含まれています

会議の音声データを文字起こししたいためだけにYouTubeに機密情報をアップし、情報漏洩に繋がったという事故が確認されています。それは論外だとしても、クラウドサービスに機密情報や個人情報を預けることは心配だという声も多いです。この記事では「Whisper」を使ってWindowsのローカル環境で文字起こしをする方法をご紹介しています。さらに「Obsidian」を使うことで、その後のテキスト管理も容易となっています。

ローカルでWhisperを実行するメリット・デメリット

WhisperをObsidian経由で動作させるシステムの概要と、ローカル環境で文字起こしをするメリット・デメリットについて解説します。

Whisperとは

「Whisper（ウィスパー）」とは、OpenAIが開発した音声認識モデルで、人間の話す言葉をテキストに変換（Speech-to-Text）することができる、文字起こしAIです。

2022年に、オープンソースで公開されました。

OpenAIのAPIで利用できる他、様々な派生ツールが開発されています。

今回は、ノートアプリのObsidianとWhisperを連携し、完全にWindowsローカル環境で文字起こしをする方法をご紹介します。

ローカルで文字起こしするメリット

情報の保護

ローカル環境でWhisperを実行する最大のメリットは、機密情報や個人情報を保護することができるという点です。

例えばYouTubeに動画をアップすれば、自動的に文字起こしされますが、誰かに見られてしまうリスクがあります。

ローカルであれば、誰にも見られることがなく、安全に実行することができます。

無料

クラウド環境で文字起こしをする場合は、料金がかかることが普通ですが、ローカルであれば何回実行しても無料です。（電気代等は別として）

情報の整理

今回は、Obsidianに音声・動画ファイルを取り込み、それをテキスト化することを目的としています。

全ての情報を一元管理することで、活用の幅が広がります。

さらにテキスト化されたことで、AIが利用しやすくもなります。

デメリット

ハイスペックPCが必要

Whisperを実行するには、NVIDIAのGPUがほぼ必須となります。

目安として、ゲーミングPC程度のスペックが必要です。

作業が手間

環境構築や作業の手間は必要となります。

今回は、ソースとなる音声・動画ファイルも、ローカルに保存されてることが前提となっています。

YouTubeにアップされている動画の文字起こしをしたいのであれば、Chrome拡張の「YouTube字幕」や、Google NotebookLMなど、簡単な方法がいくらでもあります。

: NotebookLMでYouTubeから文字起こしして、自動で要約したり、ポッドキャストを作成したりする方法
2025/5/3 Google, LLM
Googleが開発しているNotebookLMは、pdfやYouTubeのリンクなどをソースとして、AIを活用して情報を自動的に整理することができるツールです。YouTubeの文字起こしデータを取り込 ...
ノート

精度が悪い

クラウド環境に比べ、ローカル環境でAIを実行することは性能面で劣るため、文字起こしの精度も悪くなります。

ただし、全然実用レベルではありますし、校正もAIにさせることで、精度をさらに高めることができます。

システムの概要

ローカル環境でWhisperを利用するだけであれば、様々な方法があります。

今回は、Obsidian上から実行することで、その後のテキスト管理も容易にしているという点が特徴です。

必要となるツールをご紹介します。

Docker Desktop

「Docker Desktop」は、Windows上に仮想環境を構築するためのツールです。

下記の「Whisper ASR Webservice」の前提となっています。

Whisper ASR Webservice

「Whisper ASR Webservice」は、Whisperを、REST APIとして利用できるようにしたツールです。

これにより、他のアプリとの連携が簡単になります。

Obsidian

「Obsidian」は、完全にローカルで動作するノートアプリです。

全てのノートをMarkdown形式で保存するため、AIと相性が良いです。

: ノートをリンクでつないで管理できるObsidianの使い方
2025/4/22 Obsidian, カナダ
情報をただ保存するだけでなく、いじくり回しながらアイデアをまとめたいという方に向いているノートアプリがObsidianです。Obsidianは、ノート間のリンクを重視しているので、発想を広げたり、まと ...
ノート

Obsidianプラグイン： Transcription

「Transcription」は、Obsidian上から「Whisper ASR Webservice」に接続できるプラグインです。

Swiftinkにも接続できますが、全てローカルで実行するという今回の趣旨とは異なるので、割愛させていただきます。

LM Studio（オプション）

「LM Studio」は、ローカル環境でLLM（AI）を簡単に実行できるツールです。

文字起こしされたテキストを校正するために使用します。

: WindowsでAIを実行するなら一番簡単な方法？ LM Studioの使い方
2025/4/18 LLM, LM Studio
ローカル環境でAIを利用するための様々なツールが開発されていますが、現状Windowsで一番簡単に使えるのが、LM Studioです。クラウドベースのAIを利用すると、個人情報や機密情報が特定の企業に ...
AI

Obsidianプラグイン： Copilot（オプション）

「Copilot」は、LM Studioと連携し、Obsidian上からAIチャットを利用できるようにするプラグインです。

: ObsidianのCopilotプラグインで、ローカルLLMと連携する方法
2025/4/23 LLM, LM Studio, Obsidian
最近のクラウドノートアプリは、AIサポート機能が当たり前となっていますが、ローカルノートアプリのObsidianでも、プラグインをインストールすれば、AI連携できるようになります。完全にオフラインで動 ...
ノート

ObsidianでWhisperをローカル実行する方法

WhisperをObsidian経由で実行する方法として、「Docker Desktop」「Whisper ASR Webservice」「Transcriptionプラグイン」のインストールと使い方を解説します。合わせて「LM Studio」と「Copilotプラグイン」で校正をして文字起こしの精度を高める方法もご紹介します。

Docker Desktopのインストール

Dockerとは、ソフトウェアを動かすための環境を「コンテナ」という形でまとめた仮想環境のことです。

Docker Desktopは、Windowsでコンテナを動かすためのツールです。

ブラウザで「https://www.docker.com/ja-jp/」を開き、画面を下にスクロールし、「Docker Desktopをダウンロードする」をクリックします。

ほとんどのデスクトップPCは「AMD64」です。

タブレット端末の場合は「ARM64」の可能性もあります。

ダウンロードしたファイルを実行します。

「Use WSL 2 instead of Hyper-V」にチェックが入っていることを確認します。

「WSL 2」や「Hyper-V」というのは、仮想環境の仕組みの違いのことです。

「Add shortcut to desktop」はどちらでもいいです。

完了するまでに数分かかりますので、待ちます。

利用規約とプライバシーポリシーを確認し、「Accept」をクリックします。

アカウント登録画面となりますが、とりあえず「Skip」で大丈夫です。

利用目的を聞かれますが、こちらも「Skip」で大丈夫です。

Docker Desktopのインストールが完了しました。

Whisper ASR Webserviceのインストール

次に「Whisper ASR Webservice」をインストールします。

Dockerが起動している状態で、コマンドプロンプトかWindows PowerShellを開き、以下のコマンドを実行します。

GPUを利用する場合

docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=openai_whisper onerahmet/openai-whisper-asr-webservice:latest-gpu

CPUを利用する場合

docker run -d -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=openai_whisper onerahmet/openai-whisper-asr-webservice:latest

ブラウザで「http://localhost:9000」を開き、以下のような画面となれば成功です。

ObsidianプラグインTranscriptionのインストール

次にObsidianに、Transcriptionプラグインをインストールします。

Obsidianの「設定」-「コミュニティプラグイン」-「閲覧」で、「transcription」を検索します。

いくつかヒットしますが、djmango氏のものを選択します。

「インストール」をクリックします。

「有効化」をクリックします。

「オプション」をクリックします。

「Transcription engine」で、「Whisper ASR」を選択します。

「Language」で、「Japanese」を選択します。（Auto-detectでいいのかもしれませんが）

以上で準備は完了です。

Transcriptionの使い方

実際にTranscriptionプラグインを使って文字起こしをする方法をご紹介します。

サンプルとして、以前NotebookLMで生成した音声ファイルを使用しています。

AIがテキストから音声生成したものを、再度AIによってテキストに戻すという意味がないことをしていますが、テストとして使用しているだけなのでご了承ください。

まず、音声または動画ファイルがObsidian上で管理されており、ノートに組み込まれている必要があります。

Windowsであれば「Ctrl+P」、またはコマンドパレットアイコンをクリックします。

「Transcription」と入力し、候補の中から「Transcription: Transcribe file in view」をクリックします。

該当のファイル名をクリックします。

自動的に、文字起こしされた内容がノートに書き込まれます。

私の環境では、7分の動画で10秒程度でした。

オプションで「Enable timestamps」をオンにすれば、タイムスタンプを付与することもできます。

以下のようになりました。

正常に文字起こしされない場合

いくつかのファイルで試していたのですが、中には、正常に文字起こしされないものもありました。

正確に言うと、動作はしているのですが、空欄で返ってきている状態です。

このファイルに対して「exiftool -all= ファイル名」で、メタデータを削除したところ、正常に文字起こしできるようになりました。

ファイルが破損していたのか、何かしらのメタデータが影響していたのかは不明です。

exiftoolに関しては、下記の記事をご参照ください。

: AI生成した画像であることがバレる？ C2PAとは
2025/3/3 画像生成, 画像認識
画像や動画の生成AIが進化し、本物と偽物の区別がつかなくなってきています。そこで業界団体は、作成者や使用ツールなどの情報をコンテンツに埋め込み、さらにデジタル署名をして信頼性を確保する、C2PAという ...
AI

ObsidianプラグインCopilotで校正

実際に文字起こしされた内容を確認すると、いくつか気になる点もあります。

音声は概ね正しく解釈されているのですが、漢字の変換が間違っています。

赤字は漢字変換が間違っている箇所、下線は正しいけれど後から修正された箇所です。

（ジェミナイトについては、元音声から間違っているので、ここでは無視します）

さて今回はGoogleの最新イベント、その発表内容について深く掘り下げていこうと思います。
特にAIのジェミナイト、それ関連の新製品ですね。
えぇ。
情報があのかなり多いんですが、今日のミッションとしては、この中から特に重要で、皆さんの知的高機身を薬ぐるようなポイントを、えー、中室していきたいと思います。
Google自身もジェミナイの時代って言ってましたね。
AIを本当にそのインフラからアプリデバイスまで全部に統合して、より使えるものにしようと、そういう意気ごみを感じますね。

これに対して、Copilotプラグインで、校正の指示を出しました。

プロンプトは単純に

{activeNote}を校正してください

のみです。

モデルは「gemma-3-12b-it-qat」を使用しています。

結果は、以下のようになりました。

さて今回はGoogleの最新イベント、その発表内容について深く掘り下げていこうと思います。
特にAIのジェミナイト、それに関連する新製品ですね。
情報がかなり多いんですが、今日のミッションとしては、この中から特に重要で、皆さんの知的好奇心をくすぐるようなポイントを抽出していきたいと思います。
Google自身もジェミナイの時代と言っていましたね。
AIを本当にインフラからアプリ、デバイスまで全部に統合して、より使えるものにしようという意気込みを感じますね。

一部過剰に修正されている箇所もありますが、かなり良いのではないでしょうか。

「あー」「えー」を残したいという場合は、プロンプトを工夫すれば大丈夫だと思います。

Copilotプラグインについては、下記の記事をご参照ください。

: ObsidianのCopilotプラグインで、ローカルLLMと連携する方法
2025/4/23 LLM, LM Studio, Obsidian
最近のクラウドノートアプリは、AIサポート機能が当たり前となっていますが、ローカルノートアプリのObsidianでも、プラグインをインストールすれば、AI連携できるようになります。完全にオフラインで動 ...
ノート

まとめ WhisperとObsidianを使えばローカル環境で文字起こしできる

Whisperは、OpenAIが開発した文字起こしAIで、ローカル環境で実行することもできます。

Whisperを実行する方法はいろいろありますが、Obsidianプラグインを利用することで、その後のノート管理も含めて便利に使用できます。

AIは要約が得意なので、会議の音声データを文字起こしして、楽に議事録を作成したいというニーズは多くあります。

しかし既存のクラウドAIサービスを利用するとなると、機密情報や個人情報の漏洩が問題となります。

WhisperとObsidianを使用する方法であれば、完全にローカル環境で動作するので、安全に利用できます。

さらに無料です。

ローカルLLM実践入門

編集:日経ソフトウエア

¥2,277 （2025/08/14 18:07時点 | Amazon調べ）

Amazon

＼楽天ポイント4倍セール！／

楽天市場

ポチップ

-AI
-LM Studio, Obsidian

2025/5/30

Style-Bert-VITS2で音声学習し、AivisSpeechのモデルに変換する方法

一般的に、好きな声で喋るTTS（Text-to-Speech）モデルを作成するには、学習用データを用意することが大変ですが、Style-Bert-VITS2とGPT-SoVITSを組み合わせれば、数秒の音声ファイルから作成することができます。さらにAivisSpeechのモデルに変換し、SillyTavernと連携すれば、好きな声で喋るAI彼氏、AI彼女を作ることも可能です。この記事では、その手順を、分かりやすく解説しています。 GPT-SoVITSで音声データを生成し、Style-Bert-VITS2で ...

2025/8/20

初心者向け！PhotoPrismをWindowsにインストールしてAIで画像を自動整理する方法

Googleフォトは写真を整理するのに便利ですが、Googleによって検閲されていることが気になるという方も多いと思います。そのような時に、PhotoPrismをローカル環境で実行すれば、誰にも見られること、Googleフォトと同じような管理をすることができます。この記事では、PhotoPrismをWindows PCにインストールする方法を、エンジニアでなくとも分かるように、なるべく簡単に解説しています。ポイント PhotoPrismの特徴とプランの比較 Docker DesktopとPhotoPri ...

2025/3/28

AIが自動的にタスク分解してくれるMagic ToDo（Goblin Tools）の使い方

Magic ToDoは、タスクを細かなサブタスクに自動的に分解してくれるタスク管理ツールですが、普通の人向けの便利なツールではなく、タスク管理やコミュニケーションが苦手な人向けのサポートツールとして開発されています。この記事では、Magic TodoおよびGoblin Toolsの機能一覧と、使い方、使ってみた感想をご紹介しています。結論としては、ChatGPTに直接依頼した方が、より正確で、より便利に使用できると思います。 Magic ToDoは何ができる？ Magic ToDoおよびGoblin To ...

2025/4/29

AI検索エンジンPerplexityとは？安全に使うには？

Perplexityとは、AIが検索結果を要約し、リンクと一緒に示してくれるサービスです。便利ではありますが、著作権や商標権の問題には直面しています。またユーザーのプライバシーが保護されるのかという点も疑問です。この記事では、Perplexityの基本的な使い方と、何が問題となるのか、どのような対策を取ればよいのかを解説します。 Perplexityとは Perplexityの概要と、ChatGPTとの違い、料金プランについて解説します。 Perplexityの概要「Perplexity（パープレキシテ ...

2025/3/16

宿題AIクァンダを使ったら先生にバレる？

クァンダは、問題文をカメラで撮影すれば、AIが自動で解答してくれるアプリです。これであれば宿題も簡単！でもクァンダを使用していることは先生にバレないでしょうか。この記事では、クァンダの使用が先生にバレるパターン、バレないパターンについて解説します。またクァンダの使い方と注意点についても解説します。結論としては、そもそも料金に見合っておらず、他の無料サービスで代用できるので、クァンダの使用はおすすめできません。ポイントクァンダの概要クァンダの使用がバレる時、バレない時クァンダでできることクァンダを ...

2025/3/26

無料かつ匿名でAIチャットを利用できるDuck.aiは安全？

生成AIがどんどん日常の中に入ってきていますが、特定の企業にプライベートな情報を渡すのは気が引けるということも多いと思います。Duck.aiはその問題を解決し、匿名でAIチャットを利用できるようにしたサービスです。しかし本当に信頼してもいいのでしょうか。この記事では、どこまでが安全で、どこから気をつけるべきなのかについて詳しく解説します。また使用例として、AIは愚痴の聞き役になれるのかについて試してみた結果をご紹介します。 Duck.aiは本当に匿名？ Duck.aiの特徴と、プライバシー保護の仕組み、注 ...

NotebookLMでYouTubeから文字起こしして、自動で要約したり、ポッドキャストを作成したりする方法

オープンデータの地図サービスOpenStreetMapの使い方