Windowsで音声文字起こし MyWhisper(マイウィスパー)
パソコン上でお手軽に音声ファイル(wav, mp3, m4a)を文字起こししてくれるWindowsアプリケーションです。Whisper.cppを利用しています。 GPU(Cuda)、またはCPUでの計算処理が選択できます。GPUでの処理にはCudaをサポートしているNVidiaのGPUを搭載している必要があります。 動画ファイル(avi, mp4)もサポートしています。 ローカル(パソコンの内部)で処理が完結するので、クラウドやAPIよりもセキュリティ面で安心です。
詳細
有料のプロ版では全てのWhisperモデルが利用できます。無料版ではLarge(最高品質)モデル以外のモデル(Tiny, Base, Small, Medium)が利用できます。大きなモデルほど精度が高いですが、処理時間が長くなり、消費メモリも大きくなります。 プロ版を購入する前に無料版で動作確認をお願いします。 ファイルサイズが大きいため、複数のファイルに分割して圧縮しています。全てのファイルをダウンロードして解凍ソフトで解凍してください。 また、このアプリのソースはオープンソースで公開しています。 https://github.com/umiyuki/MyWhisper
使用方法
解凍したフォルダの中にあるMyWhisper.exeファイルを開いてください。(「WindowsによってPCが保護されました」と表示される場合がありますが、大丈夫なので「実行」ボタンを押せば起動します) メニューからファイル→ファイルを追加でオーディオファイル(wav, mp3, m4a, avi, mp4)を選ぶとファイルリストに追加されます。複数ファイルも可能です。ファイルリストにファイルを直接ドラッグ&ドロップする事もできます。 「文字起こし開始」ボタンを押すと処理を開始します。 左下の"処理中"の文字が"完了"になれば完了です。 文字起こしされた出力ファイルはオーディオファイルと同じフォルダに出力されます。
パラメータの説明
・モデル 使用するWhisperモデルを選択できます。Tiny、Base、Small、Medium、Large(プロ版のみ)の順にサイズが大きくなります。サイズが大きくなるほど文字起こしの品質が上がりますが、処理時間が長くなり、消費メモリも大きくなります。 ・スレッド数 スレッド数を増やすとCPUのマルチコアを活用して処理します。CPU処理の場合のみ使用されます。しかし、4または8が最適で、それ以上大きくしても処理は速くならないようです。0にした場合は自動で選択されます。 ・言語 オーディオファイルの言語を指定します。日本語ならjapanese、英語ならenglishにしてください。 ・出力形式 普通のテキストファイルならtxtを選択してください。他にvtt, srt, tsv, jsonが選択できます。 ・デバイス 処理するデバイスがCPUまたはGPU(Cuda)から選択できます。autoでは自動でデバイスを選択します。cpuはCPU処理、cudaはGPU処理です。 ・デバイスID CPU処理の時は0にしてください。GPU処理の時のみ使用されます。複数のGPUを搭載してる時に、どのGPUを使用するかインデックスで指定します。CudaをサポートしてないGPUだとエラーが表示されます。 ・無音部除去 VADフィルターによる音声無音部の除去処理を有効化するかどうか選択します。 ・量子化 問題なく処理が行えてる時はautoのままで構いません。GPUでの処理が上手く行かない時にint8やfloat32に変更すると改善される場合があります。
注意事項
プロ版を購入する前に、かならず無料版で動作確認しておくことをオススメします。また、ラージモデルは消費メモリが大きくなるので、お使いのPCによっては動作しない可能性があります。 払い戻しはできないのでご了承ください。 オーディオファイルや動画ファイルはコーデック方式などによっては対応していない可能性があります。ご了承ください。 Cudaに対応しているはずのGPUでも正常に処理できない場合があります。ご了承ください。最新のグラフィックドライバのインストールをお試しください。 cudaで処理をさせる時に、ログ部分にまったく何も表示されないで、結果も出力されないまま処理完了してしまう場合は、量子化オプションをint8やfloat32に変更すると改善するかもしれません。(GTX1060や1660の場合、半精度の処理がサポートされてないため)
サポート
私が管理しているDiscordサーバーの「製品サポート」チャンネルにてサポートを行いますのでよろしくお願いします。ただし、無料版は無保証となります。twitterでのリプライやDMは見落としてしまう可能性があります。 https://discord.gg/TvmnwR5Mhf
動作環境
Windows10にて動作確認。他のWindowsでも動作するはず
アップデート履歴
[2023-06-12: v1.1.2] 処理の最初にコマンドをログ表示するようにした。量子化オプションが選択できるようにした。 [2023-06-06: v1.1.1] ログに表示される出力先ディレクトリが間違っていたのを修正 [2023-06-05: v1.1.0] バックエンドをWhisper.cppからwhisper-ctranslate2に変更。処理が高速化して、CPU以外にGPU処理も選択できるようになった。 [2023-04-03: v1.0.1] アイコン変更 [2023-04-03: v1.0.0] 最初のバージョン