技術情報コラムColumn

Windows11のライブキャプション機能について

技術解説

皆様は会議時の議事録やメッセンジャー等の通話の記録に、どのような方法を利用されていますでしょうか?

昨今はWEB会議ツールや動画サイトでも自動でキャプション(字幕)を生成してくれる機能が増えておりWindows11 H22H3でも新機能として、「ライブキャプション機能」が追加され、PC上で再生された音声を字幕表示することができるようになりました。

 

利用方法ですが非常にシンプルで

「Winキー」+「Ctrlキー」+「Lキー」の同時押しで画面上に帯状の枠が表示されココに字幕が表示されるようになります。

(初回起動時のみPCの言語設定に合わせてデータのダウンロードの案内が表示されます)

また、枠右上の歯車アイコンから表示位置やマイク入力の音声を字幕生成の対象にするか等も設定可能です。


がしかし、結論から言うとこの機能、現在(2023/7/18時点)は「画面上に字幕を表示するのみ」の機能となり、この字幕データをコピー&ペーストしたりテキストデータとしてファイル出力する機能は持たない為、文字起こし等には活用が難しい状態となっています。

ただ、導入ハードルは非常に低く字幕の生成速度もかなり早く、ローカル処理の為インターネット環境無しでも利用可能と言う特徴もありスクリーンレコーディングと合わせて使えば、字幕生成機能のない通話/会議ツールでのやり取りを字幕付き動画にできる等、有効活用は可能かと思われます。

※マイク音声のテキストデータの出力方法としてはWindows11には音声入力機能(ディクテーション)がありますがオフラインでの利用ができない、PC上で再生された音声では無く、あくまでマイク入力の音声が対象等の問題があります。

 

現在は、Windows11のライブキャプション機能も音声入力機能も独立した機能ゆえの不便さがありますが、今後これらの機能が綺麗に統合され、さらに音声/文字データが相互に行き来できる機能が実現することを期待したいと思います。