セミナー・講演などの文字起こしを爆速に！？「字幕表示機能」や「音声認識モデル」について実証。

ニッセイアセットマネジメント公式note

2023年6月8日 07:00

「ChatGPT」をきっかけに、OpenAI社が一躍有名になりましたね。

今回は、OpenAI社が提供する“じゃない方”のモデル「Whisper」※や、すでにWeb会議で馴染み深いZoomの「文字起こし機能（字幕表示）」について、実際の音声をもとに、使い勝手を実証してみましたので、ご紹介します。

まずは、Zoomリアルタイム文字起こし機能（字幕表示）をご紹介

言わずと知れたWeb会議システム「Zoom」。少し古いデータですが、Web会議システムを使う企業の約6割が「Zoom」を利用しているようです。

そんな「Zoom」の便利機能として、「文字起こし（字幕表示）」があります。

使い方は、ミーティングを開始して「字幕を表示」のボタンを押すだけ（設定が「英語」の場合は「日本語」に変更が必要）。いたってシンプルですので、既に利用されている方も多いのではないでしょうか。

そこで、まずは「Zoom」の文字起こし機能の精度について、実際の会話を元に、日常用語から専門用語まで、色々と試してみました。

もちろん、マイクの精度や発話者の滑舌によって、精度にはばらつきがあると考えられますので、あくまでも参考としてご覧ください。

■Zoom「文字起こし（字幕表示）」の結果
※専門的・一般的については筆者の基準です。

Zoom「文字起こし（字幕表示）」の評価 — Zoom「文字起こし（字幕表示）」の結果

リアルタイムなのでそこまで高い精度は期待していなかったのですが、例えば

・「早くみなさまのお役に立てるよう、キャプチャップして・・・」
・「１℃、ミーティングして・・・」

のように、解析結果が間違っていても、会話に参加しており、背景・文脈がわかっているメンバーであれば、概ね内容は理解できる精度になりました。

「専門的」な用語の方が評価が高く見えますが、これは専門的な内容については発話者が「はっきりと話そう」と意識する傾向があるからかもしれません。

Zoomの字幕機能は事前設定で保存して後から見直すこともできるので、便利ですね。

少し話はそれますが、Zoomの文字起こし機能はとてもセンスの良い間違いをしてくれますので、使うたびに爆笑してしまいます。「パワーいかがですか？」なんて聞かれたら、思わず「お願いしますっ！」と言ってしまいそうです。

続いて、Whisper（OpenAI）の実力

続いては、OpenAI社の提供する音声認識モデル「Whisper」による文字起こしです。

「Whisper」は、680,000時間という膨大なデータセットを教師あり学習させた音声認識モデルです。

サイズごとに、「tiny」から「large」まで5種類のモデルが用意されておりますが、今回は「large」を使って実証してみました。

■Whisper(OpenAI)の結果

専門的な内容から一般的な内容まで、幅広く高い精度で解析されています。

ここまで精度が高いのに、評価が「△」になっているものは、発話者の滑舌が原因であるような気がします。

特に注目したいのが、「一度」や「改修」など、同音異義語の解析結果。数ある単語の中から、非常に的確に選定されているように感じます。

「Whisper」は、前述のZoom文字起こし（字幕表示）機能とは異なり、そのままの利用ではリアルタイム性はないものの、全体的に音声認識の精度が高いのが特徴と言えそうです。セミナーや講演終了後に、内容を文字起こしして関係者に展開する際などに活用できそうですね。

文字起こし機能は、場面によって使い分けがおすすめ

文字起こしにスピード感が求められる場合は、ボタンをクリックするだけで使えて、音声認識のレスポンスも速い、Zoomの「文字起こし機能（字幕表示）」がお手軽で、おすすめです。

もちろん、発話した音声ファイルを毎回APIに投げて、返答をテキスト化し、画面に表示する仕組みを構築すれば、Whisperについても、ほぼリアルタイムでの文字起こしが利用することができると思います。しかし工数がかかります。ZoomでWeb会議を行っている方にとって、簡易的な文字起こしであれば、やはりZoomの「文字起こし機能（字幕表示）」が便利です。

一方で、セミナーや講演会など、音声ファイルを解析する時間に余裕があり、より正確性を求めたい場合は、Whisperなどの専用APIを使って文字起こしをするのが効率的でしょう。前述のように音声認識の精度が非常に高く、発話者の滑舌もあまり気にせずに活用することができますので、「何て発言しているかわからないけど、後から本人にはなかなか聞きにくい」ような場面でも、大いに活躍してくれるはずです。

今回ご紹介したAPI以外にも、様々な文字起こし・音声認識モデルがリリースされています。無料で利用できるものも多いので、気になる方は試しに使ってみるのも良いかもしれません。

注意点：機密情報などの漏洩の可能性も！？

ChatGPTの活用について大きな論点になっている「個人情報」「機密情報」の漏洩については、今回使用したWhisperなどの文字起こし・音声認識以外のAPIも含めて注意が必要です。APIは手軽に最先端の機能を利用できる一方で、機能提供元やサーバーの所在などをしっかりと確認するとともに、安易にこれらの情報を入力しないことが大切です。利用に際しては、社内のシステム部門等にご相談されることをおすすめします。

【筆者紹介】
山田智久：大手証券会社入社後、ネット銀行立ち上げを経て、大手小売業にて複数の大型DXプロジェクトに従事。2022年よりニッセイアセットマネジメントにて資産運用に関するDX業務を担当。CFP🄬認定者。UX検定™保有。

・当資料で、筆者の紹介のある記事においては、掲載されている感想や評価はあくまでも筆者自身のものであり、ニッセイアセットマネジメントのものではありませんが、ニッセイアセットマネジメントと筆者との間でこれらの表示に係る情報等のやり取りを直接的又は間接的に行っているため、実質的にはニッセイアセットマネジメントの広告（「不当景品類及び不当表示防止法」におけるニッセイアセットマネジメントの表示）等に該当する場合がございますので、ご留意願います。

この記事が参加している募集

#企業のnote

with note pro

14,896件

#AIとやってみた

34,767件

資産運用はもっと手間なく、もっと効率的に

Nダイレクト

スマホで簡単、Smart資産運用