このツールを利用すると何ができる?
ビデオコンテンツ、Web会議の音声データをテキストに変換し、画面上に字幕表示します。 翻訳機能も有しているので、英語のWebinarを視聴しながら日本語字幕をリアルタイムに表示することができます。
対応しているWeb会議ツールは?
PCのスピーカー出力をキャプチャーするため、Microsoft Teams、Skype、Zoom、Cisco Webex、YouTubeなどのビデオコンテンツを含むすべてのWeb会議ツールをサポートします。
どういうときに使うと便利?
- 英語のWebinarを視聴する時
- 英語でしか提供されないeラーニングを受講する時
無料で利用できる?
本ツールは、UiPathおよびIBM Watsonのコグニティブサービスを利用しています。いずれも無料版、もしくは無料枠がありますので、基本的には無料でお使いいただくことができます。
UiPath
UiPath Enterprise Edition もしくは UiPath Community Editionが必要です。個人利用であれば UiPath Community Edition を無償でご利用いただくことができます。詳細はUiPath社HPにてご確認ください。
作成したアクティビティはUiPath Connectというマーケットストアに無料公開しています。
IBM Watson コグニティブサービス
IBM Watsonのコグニティブサービスは、IBM Cloud ライト・アカウント というクレジットカード不要で、期間無制限でWatsonを含めた多数のAPIとサービスが無料で使える仕組みがあります。今回利用するコグニティブサービスも無料で利用できるので、こちらを使用します。(無料利用枠の上限はありますが勝手に課金されたりはしません。)
利用するサービスは以下の通りです。
仕組みは?
UiPathには、複雑な処理を行うオリジナルのカスタム部品(カスタムアクティビティ)を作成する機能があります。
カスタムアクティビティにて、PCのスピーカー出力を取得し、IBM Watson Speech to Textにて音声データをリアルタイムでテキストに変換し、その後IBM Watson Language Translatorにて翻訳を行い、結果を画面に字幕として表示しています。
詳細は機会があれば(気が向けば)紹介しますが、ソースは以下に公開しています。C#でコードを書いて実装しています。
導入方法
IBM Cloud ライトアカウントの開設
IBM Cloudライトアカウント登録サイトよりアカウントを作成してください。
IBM Watson Speech to Text サービスの作成
Speech to Text サービスの作成画面を開きます。
リージョンは [東京] を選択し、ライトプランになっていることを確認して [作成] をクリックします。
サービスが作成されたら、 [管理] 画面を表示し、APIキーをコピーしてメモしておきます。
以上でSpeech To Textサービス作成、および作成後の管理画面で行う処理は終了です。
IBM Watson Language Translator サービスの作成
Language Translator サービスの作成画面を開きます。
リージョンは [東京] を選択し、ライトプランになっていることを確認して [作成] をクリックします。
サービスが作成されたら、 [管理] 画面を表示し、URL、APIキーをコピーしてメモしておきます。
以上でLanguage Translatorサービス作成、および作成後の管理画面で行う処理は終了です。
UiPath プロジェクト作成
UiPath Studio導入済みの前提で、プロジェクトを作成するところから説明します。
UiPath Studioで新規プロセスを作成し、プロジェクト名を「リアルタイム翻訳」としましょう。(他の名称でもいいです。お好みで)
LiveCaptionTranslator.Activitiesパッケージのセットアップ
プロジェクトが作成されたら、デザインタブ - [パッケージの管理]をクリックし、[パッケージを管理]ダイアログを表示します。
続いて [Connect] (なければ[すべてのパッケージ])を選択し、検索欄に LiveCaption と入力し、表示される LiveCaptionTranslator.Activities を選択します。右側に表示される [インストール] をクリックし、 [保存] をクリックします。
プロジェクトパネルに、[LiveCaptionTranslator.Activities]が表示されていればパッケージのセットアップは完了です。
アクティビティパネルに、 [LiveCaptionTranslator] というグループが表示され、3つのアクティビティが表示されているはずです。
UiPathワークフローの構築 & プロパティ設定
① [音声認識ストリーミングスコープ] アクティビティを配置し、以下のプロパティを設定します。
プロパティ | 設定値 |
---|---|
言語モデル | 英語音声の場合:en-US_BroadBandModel 日本語音声の場合:ja-JP_BroadBandModel |
リージョン | Tokyo(Speech To Textサービス作成時に選択したリージョン) |
APIキー | Speech To Text管理画面でメモしたAPIキー |
② [実行]シーケンス内に [ストリーミング音声認識を開始] アクティビティを配置し、以下のプロパティを設定します。
プロパティ | 設定値(翻訳機能使用) | 設定値(翻訳機能不使用) |
---|---|---|
ライブ翻訳 | チェックオン | チェックオフ |
字幕を常に最前面に表示する | チェックオン | チェックオン |
字幕表示 | チェックオン | チェックオン |
翻訳APIキー | Language Translator管理画面でメモしたAPIキー | 入力しない |
翻訳Model ID | 英語→日本語:“en-ja" 日本語→英語:“ja-en” |
入力しない |
翻訳URL | Language Translator管理画面でメモしたURL | 入力しない |
翻訳Model IDへの設定値について詳しく知りたい方はこちらを参照
③ [ストリーミング音声認識を開始] アクティビティの下に [待機] アクティビティを配置し、以下プロパティを設定します。
プロパティ | 設定値 |
---|---|
待機時間 | 01:00:00 |
完成形は以下のようになっているはずです。
以上でワークフロー構築も完了です。動作確認してみましょう。
動作確認
ワークフローを実行した状態で、YouTubeやeラーニングなど、任意の動画コンテンツを再生し、字幕が表示されるか確認してみましょう。
うまく表示されましたでしょうか?うまく表示されない方は以下も確認してみてください。 上記設定ですと、1時間が経過するか、手動でワークフローを停止すると字幕表示も停止します。
字幕が表示されない場合のチェックポイント
- リージョンがあっているか、APIキー、言語モデルが正しく入力されているか確認ください。
- 字幕が裏側に隠れていることがあります。Alt + Tabなどで隠れている字幕フォームがあれば選択して表示してください。
- ミュート状態だと正常に動作しませんので、音量1以上にしてください。
- 仮想環境やVDI環境での動作確認はできていませんので、ご了承ください。
これで英語のWebinarも怖くないですね!お疲れ様でした!