このツールを利用すると何ができる?

ビデオコンテンツ、Web会議の音声データをテキストに変換し、画面上に字幕表示します。 翻訳機能も有しているので、英語のWebinarを視聴しながら日本語字幕をリアルタイムに表示することができます。

top

対応しているWeb会議ツールは?

PCのスピーカー出力をキャプチャーするため、Microsoft Teams、Skype、Zoom、Cisco Webex、YouTubeなどのビデオコンテンツを含むすべてのWeb会議ツールをサポートします。

どういうときに使うと便利?

  • 英語のWebinarを視聴する時
  • 英語でしか提供されないeラーニングを受講する時

無料で利用できる?

本ツールは、UiPathおよびIBM Watsonのコグニティブサービスを利用しています。いずれも無料版、もしくは無料枠がありますので、基本的には無料でお使いいただくことができます。

UiPath

UiPath Enterprise Edition もしくは UiPath Community Editionが必要です。個人利用であれば UiPath Community Edition を無償でご利用いただくことができます。詳細はUiPath社HPにてご確認ください。

作成したアクティビティはUiPath Connectというマーケットストアに無料公開しています。


IBM Watson コグニティブサービス

IBM Watsonのコグニティブサービスは、IBM Cloud ライト・アカウント というクレジットカード不要で、期間無制限でWatsonを含めた多数のAPIとサービスが無料で使える仕組みがあります。今回利用するコグニティブサービスも無料で利用できるので、こちらを使用します。(無料利用枠の上限はありますが勝手に課金されたりはしません。)

利用するサービスは以下の通りです。

仕組みは?

UiPathには、複雑な処理を行うオリジナルのカスタム部品(カスタムアクティビティ)を作成する機能があります。
カスタムアクティビティにて、PCのスピーカー出力を取得し、IBM Watson Speech to Textにて音声データをリアルタイムでテキストに変換し、その後IBM Watson Language Translatorにて翻訳を行い、結果を画面に字幕として表示しています。

詳細は機会があれば(気が向けば)紹介しますが、ソースは以下に公開しています。C#でコードを書いて実装しています。


導入方法

IBM Cloud ライトアカウントの開設

IBM Cloudライトアカウント登録サイトよりアカウントを作成してください。

IBM Watson Speech to Text サービスの作成

Speech to Text サービスの作成画面を開きます。

リージョンは [東京] を選択し、ライトプランになっていることを確認して [作成] をクリックします。

pic1

サービスが作成されたら、 [管理] 画面を表示し、APIキーをコピーしてメモしておきます。

pic2

以上でSpeech To Textサービス作成、および作成後の管理画面で行う処理は終了です。

IBM Watson Language Translator サービスの作成

Language Translator サービスの作成画面を開きます。

リージョンは [東京] を選択し、ライトプランになっていることを確認して [作成] をクリックします。

pic3

サービスが作成されたら、 [管理] 画面を表示し、URL、APIキーをコピーしてメモしておきます。

pic4

以上でLanguage Translatorサービス作成、および作成後の管理画面で行う処理は終了です。

UiPath プロジェクト作成

UiPath Studio導入済みの前提で、プロジェクトを作成するところから説明します。

UiPath Studioで新規プロセスを作成し、プロジェクト名を「リアルタイム翻訳」としましょう。(他の名称でもいいです。お好みで)

pic5

LiveCaptionTranslator.Activitiesパッケージのセットアップ

プロジェクトが作成されたら、デザインタブ - [パッケージの管理]をクリックし、[パッケージを管理]ダイアログを表示します。
続いて [Connect] (なければ[すべてのパッケージ])を選択し、検索欄に LiveCaption と入力し、表示される LiveCaptionTranslator.Activities を選択します。右側に表示される [インストール] をクリックし、 [保存] をクリックします。

pic6

プロジェクトパネルに、[LiveCaptionTranslator.Activities]が表示されていればパッケージのセットアップは完了です。
アクティビティパネルに、 [LiveCaptionTranslator] というグループが表示され、3つのアクティビティが表示されているはずです。

pic7

UiPathワークフローの構築 & プロパティ設定

[音声認識ストリーミングスコープ] アクティビティを配置し、以下のプロパティを設定します。

プロパティ 設定値
言語モデル 英語音声の場合:en-US_BroadBandModel
日本語音声の場合:ja-JP_BroadBandModel
リージョン Tokyo(Speech To Textサービス作成時に選択したリージョン)
APIキー Speech To Text管理画面でメモしたAPIキー

pic8

② [実行]シーケンス内に [ストリーミング音声認識を開始] アクティビティを配置し、以下のプロパティを設定します。

プロパティ 設定値(翻訳機能使用) 設定値(翻訳機能不使用)
ライブ翻訳 チェックオン チェックオフ
字幕を常に最前面に表示する チェックオン チェックオン
字幕表示 チェックオン チェックオン
翻訳APIキー Language Translator管理画面でメモしたAPIキー 入力しない
翻訳Model ID 英語→日本語:“en-ja"
日本語→英語:“ja-en”
入力しない
翻訳URL Language Translator管理画面でメモしたURL 入力しない

pic9

翻訳Model IDへの設定値について詳しく知りたい方はこちらを参照

[ストリーミング音声認識を開始] アクティビティの下に [待機] アクティビティを配置し、以下プロパティを設定します。

プロパティ 設定値
待機時間 01:00:00

完成形は以下のようになっているはずです。

pic10

以上でワークフロー構築も完了です。動作確認してみましょう。

動作確認

ワークフローを実行した状態で、YouTubeやeラーニングなど、任意の動画コンテンツを再生し、字幕が表示されるか確認してみましょう。

pic11

うまく表示されましたでしょうか?うまく表示されない方は以下も確認してみてください。 上記設定ですと、1時間が経過するか、手動でワークフローを停止すると字幕表示も停止します。

字幕が表示されない場合のチェックポイント

  • リージョンがあっているか、APIキー、言語モデルが正しく入力されているか確認ください。
  • 字幕が裏側に隠れていることがあります。Alt + Tabなどで隠れている字幕フォームがあれば選択して表示してください。
  • ミュート状態だと正常に動作しませんので、音量1以上にしてください。
  • 仮想環境やVDI環境での動作確認はできていませんので、ご了承ください。

これで英語のWebinarも怖くないですね!お疲れ様でした!