動画の音声を解析し、関連する画像を自動的に検索・挿入します。
ユーザーがアップロードした動画ファイルを読み込みます。サポートする動画フォーマットは.mp4, .avi, .movです。
動画ファイルから音声を抽出し、Google Cloud Speech-to-Text APIを使用してテキストに変換します。サポートする言語は日本語、英語です。
抽出されたテキストを用いてGoogle検索を行い、検索結果の文章を取得します。
検索結果の文章に関連する画像をGoogle画像検索を使用して取得し、最も関連性の高い画像を10件ローカルに保存します。
抽出されたテキストのタイムスタンプを基に、画像を対応する音声の位置に貼り付けます。ユーザーは貼り付ける画像の位置とサイズを指定できます。
編集した動画をユーザーがダウンロードできるように保存します。保存するファイル形式は.mp4です。
各機能の進行状況をここに表示します。