LLM プロンプトを使用した Azure AI Video Indexer
概要
Azure AI Video Indexer は、大規模言語モデル (LLM) と統合されます。 LLM は、ビデオ コンテンツなどについて質問するために使用できる自然言語 AI モデルです。 AZURE AI Video Indexer の分析情報を、LLM で簡単に使用できるプロンプトの準備完了形式に抽出します。 ビデオのプロンプト対応形式を作成するためにビデオのインデックスを再作成する必要はありません。
使用例
ビデオ要約の生成: LLM モデルにビデオまたはビデオ セグメント全体の概要を生成するように依頼できます。 これらのセグメントを組み合わせて、必要に応じて、有益な概要、ティーザー、その他の概要などのいくつかの種類の概要を作成できます。
Searchability: ビデオ コンテンツをテキストベースのプロンプト対応形式に変換することで、ビデオ コンテンツ内で詳細な自然言語検索を実行できます。 これにより、特定のクエリに基づいて大規模なビデオ ライブラリ内の検出可能性が大幅に向上します。
コンテンツの作成: 特定の感情やイベントに関連付けられているビデオ内の特定の瞬間について、ビデオ ライブラリに対してクエリを実行できます。 たとえば、ビデオ シリーズから "面白い" または "悲しい" 瞬間を取得し、これを使用してプロモーションやハイライトを作成できます。 同様に、"過去 10 年間の過去の地震" など、特定の関心事に関連する瞬間を取得できます。
教育目的: 講義ビデオから概要を作成して、学生が資料を簡単に確認して理解できるようにします。 学生は、講義資料に関連する具体的な質問をすることもできます。 この記事で説明されているビデオの正確な部分を参照して、学習エクスペリエンスをより効率的にすることができます。
対話型エクスペリエンス: ビデオ ベースのチャットボットや仮想アシスタントなどの対話型エクスペリエンスを作成し、ビデオのコンテンツに基づいてユーザー クエリに応答できます。
しくみ
出力をプロンプト対応にするには、ビデオはビデオの本質とプロンプト サイズの両方に適合するコヒーレント セクションに分割されます。 このセクションは、Azure AI Video Indexer シーンのセグメント化とその他の分析情報に基づいて分割されています。 プロンプト コンテンツの結果は統合され、セグメントごとに個別に生成されます。 次に例を示します。
分析情報
次の表に、プロンプト生成に使用される分析情報を示します。
VI 分析情報 | タグと形式 |
---|---|
ビデオのタイトル | [ビデオ タイトル] <ビデオ タイトル> |
オブジェクトの検出 | [検出されたオブジェクト] <オブジェクト 1>、 <object 2>、... |
Labels | [ビジュアル ラベル] <ラベル 1>、 <ラベル 2>、... |
OCR | [OCR] <ocr cluster1><ocr cluster2> ... |
トランスクリプトと話者 | [トランスクリプト] <speaker name>: <transcript lines>\n<speaker name>: <transcript lines>\n ... |
顔 | [既知のユーザー] <face 1>, <face 2>, ... |
オーディオ効果 (AED) | [オーディオ効果] < 効果 1>、 <effect 2>, ... |
ビデオ内でのセグメントの位置 | [タグ][開始、中間、終了、ローリング クレジット] |
ビデオのプロンプト コンテンツを作成する
インデックス付きビデオで Prompt Content API を使用して、各セグメントごとに Prompt-Ready 形式を取得します。
Note
プロンプト コンテンツの分析情報には、ビデオのインデックス作成に使用されている特定のプリセットが適用されます。
- プロンプト コンテンツ API を生成するには、 POST プロンプト コンテンツの作成 要求を使用します。
- プロンプトの内容を表示するには、 Get PromptContent 要求を使用します。
要求の例
AVI アカウント ID とビデオ ID を使用します。
POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent
応答の例
index
{
"algoVersion": "2.0.0",
"schemaVersion": "0.0.1",
"partition": null,
"name": "10_best_dressed_grammy",
"sections": [
{
"id": 0,
"start": "0:00:00",
"end": "0:00:40.915875",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY
CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
},
{
"id": 1,
"start": "0:00:40.915875",
"end": "0:01:17.202125",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
},
}
ジョブの状態の確認
プロンプト ジョブが完了するまでに数分かかります。 ジョブの状態を確認する場合は、 Get ジョブの状態 要求を使用できます。
キーフレームを使用して大きな言語モデルを視覚的に確認する
プロンプト コンテンツ要求では、プロンプトで視覚的な入力を使用できる言語モデルがサポートされています。 GPT-4V モデルを選択するときに、モデルに提供されるプロンプトの一部としてキーフレームを含めることができます。 プロンプト コンテンツ応答で返されるフレームは、ビデオのキーフレームを表します。 この機能は、ビデオのトランスクリプトが制限されているか、まったくないビデオや、結果を改善するために言語モデルにコンテキストを追加する場合に推奨されます。
プロンプト コンテンツ要求を作成して送信する
前述のように、プロンプトのテキスト コンテンツは JSON 応答にあります。 JSON 応答の "frames" 部分の各文字列は、キーフレームの ID です。 Get Video Thumbnail を使用します ThumbnailId はプロンプト コンテンツの FrameId です。 テキスト コンテンツとキーフレームアーティファクトの両方を取得したら、それらを選択した AI モデルのプロンプトとして組み合わせることができます。
制限事項
プロンプト機能は、できるだけ多くの分析情報を含むビデオ用に最適化されています。