Azure AI Video Indexer 概觀

發行項
10/09/2024

Azure AI Video Indexer 是一個雲端應用程式，屬於 Azure AI 服務的一部分，以 Azure AI 服務 (例如臉部、翻譯工具、Azure AI 視覺和語音) 為基礎建構。其可讓您使用 Azure AI Video Indexer 的影片與音訊模型，從影片中擷取見解。

Azure AI Video Indexer 會執行 30 個以上的 AI 模型來分析影片和音訊內容，並產生豐富的深入解析。以下是 Azure AI Video Indexer 在背景中執行的音訊和影片分析圖解：

若要開始使用 Azure AI Video Indexer 來擷取深入解析，請參閱如何開始使用一節。

Azure AI Video Indexer 有何用途？

Azure AI 影片索引器深入解析可以套用至許多案例：

深入搜尋：使用從影片中擷取的深入解析來增強影片庫的搜尋體驗。例如，為說出口的話或臉部編製索引，以啟用找出影片中特定片段的搜尋體驗，例如影片中的某人說了某個字，或兩個人一起出現在影片中的時候。以這類影片深入解析為基礎的搜尋服務適用於新聞機構、教育機構、廣播公司、娛樂事業擁有者、企業 LOB 應用程式，以及通常有影片庫讓使用者搜尋的任何產業。
建立內容：根據 Azure AI Video Indexer 從您的內容中擷取的深入解析，建立預告、精華片段、社交媒體內容或新聞剪輯。人員和標籤外觀的主要畫面格、場景標記和時間戳記，都可讓建立流程更為順暢且更容易，讓您在建立內容時可輕鬆取得所需的影片部分。
協助工具：無論您是要讓行動不便人士能夠使用您的內容，還是要將您的內容使用不同語言散發到不同區域，都可以使用 Azure AI Video Indexer 所提供的多種語言轉譯和翻譯。
創造營收：Azure AI Video Indexer 可協助提高影片的價值。例如，依賴廣告收益的產業 (新聞媒體、社交媒體等) 可以使用所擷取的深入解析作為廣告伺服器的額外訊號，來提供更為相關的廣告。
內容審核：使用文字和視覺的內容審核模型，讓您的使用者不會收到不適當的內容，並驗證您發佈的內容是否符合組織的價值觀。您可以自動封鎖特定影片，或針對該內容向使用者發出警示。
推薦：影片深入解析可藉由向使用者傳送相關影片的精華片段，來提升使用者參與度。藉由使用額外的中繼資料標記每個影片，您可以向使用者推薦最相關的影片，並傳送符合他們需求的影片精華部分。

影片/音訊 AI 功能

下列清單顯示您可以使用的 Azure AI Video Indexer 影片和音訊模型，從影片/音訊檔案中擷取的深入解析。

注意

鑒於隱私權和法規需求，其中一些功能已限制使用和/或需要授權才能充分利用。

除非另有指定，否則模型已正式推出。

影片模型

臉部偵測：偵測及分組影片中出現的臉部。
名人識別：識別 1 百萬個以上的名人，例如全球各地的世界級領導者、演員、藝人、運動員、研究人員、商人和技術領導者等。您也可以在各種網站 (IMDB、維基百科等等) 上找到這些名人的相關資料。
以帳戶為基礎的臉部辨識：可針對特定帳戶訓練模型。接著，其可根據已定型的模型來辨識影片中的人臉。如需詳細資訊，請參閱從 Azure AI Video Indexer 網站自訂人員模型和使用 Azure AI Video Indexer API 來自訂人員模型。
臉部的縮圖擷取：識別每個臉部群組中所擷取到的最佳面貌 (根據品質、大小和正面位置)，並將其擷取為影像資產。
光學字元辨識 (OCR)：擷取影像 (例如圖片、街道標誌和媒體檔案中的產品) 中的文字，以建立深入解析。
視覺內容審核：偵測成人和/或不雅的視覺效果。
標籤識別：識別顯示的視覺物件和動作。
場景分割：根據視覺提示來判斷影片中的場景何時變更。場景會描述單一事件，並且會由一系列與語義相關的連續鏡頭組成。
鏡頭分割：根據視覺提示來判斷影片中的鏡頭何時變更。鏡頭是透過相同電影攝影機所拍攝的一系列畫面格。如需詳細資訊，請參閱場景、鏡頭和主要畫面格。
黑色畫面偵測：識別影片中出現的黑色畫面。
主要畫面格擷取：偵測影片中的穩定主要畫面格。
滾動演職員表：識別電視節目和電影結束時的滾動演職員表開頭與結尾。
編輯偵測鏡頭類型：根據鏡頭的類型 (例如，寬鏡頭、中鏡頭、特寫、極度特寫、雙人鏡頭、多人、戶外和室內等等) 來為鏡頭加上標籤。如需詳細資訊，請參閱編輯鏡頭類型偵測。
觀察到的人員偵測：偵測影片中觀察到的人員，並提供資訊，例如人員在視訊畫面中的位置（使用周框方塊）和確切時間戳（開始、結束）和人員出現時的信心。如需詳細資訊，請參閱追蹤影片中觀察到的人員。
- 相符的人員：比對影片中觀察到的人與偵測到的對應臉部。觀察人員與臉部之間的比對包含信賴度等級。
- 偵測到的服裝：偵測影片中出現的服裝類型，並提供長袖、長褲、短褲、裙子或連衣裙或連衣裙等資訊。偵測到的服裝會與穿著的人員相關聯，以及提供確切的時間戳記 (開始、結束) 與偵測的信賴度等級。
- 精選服裝：擷取出現在影片中的精選服裝影像。您可以使用精選服裝深入解析來改善您的目標廣告。如需精選服裝影像的排名方式以及取得此深入解析的詳細資訊，請參閱精選服裝。
物件偵測 偵測也會追蹤的唯一物件，以便在它們返回畫面時辨識它們。請參閱 Azure AI 影片索引器對象偵測
Slate 偵測：使用進階索引選項為影片編製索引時，識別下列電影後製作深入解析：
- 具有中繼資料擷取的場記板偵測。
- 數位模式偵測，包含標準彩色條碼。
- 無文字靜態圖像偵測，包括場次比對。
如需詳細資訊，請參閱靜態圖像偵測。
文字標誌偵測：使用 Azure AI 影片索引器 OCR 比對特定預先定義的文字。例如，如果使用者建立文字標誌：「Microsoft」，則系統會將字詞「Microsoft」的不同外觀偵測為「Microsoft」標誌。如需詳細資訊，請參閱偵測文字標誌。

音訊模型

音訊轉譯：將語音轉換為超過 50 種語言的文字，並允許擴充。如需詳細資訊，請參閱Azure AI Video Indexer 語言支援。
自動語言偵測：識別主要口說語言。如需詳細資訊，請參閱Azure AI Video Indexer 語言支援。如果沒有把握能識別語言，Azure AI Video Indexer 就會假設該口說語言為英文。
多語言語音識別和轉譯：識別音訊中不同區段的口說語言。其會傳送所要轉譯媒體檔案的每個區段，然後將轉譯結果回頭合併為一個整合起來的轉譯。如需轉譯的詳細資訊，請參閱轉譯
隱藏式輔助字幕：建立三種格式的隱藏式輔助字幕：VTT、TTML、SRT。
雙通道處理：自動偵測分離的文字記錄並合併到單一時間軸。
減少雜訊：清除電話音頻或錄音雜訊 (視 Skype 的篩選條件而定)。
自訂文字記錄 (CRIS)：訓練自訂語音轉換文字模型，以建立產業特有的文字記錄。如需詳細資訊，請參閱自定義語言模型。
說話者列舉：對應和了解哪一位說話者在何時說了哪些字組。您可以在單一音訊檔案中偵測到十六個喇叭。
說話者統計資料：提供說話者語音比率的統計資料。
文字內容審核：偵測音訊文字記錄中的明確文字。
文字型情緒偵測：透過文字記錄分析偵測到的情緒，例如快樂、悲傷、憤怒和恐懼。
翻譯：為音訊文字記錄建立多種不同語言的翻譯。如需詳細資訊，請參閱Azure AI Video Indexer 語言支援。
音訊效果偵測：在內容的非語音區段中偵測到下列音訊效果：警報或警笛、狗叫、人群反應（歡呼、拍打和噓）、槍聲或爆炸、笑聲、破玻璃和沉默。

偵測到的原音事件位於隱藏式輔助字幕檔案中。您可以從 Azure AI Video Indexer 網站下載該檔案。如需詳細資訊，請參閱音訊效果偵測。

注意

只有在上傳預設中上傳檔案時選擇 [進階音訊分析] 時，才能使用完整的事件集。根據預設，只會偵測到沉默。

音訊與影片模型 (多軌剪輯)

依單軌進行編製索引時，就會提供那些模型的部分結果。

關鍵字擷取：擷取語音和視覺文字中的關鍵字。
具名實體擷取：透過自然語言處理 (NLP)，從語音和視覺文字中擷取品牌、位置和人員。
主題推斷：根據各種關鍵字擷取主題 (亦即關鍵字「證券交易所」、「華爾街」將會產生主題「經濟」)。此模型使用三種不同的本體 (IPTC、Wikipedia 和影片索引子階層式主題本體)。此模型使用轉譯 (口語)、OCR 內容 (視覺文字)，以及使用影片索引子臉部辨識模型在影片中辨識的名人。
成品：為每個模型擷取一組豐富的「下一個詳細資料層級」成品。
情感分析：識別語音和視覺文字中的正面、負面及中性情緒。

如何開始使用 Azure AI Video Indexer？

了解如何開始使用 Azure AI Video Indexer。

設定之後，開始使用深入解析並查看其他 操作指南。

合規性、隱私權和安全性

注意

Microsoft 於 2020 年 6 月 11 日宣佈，除非已制訂立基於人權的健全監管法規，否則不會將臉部辨識技術銷銷售給美國的警察部門。因此，如果客戶隸屬於美國警察部門，或允許美國警察部門使用此類服務，則客戶可能無法使用臉部識別功能或 Azure AI 服務中納入的功能 (例如「臉部索引器」或「影片索引器」)。

注意

臉部辨識、自訂和名人辨識功能的存取限制是根據資格和使用準則，以支援我們的「負責任的 AI 準則」。臉部識別、自訂和名人辨識功能僅適用於 Microsoft 受控的客戶和合作夥伴。請使用臉部辨識受理表單以申請存取。

您必須遵守使用 Azure AI 影片索引器的所有適用法律，且不得以違反他人權利或可能有害他人的方式使用 Azure AI 影片索引器或任何 Azure 服務。

將任何影片/影像上傳至 Azure AI 影片索引器之前，您必須擁有使用影片/影像的所有適當和合法權利，包括視訊/影像中個人（如果有的話）的所有必要同意，以在 Azure AI 影片索引器和 Azure 中使用、處理和儲存其數據。有些司法管轄區可能會對特定資料類別 (例如生物識別資料) 的收集、線上處理和儲存施加特殊的法律要求。在使用 Azure AI 影片索引器和 Azure 來處理和儲存任何受限於特殊法律需求的數據之前，您必須確定您的使用符合所有可能適用於您和預定用途的此類法律需求。

若要了解 Azure AI Video Indexer 中的合規性、隱私權和安全性，請造訪 Microsoft 信任中心。如需 Microsoft 的隱私權義務、資料處理和保留準則 (包括如何刪除您的資料)，請參閱 Microsoft 的隱私權聲明、線上服務條款 ("OST") 和資料處理增補 ("DPA")。一旦使用 Azure AI Video Indexer，即表示您同意受到 OST、DPA 和隱私權聲明的規範。

共用方式為