共用方式為


取得光學字元辨識 (OCR) 見解

光學字元辨識 (OCR)

OCR 會從圖片、街道標誌和媒體檔案中的產品等影像擷取文字,以建立見解。

OCR 會從超過 50 種語言的印刷和手寫文字中擷取見解,包括來自具有多種語言文字的影像。 如需詳細資訊,請參閱 OCR 支援的語言

如需 OCR 的詳細資訊,請參閱 OCR 技術

OCR 使用案例

  • 例如,在執法部門中,深入搜尋媒體畫面,以尋找包含路標、街道名稱或汽車車牌的影像。
  • 從媒體檔案中的影像擷取文字,然後在標籤中將其翻譯成多種語言以提高可及性,例如媒體或娛樂。
  • 偵測影像中的品牌名稱,並就翻譯用途將其進行標記,例如廣告和商標。
  • 擷取影像中的文字,隨後會自動標記並分類以提高可及性並供未來使用,例如在通訊社產生內容。
  • 擷取線上指示警告中的文字,然後翻譯文字以符合當地標準,例如使用設備的電子學習指示。

使用入口網站檢視深入解析 JSON

上傳影片並編製索引之後,您可以使用入口網站以 JSON 格式下載深入解析。

  1. 選取 [連結 庫] 索引標籤
  2. 選取您想要使用的媒體。
  3. 選取 [下載] 和 [深入解析] [JSON]。 JSON 檔案會在新的瀏覽器索引標籤開啟。
  4. 尋找範例回應中所述的密鑰組。

使用 API

  1. 使用取得 影片索引 要求。 我們建議傳遞 &includeSummarizedInsights=false
  2. 尋找範例回應中所述的密鑰組。

範例回應

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

重要

請務必閱讀 所有 VI 功能的透明度附注概觀 。 每個深入解析也有自己的透明度注意事項:

OCR 附注

  • 影片索引器每個索引影片的 OCR 限制為 50,000 個字。 達到限制之後,不會產生其他 OCR 結果。
  • 仔細考慮結果的正確性,促進更精確的偵測,檢查影像的品質,低品質影像可能會影響偵測到的深入解析。
  • 小心考慮何時使用執法。 OCR 可能會誤讀或未偵測到部分文字。 為了確保公平且高品質的 VI 判斷,請將 OCR 型自動化與人為監督相結合。
  • 擷取手寫文字時,請避免使用人類和機器難以讀取的簽章 OCR 結果。 使用 OCR 的較佳方法是將其用來偵測簽章是否存在,以進行進一步分析。
  • 請勿將 OCR 用於可能對個人或群組產生嚴重負面影響的決策。 擷取文字的機器學習模型可能會導致無法偵測或不正確的文字輸出。 根據不正確的輸出做出決策可能會對必須避免的嚴重負面影響。 您應該一律包含對對個人有嚴重影響之決策的人工檢閱。

OCR 元件

在 OCR 程序期間,會處理媒體檔案中的文字影像,如下所示:

元件 定義
來源檔案 使用者上傳來源檔案以編製索引。
讀取模型 影像會在媒體檔案和文字中偵測到,然後由 Azure AI 服務擷取和分析。
取得讀取結果模型 擷取文字的輸出會顯示在 JSON 檔案中。
信賴度值 每個單字的估計信賴度等級會以 0 到 1 的範圍計算。 信賴度分數代表結果正確性的確定性。 例如,82% 的確定性會以分數 0.82 表示。

範例指令碼

查看 VI 的所有範例