取得光學字元辨識 (OCR) 見解
光學字元辨識 (OCR)
OCR 會從圖片、街道標誌和媒體檔案中的產品等影像擷取文字,以建立見解。
OCR 會從超過 50 種語言的印刷和手寫文字中擷取見解,包括來自具有多種語言文字的影像。 如需詳細資訊,請參閱 OCR 支援的語言。
如需 OCR 的詳細資訊,請參閱 OCR 技術。
OCR 使用案例
- 例如,在執法部門中,深入搜尋媒體畫面,以尋找包含路標、街道名稱或汽車車牌的影像。
- 從媒體檔案中的影像擷取文字,然後在標籤中將其翻譯成多種語言以提高可及性,例如媒體或娛樂。
- 偵測影像中的品牌名稱,並就翻譯用途將其進行標記,例如廣告和商標。
- 擷取影像中的文字,隨後會自動標記並分類以提高可及性並供未來使用,例如在通訊社產生內容。
- 擷取線上指示警告中的文字,然後翻譯文字以符合當地標準,例如使用設備的電子學習指示。
使用入口網站檢視深入解析 JSON
上傳影片並編製索引之後,您可以使用入口網站以 JSON 格式下載深入解析。
- 選取 [連結 庫] 索引標籤 。
- 選取您想要使用的媒體。
- 選取 [下載] 和 [深入解析] [JSON]。 JSON 檔案會在新的瀏覽器索引標籤開啟。
- 尋找範例回應中所述的密鑰組。
使用 API
- 使用取得 影片索引 要求。 我們建議傳遞
&includeSummarizedInsights=false
。 - 尋找範例回應中所述的密鑰組。
範例回應
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
重要
請務必閱讀 所有 VI 功能的透明度附注概觀 。 每個深入解析也有自己的透明度注意事項:
OCR 附注
- 影片索引器每個索引影片的 OCR 限制為 50,000 個字。 達到限制之後,不會產生其他 OCR 結果。
- 仔細考慮結果的正確性,促進更精確的偵測,檢查影像的品質,低品質影像可能會影響偵測到的深入解析。
- 小心考慮何時使用執法。 OCR 可能會誤讀或未偵測到部分文字。 為了確保公平且高品質的 VI 判斷,請將 OCR 型自動化與人為監督相結合。
- 擷取手寫文字時,請避免使用人類和機器難以讀取的簽章 OCR 結果。 使用 OCR 的較佳方法是將其用來偵測簽章是否存在,以進行進一步分析。
- 請勿將 OCR 用於可能對個人或群組產生嚴重負面影響的決策。 擷取文字的機器學習模型可能會導致無法偵測或不正確的文字輸出。 根據不正確的輸出做出決策可能會對必須避免的嚴重負面影響。 您應該一律包含對對個人有嚴重影響之決策的人工檢閱。
OCR 元件
在 OCR 程序期間,會處理媒體檔案中的文字影像,如下所示:
元件 | 定義 |
---|---|
來源檔案 | 使用者上傳來源檔案以編製索引。 |
讀取模型 | 影像會在媒體檔案和文字中偵測到,然後由 Azure AI 服務擷取和分析。 |
取得讀取結果模型 | 擷取文字的輸出會顯示在 JSON 檔案中。 |
信賴度值 | 每個單字的估計信賴度等級會以 0 到 1 的範圍計算。 信賴度分數代表結果正確性的確定性。 例如,82% 的確定性會以分數 0.82 表示。 |