快速入門：使用 Azure 入口網站向量化文字和影像

發行項
12/18/2024

本快速入門會協助您在 Azure 入口網站中，透過匯入並向量化資料精靈，開始使用整合向量化。此精靈會將您的內容區塊化，並呼叫內嵌模型，以在編製索引和進行查詢期間將內容向量化。

必要條件

Azure 訂用帳戶。免費建立一個。
與 Azure AI 位於相同區域中的 Azure AI 搜尋服務。建議基本層或更高階層。
支援健康情況計劃 PDF 範例文件的數據源。
支援的內嵌模型。
熟悉精靈。如需詳細資訊，請參閱匯入 Azure 入口網站中的數據精靈。

支援的資料來源

匯 入和向量化數據 精靈支持各種不同的 Azure 數據源，但本快速入門僅提供使用整個檔案的數據源的步驟：

blob 和數據表的 Azure Blob 儲存體。 Azure 儲存體，必須是標準效能 (一般用途 v2) 帳戶。存取層可以是經常性存取層、非經常性存取層和極非經常性存取層。
Azure Data Lake Storage （ADLS） Gen2 （已啟用階層命名空間的 Azure 儲存體帳戶）。您可以在 [概觀] 頁面上檢查 [屬性] 索引標籤，以確認您有 Data Lake Storage。
OneLake Lakehouse （預覽）。

支援的內嵌模型

在與 Azure AI 搜尋相同的區域中，在 Azure AI 平臺上使用內嵌模型。本文包含部署指示。

提供者	支援的模型
Azure OpenAI 服務	text-embedding-ada-002 text-embedding-3-large text-embedding-3-small
Azure AI Foundry 模型目錄	針對文字： Cohere-embed-v3-english Cohere-embed-v3-多語系版針對影像： Facebook-DinoV2-Image-Embeddings-ViT-Base Facebook-DinoV2-Image-Embeddings-ViT-Giant
Azure AI 服務多服務帳戶	適用於影像和文字向量化的 Azure AI 視覺多模式，可在選取的區域取得。根據您附加多服務資源的方式，多服務帳戶可能需要位於與 Azure AI 搜尋相同的區域中。

如果您使用 Azure OpenAI 服務，端點必須有相關聯的自定義子域。自訂子域是包含唯一名稱的端點（例如，。 https://hereismyuniquename.cognitiveservices.azure.com 如果服務是透過 Azure 入口網站建立的，此子域會自動產生為服務設定的一部分。請確定您的服務包含自定義子域，再搭配 Azure AI 搜尋整合使用。

不支援在 Azure AI Foundry 入口網站中建立的 Azure OpenAI 服務資源（可存取內嵌模型）。只有 Azure 入口網站中建立的 Azure OpenAI 服務資源與 Azure OpenAI 內嵌技能整合相容。

公用端點需求

為了本快速入門的目的，上述所有資源都必須啟用公用存取權，讓 Azure 入口網站節點可以存取它們。否則，精靈會失敗。在精靈執行之後，您可以在整合元件上啟用防火牆和私人端點以確保安全性。如需詳細資訊，請參閱在匯入精靈中保護連線。

如果私人端點已存在，而且您無法將其停用，則替代選項是從虛擬機器上的指令碼或程式來執行個別端對端流程。虛擬機器必須位於與私人端點相同的虛擬網路中。以下是適用於整合向量化的 Python 範例程式碼。相同的 GitHub 存放庫具有其他程式設計語言的範例。

權限

您可以使用金鑰驗證和完整存取連接字串，或搭配角色指派Microsoft Entra ID。我們建議將角色指派用於其他資源的搜尋服務連線。

在 Azure AI 搜尋上，啟用角色。
將您的搜尋服務設定為使用受控識別。
在您的資料來源平台和內嵌模型提供者上，建立可讓搜尋服務存取資料和模型的角色指派。準備範例數據提供設定每個支援數據源角色的指示。

免費搜尋服務支援 Azure AI 搜尋服務的角色型連線，但不支援輸出連線到 Azure 儲存體或 Azure AI 視覺的受控識別。這層支援表示您必須對免費搜尋服務與其他 Azure 服務之間的連線使用金鑰型驗證。

如需更安全的連線：

使用基本層或更高層級。
設定受控識別，並使用角色進行授權存取。

注意

如果您無法逐步完成精靈，因為其他選項無法使用 (例如，您無法選取資料來源或內嵌模型)，請重新造訪角色指派。錯誤訊息指出模型或部署不存在，然而事實上真正的原因是搜尋服務沒有存取這些模型或部署的權限。

檢查空間

如果您從免費服務開始，則限製為三個索引、數據源、技能集和索引器。基本限制為 15 個。開始之前，請先確定您有空間可容納額外的項目。本快速入門會建立各一個物件。

準備範例資料

本節將您指向適用於本快速入門的內容。

使用您的 Azure 帳戶登入 Azure 入口網站，然後前往您的 Azure 儲存體帳戶。
在左側面板中，在 [資料儲存體] 下方選取 [容器]。
建立新的容器，然後上傳本快速入門將使用的 health-plan PDF 文件。
在左邊窗格的 [存取控制] 之下，將儲存體 Blob 資料讀取器角色指派給搜尋服務身分識別。或者，從 [存取金鑰] 頁面取得儲存體帳戶的連接字串。
或者，同步處理容器中的刪除與搜尋索引中的刪除。下列後續步驟可讓您設定索引子以進行刪除偵測：
1. 在儲存體帳戶上啟用虛刪除。
2. 如果您使用原生虛刪除，則不需對 Azure 儲存體執行進一步的步驟。
3. 否則，新增自訂中繼資料，索引子可加以掃描以判斷哪些 Blob 標示為要刪除。為您的自訂屬性提供描述性名稱。例如，您可以將屬性命名為 "IsDeleted"，設為 false。針對容器中的每個 Blob 執行此動作。稍後，當您想要刪除 Blob 時，請將此屬性變更為 true。如需詳細資訊，請參閱從 Azure 儲存體檢索時變更和刪除偵測

登入 Power BI 並建立工作區。
在 Power BI 中，在左邊功能表中選取 [工作區]，然後開啟您所建立的工作區。
在工作區層級指派權限：
1. 在右上方的功能表中選取 [管理存取] 。
2. 選取 [新增人員或群組]。
3. 使用您的搜尋服務名稱。例如，如果 URL 為 https://my-demo-service.search.windows.net，則搜尋服務名稱為 my-demo-service。
4. 選取角色。預認值為 [檢視者]，但您需要 [參與者]，才能將資料提取至搜尋索引。
載入範例資料：
1. 從位於左下的 Power BI 切換器中，選取 [資料工程]。
2. 在 [資料工程] 畫面中，選取 [Lakehouse] 以建立 Lakehouse。
3. 提供一個名稱，然後選取 [建立]，以建立並開啟新的 Lakehouse。
4. 選取 [上傳檔案]，然後上傳用於本快速入門的 health-plan PDF 文件。
在您離開 Lakehouse 之前，請先複製 URL 或取得工作區和 Lakehouse 識別碼，以便您可以在精靈中指定 Lakehouse。 URL 的格式如下：https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering。

設定內嵌模型

此精靈可以使用從 Azure OpenAI、Azure AI Vision 或 Azure AI Foundry 入口網站中的模型目錄部署的內嵌模型。

精靈支援 text-embedding-ada-002、text-embedding-3-large 和 text-embedding-3-small。在內部，精靈會呼叫 AzureOpenAIEmbedding 技能以連線到 Azure OpenAI。

使用您的 Azure 帳戶登入 Azure 入口網站，然後前往您的 Azure OpenAI 資源。
設定權限：
1. 在左側功能表中，選取 [存取控制]。
2. 選取 [新增]，然後選取 [新增角色指派]。
3. 在 [作業函式角色] 底下，選取 [認知服務 OpenAI 使用者]，然後選取 [下一步]。
4. 在 [成員] 底下，選取 [受控識別]，然後選取 [成員]。
5. 依訂用帳戶和資源類型篩選 (搜尋服務)，然後選取搜尋服務的受控識別。
6. 選取檢閱+指派。
在 [概觀] 頁面上，選取 [按一下這裡以檢視端點] 和 [按一下這裏以管理金鑰]，如果您需要複製端點或 API 密鑰的話。如果您使用 Azure OpenAI 資源搭配金鑰型驗證，則可以將這些值貼入精靈中。
在 [資源管理和模型部署] 下，選取 [管理部署] 以開啟 Azure AI Foundry。
複製 text-embedding-ada-002 或另一個受支援內嵌模型的部署名稱。如果您沒有內嵌模型，請立即部署一個。

啟動精靈

使用您的 Azure 帳戶登入 Azure 入口網站，然後移至您的 Azure AI 搜尋服務。
在 [概觀] 頁面上，選取 [匯入並向量化資料]。

連線到您的資料

下一步是連接到搜尋索引要使用的資料來源。

在 [連線到您的數據] 上，選取 [Azure Blob 儲存體]。
請指定 Azure 訂用帳戶。
選擇提供資料的儲存體帳戶和容器。
指定您是否想要刪除偵測支援。在後續的編製索引回合，搜尋索引會更新，以根據 Azure 儲存體上的虛刪除 Blob 移除任何搜尋文件。
- Blob 支援原生 Blob 虛刪除或使用自訂資料進行虛刪除。
- 您先前必須在 Azure 儲存體上啟用虛刪除，並選擇性地新增自訂中繼資料，檢索作業可將其辨識為刪除旗標。如需這些步驟的詳細資訊，請參閱準備範例資料。
- 如果您設定了 Blob 要使用自訂資料進行虛刪除，請在此步驟中提供中繼資料屬性名稱/值組。我們建議提供 "IsDeleted"。如果 Blob 上的 "IsDeleted" 設定為 true，則索引子會在下一次索引子執行時卸除對應的搜尋文件。
精靈不會檢查 Azure 儲存體的設定是否有效，或在不符合需求時擲回錯誤。相反地，刪除偵測無法運作，而且您的搜尋索引可能會隨著時間收集孤立的文件。
指定您是否希望搜尋服務使用其受控識別連線到 Azure 儲存體。
- 系統會提示您選擇系統管理的或使用者管理的身分識別。
- 身分識別應該在 Azure 儲存體上具有 [儲存體 Blob 資料讀取器] 角色。
- 請勿略過此步驟。如果精靈無法連線到 Azure 儲存體，在編製索引期間發生連線錯誤。
選取 [下一步]。

將您的文字向量化

在此步驟中，指定用於向量化區塊資料的內嵌模型。

區塊化內建且不可設定。有效設定包括：

"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters"

在 [將文字向量化] 頁面上，選擇內嵌模型的來源：
- Azure OpenAI
- Azure AI Foundry 模型目錄
- 在與 Azure AI 搜尋服務相同的區域中現有的 Azure AI 視覺多模式資源。如果相同區域中沒有 Azure AI Services 多服務帳戶，則無法使用此選項。
選擇 Azure 訂用帳戶。
根據資源進行選取：
- 針對 Azure OpenAI，選擇 text-embedding-ada-002、text-embedding-3-large 或 text-embedding-3-small 的現有部署。
- 針對 Azure AI Foundry 目錄，選擇 Azure 或 Cohere 內嵌模型的現有部署。
- 針對 AI 視覺多模式內嵌，選取帳戶。
如需詳細資訊，請參閱本文前面的設定內嵌模型。
指定您是否希望搜尋服務使用 API 金鑰或受控識別進行驗證。
- 身分識別應具有 Azure AI 多服務帳戶上 [認知服務 OpenAI 使用者] 角色。
選取複選框，確認使用這些資源的計費效果。
選取 [下一步]。

向量化並擴充您的影像

健康情況計劃 PDF 包含公司標誌，但沒有影像。如果您使用範例檔，則可以略過此步驟。

不過，如果您使用包含實用影像的內容，您可以透過兩種方式來套用 AI：

使用目錄中支援的影像內嵌模型，或選擇 Azure AI 視覺多模式內嵌 API，將影像向量化。
使用光學字元辨識 (OCR) 辨識影像中的文字。此選項會叫用 OCR 技能，以從影像讀取文字。

Azure AI 搜尋服務和您的 Azure AI 資源必須位於相同的區域，或針對無密鑰計費連線進行設定。

在 [向量化您的影像] 頁面上，指定精靈應該建立的連接類型。針對影像向量化，精靈可以連線至 Azure AI Foundry 入口網站或 Azure AI 視覺中的內嵌模型。
指定訂用帳戶。
針對 Azure AI Foundry 模型目錄，指定專案和部署。如需詳細資訊，請參閱本文前面的設定內嵌模型。
您可選擇破解二進位影像 (例如文件檔案掃描)，並使用 OCR 來辨識文字。
選取複選框，確認使用這些資源的計費效果。
選取 [下一步]。

新增語意排名

在 [進階設定] 頁面上，您可以選擇性地新增 [語意排名]，以在查詢執行結束時重新產生結果。重新調整會將最相關的語意相符項目升階到最上層。

對應新欄位

此步驟的要點：

索引架構提供區塊化數據的向量和非向量欄位。
您可以新增欄位，但無法刪除或修改產生的欄位。
檔剖析模式會建立區塊（每個區塊一個搜尋檔）。

在 [ 進階設定 ] 頁面上，您可以選擇性地新增新的欄位，假設數據源提供第一個階段未挑選的元數據或字段。根據預設，精靈會產生下列具有這些屬性的欄位：

欄位	適用於	描述
chunk_id	文字和影像向量	產生的字串欄位。可搜尋、可擷取、可排序。這是索引的檔索引鍵。
text_parent_id	文字向量	產生的字串欄位。可擷取、可篩選。識別區塊的來源父檔。
chunk	文字和影像向量	字串欄位。人類可讀取的數據區塊版本。可搜尋和擷取，但無法篩選、可Facet或可排序。
title	文字和影像向量	字串欄位。人類可讀取的文件標題或頁面標題或頁碼。可搜尋和擷取，但無法篩選、可Facet或可排序。
text_vector	文字向量	集合（Edm.single）。區塊的向量表示。可搜尋和擷取，但無法篩選、可Facet或可排序。

您無法修改產生的欄位或其屬性，但如果您的資料來源提供欄位，您可以新增欄位。例如，Azure Blob 儲存體提供元數據欄位的集合。

選取新增。
從可用的欄位清單中選擇來源欄位、提供索引的功能變數名稱，並視需要接受預設資料類型或覆寫。

元數據欄位可搜尋，但無法擷取、可篩選、可 Facet 或可排序。
如果您想要將架構還原為其原始版本，請選取 [重設 ]。

排程編製索引

在 [ 進階設定 ] 頁面上，您可以選擇性地指定索引器的執行排程。

當您完成 [進階設定] 頁面時，請選取 [下一步]。

完成精靈

在 [ 檢閱您的組態 ] 頁面上，指定精靈所建立物件的前置詞。常用前置詞可協助您保持井然有序。
選取建立。

當精靈完成設定時，會建立下列物件：

資料來源連線。
具有向量欄位、向量化工具、向量設定檔，以及向量演算法的索引。您無法在精靈工作流程期間設計或修改預設索引。索引會符合 2024-05-01-preview REST API。
具有文字分割技能進行區塊化，以及具有內嵌技能進行向量化的技能集。內嵌技能是適用於 Azure OpenAI 的 AzureOpenAIEmbeddingModel 技能，或 Azure AI Foundry 模型目錄的 AML 技能。技能集也有索引投影設定，可讓資料從資料來源中的某份文件對應到其「子」索引中的對應區塊。
具有欄位對應和輸出欄位對應 (如果適用) 的索引子。

檢查結果

搜尋總管可接受輸入為文字字串，然後將文字向量化，以進行向量查詢執行。

在 Azure 入口網站中，移至 [搜尋管理]>[索引]，然後選取您所建立的索引。
選取 [查詢選項 ]，並隱藏搜尋結果中的向量值。這可讓您更輕鬆閱讀搜尋結果。

在 [檢視] 清單，選取 [JSON 檢視]，以便您將向量查詢的文字輸入 text 向量查詢參數。

默認查詢是空搜尋（"*"），但包含傳回數位相符項目的參數。這是以平行方式執行文字和向量查詢的混合式查詢。其中包含語意排名。它會指定要透過 select 語句在結果中傳回的欄位。

 {
   "search": "*",
   "count": true,
   "vectorQueries": [
     {
       "kind": "text",
       "text": "*",
       "fields": "text_vector,image_vector"
     }
   ],
   "queryType": "semantic",
   "semanticConfiguration": "my-demo-semantic-configuration",
   "captions": "extractive",
   "answers": "extractive|count-3",
   "queryLanguage": "en-us",
   "select": "chunk_id,text_parent_id,chunk,title,image_parent_id"
 }

將這兩個星號（*）佔位元取代為與健康計劃相關的問題，例如 Which plan has the lowest deductible?。

 {
   "search": "Which plan has the lowest deductible?",
   "count": true,
   "vectorQueries": [
     {
       "kind": "text",
       "text": "Which plan has the lowest deductible?",
       "fields": "text_vector,image_vector"
     }
   ],
   "queryType": "semantic",
   "semanticConfiguration": "my-demo-semantic-configuration",
   "captions": "extractive",
   "answers": "extractive|count-3",
   "queryLanguage": "en-us",
   "select": "chunk_id,text_parent_id,chunk,title"
 }

選取 [搜尋] 以執行查詢。

每個文件都是原始 PDF 的區塊。 title 欄位會顯示該區塊所屬的 PDF。每個都 chunk 相當長。您可以將一個複製並貼到文字編輯器中，以讀取整個值。

若要查看特定檔的所有區塊，請為特定 PDF 新增 title_parent_id 欄位的篩選條件。您可以檢查索引的 [ 字段 ] 索引標籤，以確認此欄位可篩選。

{
   "select": "chunk_id,text_parent_id,chunk,title",
   "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "text_vector"
       }
    ]
}

清理

Azure AI 搜尋服務是可計費的資源。如果您不再需要，請將其從您的訂用帳戶中刪除，以避免產生費用。

後續步驟

本快速入門說明匯入並向量化資料精靈，可建立整合向量化需要的所有物件。如果您希望了解每個步驟的詳細資料，請嘗試整合向量化範例。

共用方式為