共用方式為


Indexes - Create Or Update

建立新的搜尋索引,或在索引已經存在時更新索引。

PUT {endpoint}/indexes('{indexName}')?api-version=2024-05-01-preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2024-05-01-preview

URI 參數

名稱 位於 必要 類型 Description
endpoint
path True

string

搜尋服務的端點 URL。

indexName
path True

string

要建立或更新之索引的定義。

api-version
query True

string

用戶端 API 版本。

allowIndexDowntime
query

boolean

允許新的分析器、令牌化工具、令牌篩選或字元篩選新增至索引,方法是讓索引離線至少幾秒鐘。 這會暫時造成索引編製和查詢要求失敗。 在索引更新後,索引的效能和寫入可用性可能會降低數分鐘,如果是非常大的索引,則可能持續更久。

要求標頭

名稱 必要 類型 Description
x-ms-client-request-id

string

uuid

與要求一起傳送的追蹤標識碼,以協助偵錯。

If-Match

string

定義 If-Match 條件。 只有在伺服器上的 ETag 符合此值時,才會執行作業。

If-None-Match

string

定義 If-None-Match 條件。 只有在伺服器上的 ETag 不符合此值時,才會執行作業。

Prefer True

string

針對 HTTP PUT 要求,指示服務在成功時傳回已建立/更新的資源。

要求本文

名稱 必要 類型 Description
fields True

SearchField[]

索引的欄位。

name True

string

索引的名稱。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選。

corsOptions

CorsOptions

控制索引之跨原始來源資源分享 (CORS) 的選項。

defaultScoringProfile

string

如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf) 。

encryptionKey

SearchResourceEncryptionKey

您在 Azure 金鑰保存庫 中建立的加密金鑰描述。 當您想要完整保證沒有任何使用者甚至 Microsoft 可以解密數據時,此密鑰可用來為您的資料提供額外的待用加密層級。 加密數據之後,它一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於在 2019 年 1 月 1 日或之後建立的付費服務。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的正規化程式。

scoringProfiles

ScoringProfile[]

索引的評分配置檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

評分和排名符合搜尋查詢的檔時,要使用的相似度演算法類型。 相似度演算法只能在建立索引時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議工具。

tokenFilters TokenFilter[]:

索引的令牌篩選。

tokenizers LexicalTokenizer[]:

索引的Tokenizer。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

回應

名稱 類型 Description
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

ErrorResponse

錯誤回應。

範例

SearchServiceCreateOrUpdateIndex

範例要求

PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2024-05-01-preview


{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myCompressedHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "mySQ8"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine",
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey"
        }
      }
    ]
  }
}

範例回覆

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": null,
    "b": null
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myKeyName",
    "keyVaultKeyVersion": "myKeyVersion",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "semantic": {
    "defaultConfiguration": null,
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myCompressedHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "mySQ8"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey",
          "authIdentity": null
        }
      }
    ]
  }
}
{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2",
      "tokenFilters": []
    }
  ],
  "normalizers": [],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "semantic": {
    "defaultConfiguration": null,
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myCompressedHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "mySQ8"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey",
          "authIdentity": null
        }
      }
    ]
  }
}

定義

名稱 Description
AIServicesVisionParameters

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

AIServicesVisionVectorizer

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

AIStudioModelCatalogName

要呼叫的 Azure AI Studio Catalog 內嵌模型名稱。

AMLParameters

指定連接到 AML 向量化工具的屬性。

AMLVectorizer

指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。

AsciiFoldingTokenFilter

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 來實作。

AzureActiveDirectoryApplicationCredentials

為搜尋服務建立之已註冊應用程式的認證,用於驗證存取儲存在 Azure 金鑰保存庫 中的加密密鑰。

AzureOpenAIEmbeddingSkill

可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。

AzureOpenAIModelName

將呼叫的 Azure Open AI 模型名稱。

AzureOpenAIParameters

指定連線至 Azure OpenAI 資源的參數。

AzureOpenAIVectorizer

指定用來向量化查詢字串的 Azure OpenAI 資源。

BM25Similarity

以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似 TF-IDF 的演算法,包含由 'b' 參數) 所控制的長度正規化 (,以及由 'k1' 參數) 所控制的詞彙頻率飽和度 (。

CharFilterName

定義搜尋引擎支援的所有字元篩選名稱。

CjkBigramTokenFilter

Forms 從標準Tokenizer產生的CJK詞彙 bigrams。 此令牌篩選器是使用 Apache Lucene 來實作。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

ClassicSimilarity

使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調只影響僅部分符合所搜尋查詢之檔的因素。

ClassicTokenizer

適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。

CommonGramTokenFilter

在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選器是使用 Apache Lucene 來實作。

CorsOptions

定義選項,以控制索引的跨原始來源資源分享 (CORS) 。

CustomAnalyzer

可讓您控制將文字轉換成可編製索引/可搜尋標記的程式。 這是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選器所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。

CustomNormalizer

可讓您設定可篩選、可排序和可多面向字段的正規化,依預設會以嚴格比對方式運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改儲存的令牌。

CustomVectorizer

指定使用者定義的向量化程式,以產生查詢字串的內嵌向量。 使用技能集的自定義 Web API 介面來整合外部向量工具。

CustomWebApiParameters

指定連線至使用者定義向量工具的屬性。

DictionaryDecompounderTokenFilter

分解在許多日耳曼語系中找到的複合字。 此令牌篩選器是使用 Apache Lucene 來實作。

DistanceScoringFunction

定義根據地理位置距離提升分數的函式。

DistanceScoringParameters

提供距離評分函式的參數值。

EdgeNGramTokenFilter

從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。

EdgeNGramTokenFilterSide

指定應該從中產生 n-gram 的輸入端。

EdgeNGramTokenFilterV2

從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。

EdgeNGramTokenizer

將邊緣的輸入標記化為指定大小的 n-gram (s) 。 此 Tokenizer 是使用 Apache Lucene 來實作。

ElisionTokenFilter

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選器是使用 Apache Lucene 來實作。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

ErrorDetail

錯誤詳細數據。

ErrorResponse

錯誤回應

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。

FreshnessScoringFunction

定義根據日期時間欄位值提升分數的函式。

FreshnessScoringParameters

提供新式評分函式的參數值。

HnswParameters

包含 HNSW 演算法特有的參數。

HnswVectorSearchAlgorithmConfiguration

包含 HNSW 近似鄰近演算法在編製索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度與精確度之間的無法取捨。

InputFieldMappingEntry

技能的輸入欄位對應。

KeepTokenFilter

令牌篩選條件,只保留含有指定之單字清單中所含文字的標記。 此令牌篩選器是使用 Apache Lucene 來實作。

KeywordMarkerTokenFilter

將字詞標示為關鍵字。 此令牌篩選器是使用 Apache Lucene 來實作。

KeywordTokenizer

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。

KeywordTokenizerV2

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。

LengthTokenFilter

移除太長或太短的文字。 此令牌篩選器是使用 Apache Lucene 來實作。

LexicalAnalyzerName

定義搜尋引擎所支援之所有文字分析器的名稱。

LexicalNormalizerName

定義搜尋引擎所支援之所有文字正規化程序的名稱。

LexicalTokenizerName

定義搜尋引擎所支援之所有 Tokenizer 的名稱。

LimitTokenFilter

限制編製索引時的語彙基元數目。 此令牌篩選器是使用 Apache Lucene 來實作。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。

LuceneStandardTokenizer

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。

LuceneStandardTokenizerV2

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。

MagnitudeScoringFunction

定義根據數值欄位的大小提升分數的函式。

MagnitudeScoringParameters

提供參數值給量級評分函式。

MappingCharFilter

字元篩選條件,會套用以對應選項定義的對應。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選器是使用 Apache Lucene 來實作。

MicrosoftLanguageStemmingTokenizer

使用語言特有的規則來分割文字,並將字組縮減到其基本形式。

MicrosoftLanguageTokenizer

使用語言特有的規則分割文字。

MicrosoftStemmingTokenizerLanguage

清單 Microsoft 語言字幹分析令牌化程式支援的語言。

MicrosoftTokenizerLanguage

清單 Microsoft 語言令牌化程式支援的語言。

NGramTokenFilter

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

NGramTokenFilterV2

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

NGramTokenizer

將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 來實作。

OutputFieldMappingEntry

技能的輸出欄位對應。

PathHierarchyTokenizerV2

路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 來實作。

PatternAnalyzer

透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 來實作。

PatternCaptureTokenFilter

使用 Java regex 來發出多個令牌 - 一個或多個模式中的每個擷取群組各一個令牌。 此令牌篩選是使用 Apache Lucene 實作。

PatternReplaceCharFilter

字元篩選條件,取代輸入字串中的字元。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 「aa bb aa bb」 pattern 「 (aa) \s+ (bb) 」。,並取代 」$1#$2“,結果會是 ”aa#bb aa#bb“。 此字元篩選器是使用 Apache Lucene 來實作。

PatternReplaceTokenFilter

取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此令牌篩選是使用 Apache Lucene 實作。

PatternTokenizer

使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。

PhoneticEncoder

識別要搭配 PhoneticTokenFilter 使用的注音編碼器類型。

PhoneticTokenFilter

建立語音相符項目的語彙基元。 此令牌篩選是使用 Apache Lucene 實作。

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。

RegexFlags

定義可以結合的旗標,以控制在模式分析器和模式Tokenizer中使用正則表達式的方式。

ScalarQuantizationParameters

包含純量量化特有的參數。

ScalarQuantizationVectorSearchCompressionConfiguration

包含索引編製和查詢期間所使用純量量化壓縮方法專用的組態選項。

ScoringFunctionAggregation

定義匯總函式,用來合併評分配置檔中所有評分函式的結果。

ScoringFunctionInterpolation

定義用來在一系列檔中插補分數提升的函式。

ScoringProfile

定義影響搜尋查詢評分之搜尋索引的參數。

SearchField

代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。

SearchFieldDataType

定義搜尋索引中欄位的數據類型。

SearchIndex

表示搜尋索引定義,描述索引的欄位和搜尋行為。

SearchIndexerDataNoneIdentity

清除資料源的識別屬性。

SearchIndexerDataUserAssignedIdentity

指定要使用之數據源的身分識別。

SearchResourceEncryptionKey

Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。

SemanticConfiguration

定義要用於語意功能內容的特定組態。

SemanticField

做為語意設定一部分的欄位。

SemanticSettings

定義影響語意功能的搜尋索引參數。

ShingleTokenFilter

將語彙基元的組合建立為單一語彙基元。 此令牌篩選是使用 Apache Lucene 實作。

SnowballTokenFilter

使用 Snowball 產生的字幹分析器來建立字組的篩選。 此令牌篩選是使用 Apache Lucene 實作。

SnowballTokenFilterLanguage

用於 Snowball 令牌篩選的語言。

StemmerOverrideTokenFilter

提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,使其不會以字幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選是使用 Apache Lucene 實作。

StemmerTokenFilter

語言特定字幹分析篩選器。 此令牌篩選是使用 Apache Lucene 實作。

StemmerTokenFilterLanguage

要用於字幹分析器令牌篩選的語言。

StopAnalyzer

以非字母分割文字;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 來實作。

StopwordsList

識別預先定義的語言特定停用字詞清單。

StopwordsTokenFilter

從語彙基元資料流移除停用字詞。 此令牌篩選是使用 Apache Lucene 實作。

Suggester

定義建議 API 如何套用至索引中的欄位群組。

SuggesterSearchMode

值,表示建議工具的功能。

SynonymTokenFilter

比對令牌數據流中的單字或多字同義字。 此令牌篩選是使用 Apache Lucene 實作。

TagScoringFunction

定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。

TagScoringParameters

提供標記評分函式的參數值。

TextWeights

定義索引欄位的加權,其相符項目應該在搜尋查詢中提升評分。

TokenCharacterKind

表示令牌篩選可以運作的字元類別。

TokenFilterName

定義搜尋引擎所支援之所有令牌篩選的名稱。

TruncateTokenFilter

將詞彙截斷為特定長度。 此令牌篩選是使用 Apache Lucene 實作。

UaxUrlEmailTokenizer

將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 來實作。

UniqueTokenFilter

篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

VectorEncodingFormat

用於解譯向量欄位內容的編碼格式。

VectorSearch

包含與向量搜尋相關的組態選項。

VectorSearchAlgorithmKind

用於編製索引和查詢的演算法。

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。 建議選擇與已定型內嵌模型相同的相似度計量。

VectorSearchCompressionKind

用於編製索引和查詢的壓縮方法。

VectorSearchCompressionTargetDataType

壓縮向量值的量化數據類型。

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

VectorSearchVectorizerKind

查詢期間要使用的向量化方法。

WordDelimiterTokenFilter

將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。

AIServicesVisionParameters

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

名稱 類型 Description
apiKey

string

指定 AI 服務資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引的更新上,如果未指定身分識別,該值會保持不變。 如果設定為 「none」 則會清除此屬性的值。

modelVersion

string

呼叫 AI 服務視覺服務時要使用的模型版本。 其將預設為未指定時可用的最新版本。

resourceUri

string

AI 服務資源的資源 URI。

AIServicesVisionVectorizer

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

名稱 類型 Description
aiServicesVisionParameters

AIServicesVisionParameters

包含 AI 服務視覺內嵌向量化的特定參數。

kind string:

aiServicesVision

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法建立關聯的名稱。

AIStudioModelCatalogName

要呼叫的 Azure AI Studio Catalog 內嵌模型名稱。

名稱 類型 Description
Cohere-embed-v3-english

string

Cohere-embed-v3-multilingual

string

Facebook-DinoV2-Image-Embeddings-ViT-Base

string

Facebook-DinoV2-Image-Embeddings-ViT-Giant

string

OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

string

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32

string

AMLParameters

指定連接到 AML 向量化工具的屬性。

名稱 類型 Description
key

string

(金鑰驗證需要) AML 服務的金鑰。

modelName

AIStudioModelCatalogName

從部署在所提供端點的 Azure AI Studio Catalog 內嵌模型名稱。

region

string

(權杖驗證的選用項目)。 AML 服務部署所在的區域。

resourceId

string

(權杖驗證需要)。 AML 服務的 Azure Resource Manager 資源識別碼。 其格式應為 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。

timeout

string

(選擇性) 指定時,表示進行 API 呼叫的 http 用戶端逾時。

uri

string

(無驗證或金鑰驗證需要) JSON 承載將傳送到的 AML 服務的評分 URI。 僅允許 https URI 配置。

AMLVectorizer

指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。

名稱 類型 Description
amlParameters

AMLParameters

指定 AML 向量化工具的屬性。

kind string:

aml

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法建立關聯的名稱。

AsciiFoldingTokenFilter

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

preserveOriginal

boolean

False

值,指出是否保留原始令牌。 預設值為 false。

AzureActiveDirectoryApplicationCredentials

為搜尋服務建立之已註冊應用程式的認證,用於驗證存取儲存在 Azure 金鑰保存庫 中的加密密鑰。

名稱 類型 Description
applicationId

string

AAD 應用程式識別碼,授與 Azure 金鑰保存庫 所需的訪問許可權,在加密待用數據時使用。 應用程式標識碼不應與 AAD 應用程式的物件標識元混淆。

applicationSecret

string

指定 AAD 應用程式的驗證金鑰。

AzureOpenAIEmbeddingSkill

可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。

名稱 類型 Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

指定技能類型的 URI 片段。

apiKey

string

所指定 Azure OpenAI 資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。

context

string

表示作業發生的層級,例如檔根目錄或文件內容 (,例如 /document 或 /document/content) 。 預設值為 /document。

deploymentId

string

指定資源上 Azure OpenAI 模型部署的識別碼。

description

string

描述技能的描述,描述技能的輸入、輸出和使用方式。

dimensions

integer

產生的輸出內嵌應該具有的維度數目。 僅支援文字內嵌-3 和更新版本的模型。

inputs

InputFieldMappingEntry[]

技能的輸入可以是源數據集中的數據行,或是上游技能的輸出。

modelName

AzureOpenAIModelName

部署在所提供 deploymentId 路徑的內嵌模型名稱。

name

string

技能的名稱,可唯一識別技能集內的技能。 在技能陣列中,沒有定義名稱的技能會指定其以1為基底索引的預設名稱,前面加上字元'#'。

outputs

OutputFieldMappingEntry[]

技能的輸出是搜尋索引中的字段,或可供另一個技能作為輸入的值。

resourceUri

string

Azure OpenAI 資源的資源 URI。

AzureOpenAIModelName

將呼叫的 Azure Open AI 模型名稱。

名稱 類型 Description
experimental

string

text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

指定連線至 Azure OpenAI 資源的參數。

名稱 類型 Description
apiKey

string

指定之 Azure OpenAI 資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。

deploymentId

string

指定資源上 Azure OpenAI 模型部署的識別碼。

modelName

AzureOpenAIModelName

在提供的 deploymentId 路徑上部署的內嵌模型名稱。

resourceUri

string

Azure OpenAI 資源的資源 URI。

AzureOpenAIVectorizer

指定用來向量化查詢字串的 Azure OpenAI 資源。

名稱 類型 Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

包含 Azure OpenAI 內嵌向量化特有的參數。

kind string:

azureOpenAI

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法建立關聯的名稱。

BM25Similarity

以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似 TF-IDF 的演算法,包含由 'b' 參數) 所控制的長度正規化 (,以及由 'k1' 參數) 所控制的詞彙頻率飽和度 (。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

此屬性可控制檔的長度如何影響相關性分數。 根據預設,會使用 0.75 的值。 值為 0.0 表示不會套用任何長度正規化,而 1.0 的值表示分數會由文件的長度完全正規化。

k1

number

此屬性控制每個相符字詞的字詞頻率與文件查詢配對最終相關性分數之間的縮放函式。 根據預設,會使用1.2的值。 值為 0.0 表示分數不會隨著字詞頻率增加而進行調整。

CharFilterName

定義搜尋引擎支援的所有字元篩選名稱。

名稱 類型 Description
html_strip

string

嘗試移除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Forms 從標準Tokenizer產生的CJK詞彙 bigrams。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的腳本。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

outputUnigrams

boolean

False

值,指出是否要輸出 unigram 和 bigrams (如果為 true) ,或只輸出 false) 則為 bigrams (。 預設值為 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

名稱 類型 Description
han

string

當形成 CJK 詞彙的 bigram 時,請忽略 Han 腳本。

hangul

string

當形成 CJK 詞彙的 bigram 時,請忽略 Hangul 腳本。

hiragana

string

在形成 CJK 詞彙的 bigrams 時,忽略 Hiragana 腳本。

katakana

string

當形成 CJK 詞彙的 bigrams 時,請忽略片假名腳本。

ClassicSimilarity

使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調只影響僅部分符合所搜尋查詢之檔的因素。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

CommonGramTokenFilter

在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定令牌篩選類型的 URI 片段。

commonWords

string[]

一組通用字組。

ignoreCase

boolean

False

值,指出一般字組比對是否不區分大小寫。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

queryMode

boolean

False

值,指出令牌篩選是否處於查詢模式。 在查詢模式中,令牌篩選會產生 bigrams,然後移除通用單字和單一字詞,後面接著一般單字。 預設值為 false。

CorsOptions

定義選項,以控制索引的跨原始來源資源分享 (CORS) 。

名稱 類型 Description
allowedOrigins

string[]

JavaScript 程式代碼將授與索引存取權的來源清單。 可以包含 {protocol}://{完整域名}[:{port#}] 格式的主機列表,或單一 '*' 允許所有來源 (不建議) 。

maxAgeInSeconds

integer

瀏覽器應該快取 CORS 預檢回應的持續時間。 預設為5分鐘。

CustomAnalyzer

可讓您控制將文字轉換成可編製索引/可搜尋標記的程式。 這是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選器所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器類型的 URI 片段。

charFilters

CharFilterName[]

在令牌化程式處理輸入文字之前,用來準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依列出的順序執行。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

tokenFilters

TokenFilterName[]

用來篩選或修改Tokenizer所產生的令牌篩選清單。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依列出的順序執行。

tokenizer

LexicalTokenizerName

用來將連續文字分割成一連串標記的Tokenizer名稱,例如將句子分成單字。

CustomNormalizer

可讓您設定可篩選、可排序和可多面向字段的正規化,依預設會以嚴格比對方式運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改儲存的令牌。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

指定正規化程序類型的 URI 片段。

charFilters

CharFilterName[]

用來在處理輸入文字之前準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依列出的順序執行。

name

string

正規化程序的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不能命名為 'asciifolding'、'standard'、'lowercase'、'uppercase' 或 'elision'。

tokenFilters

TokenFilterName[]

用來篩選出或修改輸入令牌的令牌篩選清單。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依列出的順序執行。

CustomVectorizer

指定使用者定義的向量化程式,以產生查詢字串的內嵌向量。 使用技能集的自定義 Web API 介面來整合外部向量工具。

名稱 類型 Description
customWebApiParameters

CustomWebApiParameters

指定使用者定義向量工具的屬性。

kind string:

customWebApi

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法建立關聯的名稱。

CustomWebApiParameters

指定連線至使用者定義向量工具的屬性。

名稱 類型 Description
authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引器的更新上,如果未指定身分識別,該值會保持不變。 如果設定為 「none」 則會清除此屬性的值。

authResourceId

string

適用於連線至 Azure 函式中外部程式代碼的自定義端點,或提供轉換的一些其他應用程式。 此值應該是在向 Azure Active Directory 註冊函式或應用程式時所建立的應用程式識別碼。 指定時,向量化會使用受控標識碼連接到函式或應用程式, (系統或使用者指派的搜尋服務) ,並使用此值作為建立存取令牌範圍的資源標識符。

httpHeaders

object

提出 HTTP 要求所需的標頭。

httpMethod

string

HTTP 要求的方法。

timeout

string

要求所需的逾時。 預設值為 30 秒。

uri

string

提供向量化工具之 Web API 的 URI。

DictionaryDecompounderTokenFilter

分解在許多日耳曼語系中找到的複合字。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定令牌篩選類型的 URI 片段。

maxSubwordSize

integer

15

子字大小上限。 只會輸出比這個 短的子字詞。 預設值為 15。 最大值為300。

minSubwordSize

integer

2

子字大小下限。 只會輸出超過這個的子字詞。 預設值為 2。 最大值為300。

minWordSize

integer

5

字大小下限。 只處理超過這個的字組。 預設值為 5。 最大值為300。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

onlyLongestMatch

boolean

False

值,指出是否只將最長相符的子字詞新增至輸出。 預設值為 false。

wordList

string[]

要比對的單字清單。

DistanceScoringFunction

定義根據地理位置距離提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

distance

DistanceScoringParameters

距離評分函式的參數值。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

type string:

distance

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

DistanceScoringParameters

提供距離評分函式的參數值。

名稱 類型 Description
boostingDistance

number

從提升範圍結束的參考位置,以公里為單位的距離。

referencePointParameter

string

在搜尋查詢中傳遞的參數名稱,以指定參考位置。

EdgeNGramTokenFilter

從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

side

EdgeNGramTokenFilterSide

front

指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。

EdgeNGramTokenFilterSide

指定應該從中產生 n-gram 的輸入端。

名稱 類型 Description
back

string

指定應該從輸入背面產生 n-gram。

front

string

指定應該從輸入前端產生 n-gram。

EdgeNGramTokenFilterV2

從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

side

EdgeNGramTokenFilterSide

front

指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。

EdgeNGramTokenizer

將邊緣的輸入標記化為指定大小的 n-gram (s) 。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定 Tokenizer 類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

tokenChars

TokenCharacterKind[]

要保留在標記中的字元類別。

ElisionTokenFilter

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定令牌篩選類型的 URI 片段。

articles

string[]

要移除的發行項集合。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

名稱 類型 Description
info

object

其他資訊。

type

string

其他信息類型。

ErrorDetail

錯誤詳細數據。

名稱 類型 Description
additionalInfo

ErrorAdditionalInfo[]

錯誤其他資訊。

code

string

錯誤碼。

details

ErrorDetail[]

錯誤詳細資料。

message

string

錯誤訊息。

target

string

錯誤目標。

ErrorResponse

錯誤回應

名稱 類型 Description
error

ErrorDetail

error 物件。

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

名稱 類型 Description
metric

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。

名稱 類型 Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

kind string:

exhaustiveKnn

要與向量搜尋搭配使用的演算法類型名稱。

name

string

要與此特定組態建立關聯的名稱。

FreshnessScoringFunction

定義根據日期時間欄位值提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

fieldName

string

做為評分函式輸入的功能變數名稱。

freshness

FreshnessScoringParameters

最新評分函式的參數值。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

type string:

freshness

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

FreshnessScoringParameters

提供新式評分函式的參數值。

名稱 類型 Description
boostingDuration

string

到期期間之後,特定檔將會停止提升。

HnswParameters

包含 HNSW 演算法特有的參數。

名稱 類型 預設值 Description
efConstruction

integer

400

包含最接近鄰近的動態清單大小,在索引時間期間使用。 增加此參數可能會改善索引品質,但代價是編製索引時間增加。 在特定時間點,增加此參數會導致傳回減少。

efSearch

integer

500

動態清單的大小,其中包含搜尋期間所使用的最接近鄰近專案。 增加此參數可能會改善搜尋結果,但代價是搜尋速度較慢。 在特定時間點,增加此參數會導致傳回減少。

m

integer

4

建構期間針對每個新專案建立的雙向連結數目。 增加此參數值可改善回收次數,並減少具有高內建維度的數據集擷取時間,代價是記憶體耗用量增加和編製索引時間較長。

metric

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

HnswVectorSearchAlgorithmConfiguration

包含 HNSW 近似鄰近演算法在編製索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度與精確度之間的無法取捨。

名稱 類型 Description
hnswParameters

HnswParameters

包含 HNSW 演算法特有的參數。

kind string:

hnsw

要與向量搜尋搭配使用的演算法類型名稱。

name

string

要與此特定組態建立關聯的名稱。

InputFieldMappingEntry

技能的輸入欄位對應。

名稱 類型 Description
inputs

InputFieldMappingEntry[]

建立複雜類型時所使用的遞歸輸入。

name

string

輸入的名稱。

source

string

輸入的來源。

sourceContext

string

用於選取遞歸輸入的來源內容。

KeepTokenFilter

令牌篩選條件,只保留含有指定之單字清單中所含文字的標記。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定令牌篩選類型的 URI 片段。

keepWords

string[]

要保留的單字清單。

keepWordsCase

boolean

False

值,指出是否要先小寫所有字。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

KeywordMarkerTokenFilter

將字詞標示為關鍵字。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreCase

boolean

False

值,指出是否忽略大小寫。 如果為 true,則會先將所有字組轉換成小寫。 預設值為 false。

keywords

string[]

要標示為關鍵詞的單字清單。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

KeywordTokenizer

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定 Tokenizer 類型的 URI 片段。

bufferSize

integer

256

以位元組為單位的讀取緩衝區大小。 預設值為 256。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

KeywordTokenizerV2

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

256

令牌長度上限。 預設值為 256。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LengthTokenFilter

移除太長或太短的文字。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定令牌篩選類型的 URI 片段。

max

integer

300

字元的最大長度。 預設值和最大值為 300。

min

integer

0

字元的最小長度。 預設值為 0。 最大值為300。 必須小於 max的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LexicalAnalyzerName

定義搜尋引擎所支援之所有文字分析器的名稱。

名稱 類型 Description
ar.lucene

string

阿拉伯文的 Lucene 分析器。

ar.microsoft

string

阿拉伯文的 Microsoft 分析器。

bg.lucene

string

適用於保加利亞的 Lucene 分析器。

bg.microsoft

string

適用於保加利亞文的 Microsoft 分析器。

bn.microsoft

string

適用於孟加拉國的 Microsoft 分析器。

ca.lucene

string

卡達尼亞文的 Lucene 分析器。

ca.microsoft

string

適用於卡達尼亞文的 Microsoft 分析器。

cs.lucene

string

適用於捷克文的 Lucene 分析器。

cs.microsoft

string

適用於捷克文的 Microsoft 分析器。

da.lucene

string

丹麥文的 Lucene 分析器。

da.microsoft

string

適用於丹麥文的 Microsoft 分析器。

de.lucene

string

德文的 Lucene 分析器。

de.microsoft

string

適用於德文的 Microsoft 分析器。

el.lucene

string

希臘文的 Lucene 分析器。

el.microsoft

string

適用於希臘文的 Microsoft 分析器。

en.lucene

string

適用於英文的 Lucene 分析器。

en.microsoft

string

適用於英文的 Microsoft 分析器。

es.lucene

string

西班牙文的 Lucene 分析器。

es.microsoft

string

適用於西班牙文的 Microsoft 分析器。

et.microsoft

string

適用於愛沙尼亞文的 Microsoft 分析器。

eu.lucene

string

適用於 Basque 的 Lucene 分析器。

fa.lucene

string

適用於波斯文的 Lucene 分析器。

fi.lucene

string

芬蘭文的 Lucene 分析器。

fi.microsoft

string

適用於芬蘭文的 Microsoft 分析器。

fr.lucene

string

法文的 Lucene 分析器。

fr.microsoft

string

適用於法文的 Microsoft 分析器。

ga.lucene

string

適用於愛爾蘭的 Lucene 分析器。

gl.lucene

string

Galician 的 Lucene 分析器。

gu.microsoft

string

適用於 Gujarati 的 Microsoft 分析器。

he.microsoft

string

適用於希伯來文的 Microsoft 分析器。

hi.lucene

string

適用於印度文的 Lucene 分析器。

hi.microsoft

string

適用於印度文的 Microsoft 分析器。

hr.microsoft

string

適用於克羅埃西亞的 Microsoft 分析器。

hu.lucene

string

適用於匈牙利文的 Lucene 分析器。

hu.microsoft

string

適用於匈牙利文的 Microsoft 分析器。

hy.lucene

string

適用於亞美尼亞文的 Lucene 分析器。

id.lucene

string

適用於印尼文的 Lucene 分析器。

id.microsoft

string

適用於印尼文的 Microsoft 分析器 (Bahasa) 。

is.microsoft

string

適用於挪威文的 Microsoft 分析器。

it.lucene

string

義大利文的 Lucene 分析器。

it.microsoft

string

義大利文的 Microsoft 分析器。

ja.lucene

string

適用於日文的 Lucene 分析器。

ja.microsoft

string

適用於日文的 Microsoft 分析器。

keyword

string

將欄位的整個內容視為單一語彙基元。 這適合用於郵遞區號、識別碼和產品名稱等資料。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

適用於 Kannada 的 Microsoft 分析器。

ko.lucene

string

韓文的 Lucene 分析器。

ko.microsoft

string

適用於韓文的 Microsoft 分析器。

lt.microsoft

string

適用於立陶宛文的 Microsoft 分析器。

lv.lucene

string

適用於義大利文的 Lucene 分析器。

lv.microsoft

string

適用於義大利文的 Microsoft 分析器。

ml.microsoft

string

Microsoft Analyzer for馬來亞蘭文。

mr.microsoft

string

適用於 Marathi 的 Microsoft 分析器。

ms.microsoft

string

Microsoft Analyzer for 馬來亞文 (拉丁) 。

nb.microsoft

string

適用於挪威文的 Microsoft 分析器 (Bokmål) 。

nl.lucene

string

荷蘭文的 Lucene 分析器。

nl.microsoft

string

適用於荷蘭文的 Microsoft 分析器。

no.lucene

string

挪威文的 Lucene 分析器。

pa.microsoft

string

適用於 Punjabi 的 Microsoft 分析器。

pattern

string

透過規則運算式模式彈性地將文字分割成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

波蘭文的 Lucene 分析器。

pl.microsoft

string

適用於波蘭文的 Microsoft 分析器。

pt-BR.lucene

string

葡萄牙文 (巴西) Lucene 分析器。

pt-BR.microsoft

string

巴西) 葡萄牙文 (Microsoft 分析器。

pt-PT.lucene

string

葡萄牙文 (葡萄牙文) 的 Lucene 分析器。

pt-PT.microsoft

string

葡萄牙 (葡萄牙) 的 Microsoft 分析器。

ro.lucene

string

適用於羅馬尼亞文的 Lucene 分析器。

ro.microsoft

string

適用於羅馬尼亞文的 Microsoft 分析器。

ru.lucene

string

適用於俄文的 Lucene 分析器。

ru.microsoft

string

適用於俄文的 Microsoft 分析器。

simple

string

在非字母的位置分割文字,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

適用於斯洛伐克文的 Microsoft 分析器。

sl.microsoft

string

斯洛維尼亞文的 Microsoft 分析器。

sr-cyrillic.microsoft

string

適用於塞爾維亞文 (斯拉夫) 的 Microsoft 分析器。

sr-latin.microsoft

string

適用於塞爾維亞文 (拉丁) 的 Microsoft 分析器。

standard.lucene

string

標準 Lucene 分析器。

standardasciifolding.lucene

string

標準 ASCII 折疊 Lucene 分析器。 請參閱 https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

以非字母分割文字;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

瑞典文的 Lucene 分析器。

sv.microsoft

string

適用於瑞典文的 Microsoft 分析器。

ta.microsoft

string

適用於 Tamil 的 Microsoft 分析器。

te.microsoft

string

適用於 Telugu 的 Microsoft 分析器。

th.lucene

string

泰文的 Lucene 分析器。

th.microsoft

string

適用於泰文的 Microsoft 分析器。

tr.lucene

string

適用於土耳其文的 Lucene 分析器。

tr.microsoft

string

適用於土耳其文的 Microsoft 分析器。

uk.microsoft

string

適用於烏克蘭的 Microsoft 分析器。

ur.microsoft

string

適用於 Urdu 的 Microsoft 分析器。

vi.microsoft

string

適用於越南文的 Microsoft 分析器。

whitespace

string

使用 whitespace Token 化工具的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

適用於簡體中文 () 的 Lucene 分析器。

zh-Hans.microsoft

string

適用於簡體中文 () 的 Microsoft 分析器。

zh-Hant.lucene

string

中文 (繁體中文) 的 Lucene 分析器。

zh-Hant.microsoft

string

適用於繁體中文 (的 Microsoft 分析器) 。

LexicalNormalizerName

定義搜尋引擎所支援之所有文字正規化程序的名稱。

名稱 類型 Description
asciifolding

string

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

將標記文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

標準正規化程式,由小寫和 asciifolding 所組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

將標記文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定義搜尋引擎所支援之所有 Tokenizer 的名稱。

名稱 類型 Description
classic

string

適用於處理大部分歐洲語言檔的文法型Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

將邊緣的輸入令牌化為指定大小 (s) 的 n-gram。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

以單一語彙基元的形式發出整個輸入。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

在非字母的位置上分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

在非字母的位置分割文字,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

使用語言特有的規則來分割文字,並將字組縮減到其基本形式。

microsoft_language_tokenizer

string

使用語言特有的規則分割文字。

nGram

string

將輸入 Token 化到指定的 n-gram 大小。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

路徑類階層的 Token 化工具。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

使用 regex 模式比對來建構不同令牌的 Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

標準 Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

將 URL 和電子郵件 Token 化為一個語彙基元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

在空白字元處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

限制編製索引時的語彙基元數目。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定令牌篩選類型的 URI 片段。

consumeAllTokens

boolean

False

值,指出是否必須取用輸入中的所有令牌,即使達到 maxTokenCount 也一樣。 預設值為 false。

maxTokenCount

integer

1

要產生的令牌數目上限。 預設值為 1。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

stopwords

string[]

停用字詞的清單。

LuceneStandardTokenizer

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LuceneStandardTokenizerV2

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MagnitudeScoringFunction

定義根據數值欄位的大小提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

magnitude

MagnitudeScoringParameters

量級評分函式的參數值。

type string:

magnitude

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

MagnitudeScoringParameters

提供參數值給量級評分函式。

名稱 類型 Description
boostingRangeEnd

number

提升結束的域值。

boostingRangeStart

number

啟動提升的域值。

constantBoostBeyondRange

boolean

值,指出是否為超出範圍結束值的域值套用常數提升;默認值為 false。

MappingCharFilter

字元篩選條件,會套用以對應選項定義的對應。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字元篩選類型的 URI 片段。

mappings

string[]

下列格式的對應清單:「a=>b」 (所有出現的字元 「a」 都會取代為字元 「b」 ) 。

name

string

char 篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MicrosoftLanguageStemmingTokenizer

使用語言特有的規則來分割文字,並將字組縮減到其基本形式。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定 Tokenizer 類型的 URI 片段。

isSearchTokenizer

boolean

False

值,表示如何使用Tokenizer。 如果當做搜尋Tokenizer使用,請將 設定為 true,如果用來作為索引標記化程式,則設定為 false。 預設值為 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer

255

令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌會根據設定的令牌長度上限來分割。 預設值為 255。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MicrosoftLanguageTokenizer

使用語言特有的規則分割文字。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定 Tokenizer 類型的 URI 片段。

isSearchTokenizer

boolean

False

值,表示如何使用Tokenizer。 如果當做搜尋Tokenizer使用,請將 設定為 true,如果用來作為索引標記化程式,則設定為 false。 預設值為 false。

language

MicrosoftTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer

255

令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌會根據設定的令牌長度上限來分割。 預設值為 255。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MicrosoftStemmingTokenizerLanguage

清單 Microsoft 語言字幹分析令牌化程式支援的語言。

名稱 類型 Description
arabic

string

選取阿拉伯文的 Microsoft 字幹分析標記化程式。

bangla

string

選取 Microsoft stemming tokenizer for Bangla。

bulgarian

string

選取適用於保加利亞文的 Microsoft 字幹分析令牌化程式。

catalan

string

選取卡達尼亞文的 Microsoft 字幹分析令牌化程式。

croatian

string

選取適用於克羅埃西亞文的 Microsoft 字幹分析令牌化程式。

czech

string

選取適用於捷克文的 Microsoft 字幹分析令牌化程式。

danish

string

選取丹麥文的 Microsoft 字幹分析令牌化程式。

dutch

string

選取荷蘭文的 Microsoft 字幹分析令牌化程式。

english

string

選取英文版的 Microsoft 字幹分析令牌化程式。

estonian

string

選取適用於愛沙尼亞文的 Microsoft 字幹分析令牌化程式。

finnish

string

選取芬蘭文的 Microsoft 字幹分析令牌化程式。

french

string

選取法文的 Microsoft 字幹分析令牌化程式。

german

string

選取德文的 Microsoft 字幹分析令牌化程式。

greek

string

選取希臘文的 Microsoft 字幹分析 Tokenizer。

gujarati

string

選取 Gujarati 的 Microsoft 字幹分析令牌化程式。

hebrew

string

選取希伯來文的 Microsoft 字幹分析令牌化程式。

hindi

string

選取印度文的 Microsoft 字幹分析令牌化程式。

hungarian

string

選取適用於匈牙利文的 Microsoft 字幹分析令牌化程式。

icelandic

string

選取適用於愛爾蘭文的 Microsoft 字幹分析令牌化程式。

indonesian

string

選取印尼文的 Microsoft 字幹分析令牌化程式。

italian

string

選取義大利文的 Microsoft 字幹分析令牌化程式。

kannada

string

選取 Kannada 的 Microsoft 字幹分析令牌化程式。

latvian

string

選取適用於義大利文的 Microsoft 字幹分析令牌化程式。

lithuanian

string

選取適用於波蘭文的 Microsoft 字幹分析令牌化程式。

malay

string

選取馬來文的 Microsoft 字幹分析令牌化程式。

malayalam

string

選取馬來亞文的 Microsoft 字幹分析令牌化程式。

marathi

string

選取 Marathi 的 Microsoft 字幹分析令牌化程式。

norwegianBokmaal

string

選取挪威文 (Bokmål) 的 Microsoft 字幹分析令牌化程式。

polish

string

選取波蘭文的 Microsoft 字幹分析令牌化工具。

portuguese

string

選取葡萄牙文的 Microsoft 字幹分析令牌化程式。

portugueseBrazilian

string

選取葡萄牙文 (巴西) 的 Microsoft 字幹分析令牌化程式。

punjabi

string

選取適用於 Punjabi 的 Microsoft 字幹分析令牌化程式。

romanian

string

選取適用於羅馬尼亞文的 Microsoft 字幹分析令牌化程式。

russian

string

選取俄文的 Microsoft 字幹分析令牌化程式。

serbianCyrillic

string

選取塞爾維亞文 (斯拉夫文) 的 Microsoft 字幹分析標記工具。

serbianLatin

string

選取塞爾維亞文 (拉丁文) 的 Microsoft 字幹分析標記工具。

slovak

string

選取適用於斯洛伐克文的 Microsoft 字幹分析令牌化程式。

slovenian

string

為斯洛維尼亞選取 Microsoft 字幹分析令牌化程式。

spanish

string

選取西班牙文的 Microsoft 字幹分析令牌化程式。

swedish

string

選取瑞典文的 Microsoft 字幹分析令牌化程式。

tamil

string

為 Tamil 選取 Microsoft 字幹分析令牌化程式。

telugu

string

選取 Telugu 的 Microsoft 字幹分析令牌化程式。

turkish

string

選取土耳其文的 Microsoft 字幹分析令牌化程式。

ukrainian

string

選取適用於烏克蘭文的 Microsoft 字幹分析令牌化程式。

urdu

string

選取 Urdu 的 Microsoft 字幹分析令牌化程式。

MicrosoftTokenizerLanguage

清單 Microsoft 語言令牌化程式支援的語言。

名稱 類型 Description
bangla

string

選取 Microsoft Tokenizer for Bangla。

bulgarian

string

選取適用於保加利亞的 Microsoft Tokenizer。

catalan

string

選取卡達尼亞文的 Microsoft Tokenizer。

chineseSimplified

string

針對簡體中文 () 選取 Microsoft Tokenizer。

chineseTraditional

string

針對繁體中文 (選取 Microsoft Tokenizer) 。

croatian

string

選取適用於克羅埃西亞文的 Microsoft Tokenizer。

czech

string

選取適用於捷克文的 Microsoft Tokenizer。

danish

string

選取丹麥文的 Microsoft Tokenizer。

dutch

string

選取荷蘭文的 Microsoft Tokenizer。

english

string

選取適用於英文的 Microsoft Tokenizer。

french

string

選取適用於法文的 Microsoft Tokenizer。

german

string

選取德文的 Microsoft Tokenizer。

greek

string

選取希臘文的 Microsoft Tokenizer。

gujarati

string

選取 Gujarati 的 Microsoft Tokenizer。

hindi

string

選取印度文的 Microsoft Tokenizer。

icelandic

string

選取適用於挪威文的 Microsoft Tokenizer。

indonesian

string

選取印尼文的 Microsoft Tokenizer。

italian

string

選取義大利文的 Microsoft Tokenizer。

japanese

string

選取適用於日文的 Microsoft Tokenizer。

kannada

string

選取 Kannada 的 Microsoft Tokenizer。

korean

string

選取韓文的 Microsoft Tokenizer。

malay

string

選取馬來文的 Microsoft Tokenizer。

malayalam

string

選取馬來亞文的 Microsoft Tokenizer。

marathi

string

選取 Marathi 的 Microsoft Tokenizer。

norwegianBokmaal

string

選取挪威文 (Bokmål) 的 Microsoft Tokenizer。

polish

string

選取波蘭文的 Microsoft Tokenizer。

portuguese

string

選取葡萄牙文的 Microsoft Tokenizer。

portugueseBrazilian

string

選取葡萄牙文 (巴西) 的 Microsoft Tokenizer。

punjabi

string

選取適用於 Punjabi 的 Microsoft Tokenizer。

romanian

string

選取適用於羅馬尼亞文的 Microsoft Tokenizer。

russian

string

選取俄文的 Microsoft Tokenizer。

serbianCyrillic

string

選取塞爾維亞文 (斯拉夫文) 的 Microsoft Tokenizer。

serbianLatin

string

選取塞爾維亞文 (拉丁文) 的 Microsoft Tokenizer。

slovenian

string

選取斯洛維尼亞文的 Microsoft Tokenizer。

spanish

string

選取西班牙文的 Microsoft Tokenizer。

swedish

string

選取瑞典文的 Microsoft Tokenizer。

tamil

string

選取適用於 Tamil 的 Microsoft Tokenizer。

telugu

string

選取 Telugu 的 Microsoft Tokenizer。

thai

string

選取泰文的 Microsoft Tokenizer。

ukrainian

string

選取適用於烏克蘭文的 Microsoft Tokenizer。

urdu

string

選取 Urdu 的 Microsoft Tokenizer。

vietnamese

string

選取適用於越南文的 Microsoft Tokenizer。

NGramTokenFilter

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

NGramTokenFilterV2

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

NGramTokenizer

將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定 Tokenizer 類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

tokenChars

TokenCharacterKind[]

要保留在標記中的字元類別。

OutputFieldMappingEntry

技能的輸出欄位對應。

名稱 類型 Description
name

string

技能所定義的輸出名稱。

targetName

string

輸出的目標名稱。 這是選擇性的,預設為 name。

PathHierarchyTokenizerV2

路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定 Tokenizer 類型的 URI 片段。

delimiter

string

/

要使用的分隔符。 預設值為 “/”。

maxTokenLength

integer

300

令牌長度上限。 預設值和最大值為 300。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

replacement

string

/

值,如果設定,則會取代分隔符。 預設值為 “/”。

reverse

boolean

False

值,指出是否要以反向順序產生令牌。 預設值為 false。

skip

integer

0

要略過的初始令牌數目。 預設值為 0。

PatternAnalyzer

透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器類型的 URI 片段。

flags

RegexFlags

正則表達式旗標。

lowercase

boolean

True

值,指出字詞是否應為小寫。 預設值為 true。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

\W+

符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。

stopwords

string[]

停用字詞的清單。

PatternCaptureTokenFilter

使用 Java regex 來發出多個令牌 - 一個或多個模式中的每個擷取群組各一個令牌。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

patterns

string[]

要與每個令牌相符的模式清單。

preserveOriginal

boolean

True

值,指出是否要傳回原始令牌,即使其中一個模式相符也一樣。 預設值為 true。

PatternReplaceCharFilter

字元篩選條件,取代輸入字串中的字元。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 「aa bb aa bb」 pattern 「 (aa) \s+ (bb) 」。,並取代 」$1#$2“,結果會是 ”aa#bb aa#bb“。 此字元篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字元篩選類型的 URI 片段。

name

string

char 篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

正則表達式模式。

replacement

string

取代文字。

PatternReplaceTokenFilter

取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

正則表達式模式。

replacement

string

取代文字。

PatternTokenizer

使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定 Tokenizer 類型的 URI 片段。

flags

RegexFlags

正則表達式旗標。

group

integer

-1

正則表達式模式中相符群組的以零起始序數,以擷取到標記中。 如果您想要使用整個模式將輸入分割成令牌,而不論相符的群組為何,請使用 -1。 預設值為 -1。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

\W+

符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。

PhoneticEncoder

識別要搭配 PhoneticTokenFilter 使用的注音編碼器類型。

名稱 類型 Description
beiderMorse

string

將令牌編碼為 Beider-Morse 值。

caverphone1

string

將令牌編碼為 Caverphone 1.0 值。

caverphone2

string

將令牌編碼為 Caverphone 2.0 值。

cologne

string

將令牌編碼為「行動語音」值。

doubleMetaphone

string

將令牌編碼為雙元語音值。

haasePhonetik

string

使用 Kölner Phonetik 演算法的 Haase 精簡功能來編碼令牌。

koelnerPhonetik

string

使用 Kölner Phonetik 演演算法編碼令牌。

metaphone

string

將令牌編碼為 Metaphone 值。

nysiis

string

將令牌編碼為 NYSIIS 值。

refinedSoundex

string

將令牌編碼為 Refined Soundex 值。

soundex

string

將令牌編碼為 Soundex 值。

PhoneticTokenFilter

建立語音相符項目的語彙基元。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定令牌篩選類型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的注音編碼器。 預設值為 「metaphone」。。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

replace

boolean

True

值,指出編碼的令牌是否應該取代原始令牌。 如果為 false,編碼的令牌會新增為同義字。 預設值為 true。

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。

名稱 類型 Description
prioritizedContentFields

SemanticField[]

定義要用於語意排名、標題、醒目提示和答案的內容欄位。 為了獲得最佳結果,選取的字段應該包含自然語言格式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,則具有較低優先順序的欄位可能會遭到截斷。

prioritizedKeywordsFields

SemanticField[]

定義要用於語意排名、標題、醒目提示和答案的關鍵詞欄位。 為了獲得最佳結果,選取的字段應該包含關鍵詞清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,則具有較低優先順序的欄位可能會遭到截斷。

titleField

SemanticField

定義要用於語意排名、標題、醒目提示和答案的標題字段。 如果您的索引中沒有標題字段,請將此欄位保留空白。

RegexFlags

定義可以結合的旗標,以控制在模式分析器和模式Tokenizer中使用正則表達式的方式。

名稱 類型 Description
CANON_EQ

string

啟用標準等價。

CASE_INSENSITIVE

string

啟用不區分大小寫的比對。

COMMENTS

string

允許模式中的空格元和批注。

DOTALL

string

啟用 dotall 模式。

LITERAL

string

啟用模式的常值剖析。

MULTILINE

string

啟用多行模式。

UNICODE_CASE

string

啟用 Unicode 感知大小寫折疊。

UNIX_LINES

string

啟用 Unix 行模式。

ScalarQuantizationParameters

包含純量量化特有的參數。

名稱 類型 Description
quantizedDataType

VectorSearchCompressionTargetDataType

壓縮向量值的量化數據類型。

ScalarQuantizationVectorSearchCompressionConfiguration

包含索引編製和查詢期間所使用純量量化壓縮方法專用的組態選項。

名稱 類型 預設值 Description
defaultOversampling

number

默認過度取樣因數。 過度取樣會在內部要求更多檔, (這個乘數) 在初始搜尋中指定。 這會增加使用完整精確度向量重新計算相似度分數來重新計算的結果集。 最小值為 1,表示沒有過度取樣 (1x) 。 只有在 rerankWithOriginalVectors 為 true 時,才能設定此參數。 較高的值會提高回收率,但代價是延遲。

kind string:

scalarQuantization

要設定用於向量搜尋的壓縮方法類型名稱。

name

string

要與此特定組態建立關聯的名稱。

rerankWithOriginalVectors

boolean

True

如果設定為 true,一旦取得使用壓縮向量計算的已排序結果集之後,就會重新計算完整精確度相似度分數來重新叫用結果集。 這可改善回收時間,但代價是延遲。

scalarQuantizationParameters

ScalarQuantizationParameters

包含純量量化特有的參數。

ScoringFunctionAggregation

定義匯總函式,用來合併評分配置檔中所有評分函式的結果。

名稱 類型 Description
average

string

依所有評分函式結果的平均值提升分數。

firstMatching

string

使用評分配置檔中的第一個適用評分函式來提升分數。

maximum

string

將所有評分函式結果的最大值提升分數。

minimum

string

將所有評分函式結果的最小值提升分數。

sum

string

依所有評分函式結果的總和提升分數。

ScoringFunctionInterpolation

定義用來在一系列檔中插補分數提升的函式。

名稱 類型 Description
constant

string

以常數因素提升分數。

linear

string

以線性遞減的數量提升分數。 這是評分函式的預設插補。

logarithmic

string

將分數提升為以對數減少的數量。 快速降低分數,並隨著分數降低而變慢。 標記計分函數中不允許此插補選項。

quadratic

string

以四次減少的數量提升分數。 提升速度會緩慢降低以取得較高的分數,且分數降低的速度愈快。 標記計分函數中不允許此插補選項。

ScoringProfile

定義影響搜尋查詢評分之搜尋索引的參數。

名稱 類型 Description
functionAggregation

ScoringFunctionAggregation

值,指出應該如何結合個別評分函式的結果。 預設為 「Sum」。 如果沒有評分函式,則會忽略。

functions ScoringFunction[]:

影響檔評分的函式集合。

name

string

評分配置檔的名稱。

text

TextWeights

根據特定索引欄位中文字相符專案提升評分的參數。

SearchField

代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。

名稱 類型 Description
analyzer

LexicalAnalyzerName

要用於欄位的分析器名稱。 此選項只可以搭配可搜尋的欄位使用,而無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。

dimensions

integer

向量欄位的維度。

facetable

boolean

值,指出是否要在Facet查詢中參考欄位。 通常用於搜尋結果的呈現中,包括依類別排序的點擊計數 (例如,搜尋數字相機,並查看依品牌叫用、依百萬像素、價格等) 。 複雜欄位的這個屬性必須是 Null。 Edm.GeographyPoint 或集合類型的字段 (Edm.GeographyPoint) 不可多面向。 所有其他簡單欄位的預設值為 true。

fields

SearchField[]

如果這是類型為 Edm.ComplexType 或 Collection (Edm.ComplexType) 的欄位,則為子字段的清單。 簡單欄位必須是 Null 或空白。

filterable

boolean

值,指出是否要在$filter查詢中參考欄位。 filterable 與可搜尋的字串處理方式不同。 Edm.String 或 Collection 類型的欄位 (可篩選的 Edm.String) 不會進行斷字,因此比較僅適用於完全相符專案。 例如,如果您將這類字段 f 設定為 “ny day”,$filter=f eq 'ny' 找不到相符專案,但$filter=f eq 'ny day' 會。 複雜欄位的這個屬性必須是 Null。 針對簡單欄位,預設值為 true,複雜欄位則為 null。

indexAnalyzer

LexicalAnalyzerName

用於欄位索引時間的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。

key

boolean

值,指出欄位是否可唯一識別索引中的檔。 每個索引中的最上層字段都必須選擇為索引鍵欄位,而且必須是Edm.String類型。 索引鍵欄位可用來直接查閱檔,並更新或刪除特定檔。 簡單欄位的預設值為 false,複雜欄位則為 null。

name

string

功能變數名稱,在索引或父字段的 fields 集合中必須是唯一的。

normalizer

LexicalNormalizerName

要用於欄位的正規化程序名稱。 此選項只能與啟用可篩選、可排序或可 Facet 的欄位搭配使用。 選擇正規化程序之後,就無法變更欄位。 複雜欄位必須是 Null。

retrievable

boolean

值,指出是否可以在搜尋結果中傳回欄位。 如果您想要使用欄位 (,例如,邊界) 做為篩選、排序或評分機制,但不想讓使用者看到字段,則可以停用此選項。 對於索引鍵欄位,此屬性必須是 true,複雜字段必須為 Null。 這個屬性可以在現有的欄位上變更。 啟用此屬性不會造成索引記憶體需求增加。 針對簡單欄位,預設值為 true、向量欄位為 false,而複雜欄位則為 null。

searchAnalyzer

LexicalAnalyzerName

用於搜尋欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 此分析器可在現有欄位上更新。 複雜欄位必須是 Null。

searchable

boolean

值,指出欄位是否為全文搜索。 這表示它將在索引設定期間執行像是斷字的分析。 如果您為可搜尋的欄位設定像是「sunny day」的值,則系統會在內部將它分割為「sunny」和「day」這兩個個別的語彙基元。 這樣就能針對這些字詞進行全文檢索搜尋。 默認可搜尋類型為Edm.String或集合 (Edm.String) 的欄位。 對於其他非字串數據類型的簡單欄位,此屬性必須為 false,而且複雜欄位必須為 Null。 注意:可搜尋的欄位會耗用索引中的額外空間,以容納全文搜索的其他標記化域值版本。 如果您想要在索引中節省空間,而且不需要在搜尋中包含字段,請將 [可搜尋] 設定為 false。

sortable

boolean

值,指出是否要在$orderby運算式中參考字段。 根據預設,搜尋引擎會依分數排序結果,但在許多體驗中,使用者會想要依檔中的欄位排序。 只有在單一值 (父檔範圍內的單一值時,才能排序簡單字段) 。 簡單集合欄位無法排序,因為它們是多重值。 複雜集合的簡單子欄位也是多重值,因此無法排序。 不論是直接父欄位或上階字段,都是複雜的集合,都是如此。 複雜欄位無法排序,而且這類欄位的可排序屬性必須為 Null。 可排序的預設值為 true,針對單一值簡單欄位、針對多重值簡單欄位為 false,而複雜欄位則為 null。

stored

boolean

不可變的值,指出欄位是否會個別保存在要在搜尋結果中傳回的磁碟上。 如果您不打算在搜尋回應中傳回字段內容,以節省記憶體額外負荷,則可以停用此選項。 這隻能在索引建立期間設定,而且只能針對向量字段進行設定。 現有欄位無法變更此屬性,或針對新欄位設定為 false。 如果此屬性設定為 false,則屬性 『可擷取』 也必須設定為 false。 對於索引鍵欄位、新字段以及非向量欄位,此屬性必須是 true 或未設定,而且複雜欄位必須是 Null。 停用此屬性可減少索引記憶體需求。 向量欄位的預設值為 true。

synonymMaps

string[]

要與此欄位建立關聯的同義字名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前每個欄位只支援一個同義字對應。 將同義字對應指派給字段,可確保以該欄位為目標的查詢詞彙會在查詢時間使用同義字對應中的規則來展開。 這個屬性可以在現有的欄位上變更。 複雜欄位必須是 Null 或空白集合。

type

SearchFieldDataType

欄位的數據類型。

vectorEncoding

VectorEncodingFormat

用來解譯欄位內容的編碼格式。

vectorSearchProfile

string

向量搜尋配置檔的名稱,指定搜尋向量字段時要使用的演算法和向量工具。

SearchFieldDataType

定義搜尋索引中欄位的數據類型。

名稱 類型 Description
Edm.Boolean

string

表示欄位包含布爾值, (true 或 false) 。

Edm.Byte

string

表示欄位包含 8 位無符號整數。 只有在搭配集合 (Edm.Byte) 使用時才有效。

Edm.ComplexType

string

表示欄位包含一或多個複雜物件,而該物件又具有其他類型的子字段。

Edm.DateTimeOffset

string

表示欄位包含日期/時間值,包括時區資訊。

Edm.Double

string

表示欄位包含 IEEE 雙精確度浮點數。

Edm.GeographyPoint

string

表示欄位包含經度和緯度的地理位置。

Edm.Half

string

表示欄位包含半精確度浮點數。 這只有在搭配集合 (Edm.Half) 使用時才有效。

Edm.Int16

string

表示欄位包含16位帶正負號的整數。 只有在搭配集合 (Edm.Int16) 使用時,才有效。

Edm.Int32

string

表示欄位包含32位帶正負號的整數。

Edm.Int64

string

表示欄位包含 64 位帶正負號的整數。

Edm.SByte

string

表示欄位包含 8 位帶正負號的整數。 只有在搭配集合 (Edm.SByte) 使用時,才有效。

Edm.Single

string

表示欄位包含單精度浮點數。 這只有在搭配集合 (Edm.Single) 使用時才有效。

Edm.String

string

表示欄位包含字串。

SearchIndex

表示搜尋索引定義,描述索引的欄位和搜尋行為。

名稱 類型 Description
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選。

corsOptions

CorsOptions

控制索引的跨原始來源資源分享 (CORS) 的選項。

defaultScoringProfile

string

如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf) 。

encryptionKey

SearchResourceEncryptionKey

您在 Azure 金鑰保存庫 中建立的加密金鑰描述。 當您想要完整保證,即使 Microsoft 也無法解密您的數據時,此密鑰可用來為您的資料提供額外的待用加密層級。 加密數據之後,它一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 Null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於在 2019 年 1 月 1 日或之後建立的付費服務。

fields

SearchField[]

索引的欄位。

name

string

索引的名稱。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的正規化程式。

scoringProfiles

ScoringProfile[]

索引的評分配置檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

評分和排名符合搜尋查詢的檔時,要使用的相似度演算法類型。 相似度演算法只能在建立索引時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議工具。

tokenFilters TokenFilter[]:

索引的令牌篩選。

tokenizers LexicalTokenizer[]:

索引的Tokenizer。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

SearchIndexerDataNoneIdentity

清除資料源的識別屬性。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

指定身分識別類型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

指定要使用之數據源的身分識別。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

指定身分識別類型的 URI 片段。

userAssignedIdentity

string

使用者指派受控識別的完整 Azure 資源標識符,通常格式為 “/subscriptions/12345678-1234-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”,應該已指派給搜尋服務。

SearchResourceEncryptionKey

Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。

名稱 類型 Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

用於存取 Azure 金鑰保存庫 的選擇性 Azure Active Directory 認證。 若改用受控識別,則不需要。

identity SearchIndexerDataIdentity:

要用於此加密金鑰的明確受控識別。 如果未指定,且存取認證屬性為 Null,則會使用系統指派的受控識別。 更新資源時,如果未指定明確的身分識別,則會維持不變。 如果指定了 「none」 則會清除此屬性的值。

keyVaultKeyName

string

要用來加密待用數據的 Azure 金鑰保存庫 金鑰名稱。

keyVaultKeyVersion

string

用來加密待用數據的 Azure 金鑰保存庫 金鑰版本。

keyVaultUri

string

Azure 金鑰保存庫 的 URI 也稱為 DNS 名稱,其中包含用來加密待用數據的密鑰。 範例 URI 可能是 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定義要用於語意功能內容的特定組態。

名稱 類型 Description
name

string

語意組態的名稱。

prioritizedFields

PrioritizedFields

描述要用於語意排名、標題、重點和答案的標題、內容和關鍵詞字段。 必須設定至少三個子屬性 (titleField、優先順序設定KeywordsFields 和優先順序的ContentFields) 。

SemanticField

做為語意設定一部分的欄位。

名稱 類型 Description
fieldName

string

SemanticSettings

定義影響語意功能的搜尋索引參數。

名稱 類型 Description
configurations

SemanticConfiguration[]

索引的語意設定。

defaultConfiguration

string

可讓您在索引中設定預設語意組態的名稱,使其選擇性地每次傳遞為查詢參數。

ShingleTokenFilter

將語彙基元的組合建立為單一語彙基元。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定令牌篩選類型的 URI 片段。

filterToken

string

_

要針對沒有標記的每個位置插入的字串。 默認值為底線 (“_”) 。

maxShingleSize

integer

2

擷取大小上限。 預設值和最小值為 2。

minShingleSize

integer

2

最小閃爍大小。 預設值和最小值為 2。 必須小於 maxShingleSize的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

outputUnigrams

boolean

True

值,指出輸出數據流是否會包含輸入標記, (unigram) 以及隨機顯示。 預設值為 true。

outputUnigramsIfNoShingles

boolean

False

值,指出是否要在沒有隨機顯示可用時輸出這些時間的 Unigram。 當 outputUnigrams 設定為 false 時,這個屬性會優先使用。 預設值為 false。

tokenSeparator

string

聯結相鄰標記以形成閃爍時所使用的字串。 預設值為單一空間 (“) 。

SnowballTokenFilter

使用 Snowball 產生的字幹分析器來建立字組的篩選。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定令牌篩選類型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的語言。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

SnowballTokenFilterLanguage

用於 Snowball 令牌篩選的語言。

名稱 類型 Description
armenian

string

為亞美尼亞文選取 Lucene Snowball 字幹分析令牌化程式。

basque

string

選取 Basque 的 Lucene Snowball 字幹分析令牌化程式。

catalan

string

選取卡達尼亞文的 Lucene Snowball 字幹分析令牌化程式。

danish

string

選取丹麥文的 Lucene Snowball 字幹分析令牌化程式。

dutch

string

選取荷蘭文的 Lucene Snowball 字幹分析令牌化程式。

english

string

選取適用於英文的 Lucene Snowball 字幹分析令牌化程式。

finnish

string

選取芬蘭文的 Lucene Snowball 字幹分析令牌化程式。

french

string

選取法文的 Lucene Snowball 字幹分析 Tokenizer。

german

string

選取德文的 Lucene Snowball 字幹分析令牌化程式。

german2

string

選取使用德文變體演算法的 Lucene Snowball 字幹分析令牌化程式。

hungarian

string

為匈牙利文選取 Lucene Snowball 字幹分析標記工具。

italian

string

選取義大利文的 Lucene Snowball 字幹分析令牌化程式。

kp

string

針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene Snowball 字幹分析令牌化程式。

lovins

string

針對使用 Lovins 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。

norwegian

string

選取挪威文的 Lucene Snowball 字幹分析令牌化程式。

porter

string

針對使用 Porter 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。

portuguese

string

選取葡萄牙文的 Lucene Snowball 字幹分析令牌化程式。

romanian

string

選取羅馬尼亞文的 Lucene Snowball 字幹分析令牌化程式。

russian

string

選取俄文的 Lucene Snowball 字幹分析令牌化程式。

spanish

string

選取西班牙文的 Lucene Snowball 字幹分析令牌化程式。

swedish

string

選取瑞典文的 Lucene Snowball 字幹分析令牌化程式。

turkish

string

選取土耳其文的 Lucene Snowball 字幹分析令牌化程式。

StemmerOverrideTokenFilter

提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,使其不會以字幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

rules

string[]

下列格式的字幹規則清單:「word => stem」。,例如:「ran => run」。。

StemmerTokenFilter

語言特定字幹分析篩選器。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定令牌篩選類型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的語言。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

StemmerTokenFilterLanguage

要用於字幹分析器令牌篩選的語言。

名稱 類型 Description
arabic

string

選取阿拉伯文的 Lucene 字幹分析 Tokenizer。

armenian

string

選取亞美尼亞文的 Lucene 字幹分析令牌化程式。

basque

string

選取 Basque 的 Lucene 字幹分析 Tokenizer。

brazilian

string

選取葡萄牙文 (巴西) 的 Lucene 字幹分析令牌化程式。

bulgarian

string

為保加利亞文選取 Lucene 字幹分析令牌化程式。

catalan

string

選取卡達尼亞文的 Lucene 字幹分析令牌化程式。

czech

string

選取適用於捷克文的 Lucene 字幹分析令牌化程式。

danish

string

選取丹麥文的 Lucene 字幹分析令牌化程式。

dutch

string

選取荷蘭文的 Lucene 字幹分析 Tokenizer。

dutchKp

string

針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene 字幹分析令牌化程式。

english

string

選取英文的 Lucene 字幹分析令牌化程式。

finnish

string

選取芬蘭文的 Lucene 字幹分析 Tokenizer。

french

string

選取法文的 Lucene 字幹分析 Tokenizer。

galician

string

選取 Galician 的 Lucene 字幹分析令牌化程式。

german

string

選取德文的 Lucene 字幹分析 Tokenizer。

german2

string

選取使用德文變異演算法的 Lucene 字幹分析令牌化程式。

greek

string

選取希臘文的 Lucene 字幹分析令牌化程式。

hindi

string

選取印度文的 Lucene 字幹分析令牌化程式。

hungarian

string

選取匈牙利文的 Lucene 字幹分析令牌化程式。

indonesian

string

選取印尼文的 Lucene 字幹分析令牌化程式。

irish

string

為愛爾蘭選取 Lucene 字幹分析令牌化程式。

italian

string

選取義大利文的 Lucene 字幹分析 Tokenizer。

latvian

string

選取適用於拉脫維亞文的 Lucene 字幹分析令牌化程式。

lightEnglish

string

針對執行淺色字幹分析的英文,選取 Lucene 字幹分析標記化程式。

lightFinnish

string

為芬蘭文選取執行光幹分析的 Lucene 字幹分析令牌化工具。

lightFrench

string

針對執行淺色字幹分析的法文,選取 Lucene 字幹分析令牌化工具。

lightGerman

string

針對德文選取 Lucene 字幹分析令牌化程式,以執行淺色字幹分析。

lightHungarian

string

針對進行淺色字幹分析的匈牙利文,選取 Lucene 字幹分析標記化程式。

lightItalian

string

針對義大利文,選取執行淺色字幹分析的 Lucene 字幹分析令牌化程式。

lightNorwegian

string

選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。

lightNynorsk

string

針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式。

lightPortuguese

string

針對執行光幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。

lightRussian

string

針對執行光幹分析的俄文,選取 Lucene 字幹分析令牌化工具。

lightSpanish

string

針對執行光幹分析的西班牙文,選取 Lucene 字幹分析 Tokenizer。

lightSwedish

string

針對執行淺色字幹分析的瑞典文,選取 Lucene 字幹分析令牌化程式。

lovins

string

針對使用 Lovins 字幹分析演算法的英文,選取 Lucene 字幹分析 Tokenizer。

minimalEnglish

string

針對執行最少字幹分析的英文,選取 Lucene 字幹分析 Tokenizer。

minimalFrench

string

針對執行最小字幹分析的法文,選取 Lucene 字幹分析 Tokenizer。

minimalGalician

string

針對執行最小字幹分析的 Galician,選取 Lucene 字幹分析令牌化程式。

minimalGerman

string

針對德文選取 Lucene 字幹分析令牌化程式,其會執行最少的字幹分析。

minimalNorwegian

string

針對挪威文 (Bokmål) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。

minimalNynorsk

string

針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。

minimalPortuguese

string

針對執行最少字幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。

norwegian

string

選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。

porter2

string

針對使用 Porter2 字幹分析演算法的英文選取 Lucene 字幹分析 Tokenizer。

portuguese

string

選取葡萄牙文的 Lucene 字幹分析令牌化程式。

portugueseRslp

string

針對使用 RSLP 字幹分析演算法的葡萄牙文,選取 Lucene 字幹分析令牌化程式。

possessiveEnglish

string

針對英文選取 Lucene 字幹分析令牌化程式,以從單字中移除尾端擁有者。

romanian

string

選取羅馬尼亞文的 Lucene 字幹分析令牌化程式。

russian

string

選取俄文的 Lucene 字幹分析 Tokenizer。

sorani

string

選取 Sorani 的 Lucene 字幹分析 Tokenizer。

spanish

string

選取西班牙文的 Lucene 字幹分析令牌化程式。

swedish

string

選取瑞典文的 Lucene 字幹分析令牌化程式。

turkish

string

選取土耳其文的 Lucene 字幹分析令牌化程式。

StopAnalyzer

以非字母分割文字;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器類型的 URI 片段。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

stopwords

string[]

停用字詞的清單。

StopwordsList

識別預先定義的語言特定停用字詞清單。

名稱 類型 Description
arabic

string

選取阿拉伯文的停用字詞清單。

armenian

string

選取亞美尼亞文的停用字詞清單。

basque

string

選取 Basque 的停用字詞清單。

brazilian

string

選取葡萄牙文 (巴西) 的停用字詞清單。

bulgarian

string

選取保加利亞文的停用字詞清單。

catalan

string

選取卡達尼亞文的停用字詞清單。

czech

string

選取捷克文的停用字詞清單。

danish

string

選取丹麥文的停用字詞清單。

dutch

string

選取荷蘭文的停用字詞清單。

english

string

選取英文的停用字詞清單。

finnish

string

選取芬蘭文的停用字詞清單。

french

string

選取法文的停用字詞清單。

galician

string

選取 Galician 的停用字詞清單。

german

string

選取德文的停用字詞清單。

greek

string

選取希臘文的停用字詞清單。

hindi

string

選取印度文的停用字詞清單。

hungarian

string

選取匈牙利文的停用字詞清單。

indonesian

string

選取印尼文的停用字詞清單。

irish

string

選取愛爾蘭的停用字詞清單。

italian

string

選取義大利文的停用字詞清單。

latvian

string

選取拉脫維亞文的停用字詞清單。

norwegian

string

選取挪威文的停用字詞清單。

persian

string

選取多國文的停用字詞清單。

portuguese

string

選取葡萄牙文的停用字詞清單。

romanian

string

選取羅馬尼亞文的停用字詞清單。

russian

string

選取俄文的停用字詞清單。

sorani

string

選取 Sorani 的停用字詞清單。

spanish

string

選取西班牙文的停用字詞清單。

swedish

string

選取瑞典文的停用字詞清單。

thai

string

選取泰文的停用字詞清單。

turkish

string

選取土耳其文的停用字詞清單。

StopwordsTokenFilter

從語彙基元資料流移除停用字詞。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreCase

boolean

False

值,指出是否要忽略大小寫。 如果為 true,則會先將所有單字轉換成小寫。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

removeTrailing

boolean

True

值,指出是否要忽略最後一個搜尋字詞是否為停用字詞。 預設值為 true。

stopwords

string[]

停用字詞清單。 無法設定這個屬性和停用字詞清單屬性。

stopwordsList

StopwordsList

english

要使用的停用字詞預先定義清單。 無法設定這個屬性和停用字詞屬性。 預設值為英文。

Suggester

定義建議 API 如何套用至索引中的欄位群組。

名稱 類型 Description
name

string

建議工具的名稱。

searchMode

SuggesterSearchMode

值,指出建議工具的功能。

sourceFields

string[]

建議工具要套用的域名清單。 每個欄位都必須可供搜尋。

SuggesterSearchMode

值,表示建議工具的功能。

名稱 類型 Description
analyzingInfixMatching

string

比對欄位中連續的整個詞彙和前置詞。 例如,針對欄位 'The fastest brown fox',查詢 'fast' 和 'fastest brow' 會兩者相符。

SynonymTokenFilter

比對令牌數據流中的單字或多字同義字。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定令牌篩選類型的 URI 片段。

expand

boolean

True

值,指出如果未使用 => 表示法,則表示同義字清單中的所有單字是否 (,) 對應至彼此。 如果為 true,則使用 => 表示法時,同義字清單中的所有單字都會 (,) 對應到另一個字組。 下列清單:令人讚歎、不可置信、令人讚歎、令人讚歎,相當於:令人讚歎、不可置信、令人讚歎、令人讚歎、 令人> 讚歎。 如果為 false,下列清單:令人讚歎、不可置信、令人讚歎、令人讚歎的,相當於:令人讚歎、不可置信、令人讚歎、 令人讚歎的 => 令人讚歎。 預設值為 true。

ignoreCase

boolean

False

值,指出是否要以大小寫折迭輸入進行比對。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

synonyms

string[]

下列兩種格式之一的同義字清單:1。 unbelievable, unbelievable, 配量 => 令人讚歎 - => 符號左邊的所有字詞都會取代為其右側的所有字詞;2. 令人讚歎、不可相信、驚歎、令人讚歎 - 以逗號分隔的對等字清單。 設定 expand 選項來變更此清單的解譯方式。

TagScoringFunction

定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

tag

TagScoringParameters

標記評分函式的參數值。

type string:

tag

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

TagScoringParameters

提供標記評分函式的參數值。

名稱 類型 Description
tagsParameter

string

在搜尋查詢中傳遞的參數名稱,以指定要與目標字段比較的標記清單。

TextWeights

定義索引欄位的加權,其相符項目應該在搜尋查詢中提升評分。

名稱 類型 Description
weights

object

每個欄位加權的字典,可提升檔評分。 索引鍵是功能變數名稱,而值是每個欄位的加權。

TokenCharacterKind

表示令牌篩選可以運作的字元類別。

名稱 類型 Description
digit

string

將數位保留在令牌中。

letter

string

將字母保留在令牌中。

punctuation

string

將標點符號保留在令牌中。

symbol

string

將符號保留在令牌中。

whitespace

string

將空格元保留在令牌中。

TokenFilterName

定義搜尋引擎所支援之所有令牌篩選的名稱。

名稱 類型 Description
apostrophe

string

去除單引號 (包括單引號本身) 之後的所有字元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

套用阿拉伯文標準化程式的語彙基元篩選器,用來標準化正字法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數值和符號 Unicode 字元轉換成其 ASCII 對等專案, (“Basic Latin” Unicode 區塊) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forms 從標準Tokenizer產生的CJK詞彙 bigrams。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

標準化 CJK 寬度的差異。 將 fullwidth ASCII 變體折迭成對等的基本拉丁,並將半角片假名變體折疊成對等的 Kana。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

拿掉英文擁有者,以及縮略字中的點。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

根據德文2 雪球演算法的啟發學習法將德文字元正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

標準化印度文字,以移除拼字變化的一些差異。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

標準化印度語文字的 Unicode 表示法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

發出每個傳入令牌兩次,一次作為關鍵詞,一次做為非關鍵詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

適用於英文的高效能 kstem 篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

移除太長或太短的文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

限制編製索引時的語彙基元數目。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

將語彙基元文字標準化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

產生指定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

對波斯文套用標準化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

建立語音相符項目的語彙基元。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

使用 Porter 字幹分析演算法來轉換令牌數據流。 請參閱 http://tartarus.org/~martin/PorterStemmer

reverse

string

反轉語彙基元字串。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

折疊斯堪的納維亞字元,åÅäæÄÆ->a 及 öÖøØ->o。 其也可以區分雙母音 aa、ae、ao、oe 和 oo 的使用,並且只保留第一個。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

標準化可交換的斯堪的納維亞字元用法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

將語彙基元的組合建立為單一語彙基元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

使用 Snowball 產生的字幹分析器來建立字組的篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

標準化索拉尼 (Sorani) 文字的 Unicode 表示法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

語言特定字幹分析篩選器。 請參閱 https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

從語彙基元資料流移除停用字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

修剪語彙基元的開頭及結尾空白字元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

將詞彙截斷為特定長度。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

篩選出與前一個語彙基元使用相同文字的語彙基元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

將語彙基元文字標準化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。

TruncateTokenFilter

將詞彙截斷為特定長度。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定令牌篩選類型的 URI 片段。

length

integer

300

將截斷字詞的長度。 預設值和最大值為 300。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

UaxUrlEmailTokenizer

將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

UniqueTokenFilter

篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

onlyOnSamePosition

boolean

False

值,指出是否只移除相同位置的重複專案。 預設值為 false。

VectorEncodingFormat

用於解譯向量欄位內容的編碼格式。

名稱 類型 Description
packedBit

string

編碼格式,表示封裝成較寬數據類型的位。

VectorSearch

包含與向量搜尋相關的組態選項。

名稱 類型 Description
algorithms VectorSearchAlgorithmConfiguration[]:

包含索引編製或查詢期間所使用演算法的特定組態選項。

compressions VectorSearchCompressionConfiguration[]:

ScalarQuantizationVectorSearchCompressionConfiguration[]

包含索引編製或查詢期間所使用之壓縮方法專用的組態選項。

profiles

VectorSearchProfile[]

定義要與向量搜尋搭配使用的組態組合。

vectorizers VectorSearchVectorizer[]:

包含如何向量化文字向量查詢的組態選項。

VectorSearchAlgorithmKind

用於編製索引和查詢的演算法。

名稱 類型 Description
exhaustiveKnn

string

將執行暴力密碼破解搜尋的詳盡 KNN 演算法。

hnsw

string

HNSW (階層式導覽小型世界) ,這是近似鄰近演算法的類型。

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。 建議選擇與已定型內嵌模型相同的相似度計量。

名稱 類型 Description
cosine

string

測量向量之間的角度,以量化其相似度,忽略大小。 角度越小,相似度越接近。

dotProduct

string

計算以量測對齊方式和大小相似度的專案型產品總和。 愈大且更正面,相似度越接近。

euclidean

string

計算多維度空間中向量之間的直線距離。 距離越小,相似度越接近。

hamming

string

僅適用於位封裝的二進位數據類型。 藉由計算二進位向量中不同的位置,判斷不同的差異性。 差異越少,相似度越接近。

VectorSearchCompressionKind

用於編製索引和查詢的壓縮方法。

名稱 類型 Description
scalarQuantization

string

純量量化,這是一種壓縮方法。 在純量量化中,原始向量值會藉由離散化並表示使用一組縮減的量化值來表示向量的每個元件,以壓縮成較窄的類型,藉此減少整體數據大小。

VectorSearchCompressionTargetDataType

壓縮向量值的量化數據類型。

名稱 類型 Description
int8

string

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

名稱 類型 Description
algorithm

string

指定演算法和選擇性參數的向量搜尋演算法組態名稱。

compression

string

指定壓縮方法和選擇性參數的壓縮方法組態名稱。

name

string

要與這個特定向量搜尋配置檔相關聯的名稱。

vectorizer

string

要設定用於向量搜尋的向量化方法類型名稱。

VectorSearchVectorizerKind

查詢期間要使用的向量化方法。

名稱 類型 Description
aiServicesVision

string

使用 Azure AI 服務視覺向量化 API,在查詢時產生影像或文字輸入的內嵌。

aml

string

使用在查詢時間透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點產生內嵌。

azureOpenAI

string

在查詢時間使用 Azure OpenAI 資源產生內嵌。

customWebApi

string

在查詢時間使用自定義 Web 端點產生內嵌。

WordDelimiterTokenFilter

將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定令牌篩選類型的 URI 片段。

catenateAll

boolean

False

值,指出是否要停用所有子字詞部分。 例如,如果此值設定為 true,“Azure-Search-1” 會變成 “AzureSearch1”。 預設值為 false。

catenateNumbers

boolean

False

值,指出是否要減少數目部分的最大執行次數。 例如,如果此值設定為 true,“1-2” 會變成 “12”。 預設值為 false。

catenateWords

boolean

False

值,指出字組部分的運行時間上限是否會被貓化。 例如,如果此值設定為 true,“Azure-Search” 會變成 “AzureSearch”。 預設值為 false。

generateNumberParts

boolean

True

值,指出是否要產生數位子字詞。 預設值為 true。

generateWordParts

boolean

True

值,指出是否要產生部分字組。 如果設定,會導致產生部分字組;例如,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

preserveOriginal

boolean

False

值,指出是否要保留原始字組並新增至子字詞清單。 預設值為 false。

protectedWords

string[]

要防止分隔的令牌清單。

splitOnCaseChange

boolean

True

值,指出是否要在caseChange上分割單字。 例如,如果此值設定為 true,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。

splitOnNumerics

boolean

True

值,指出是否要分割數位。 例如,如果此值設定為 true,“Azure1Search” 會變成 “Azure” “1” “Search”。 預設值為 true。

stemEnglishPossessive

boolean

True

值,指出是否要移除每個子字詞的尾端 「s」。。 預設值為 true。