Indexes - Create Or Update
建立新的搜尋索引,或在索引已經存在時更新索引。
PUT {endpoint}/indexes('{indexName}')?api-version=2024-05-01-preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2024-05-01-preview
URI 參數
名稱 | 位於 | 必要 | 類型 | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜尋服務的端點 URL。 |
index
|
path | True |
string |
要建立或更新之索引的定義。 |
api-version
|
query | True |
string |
用戶端 API 版本。 |
allow
|
query |
boolean |
允許新的分析器、令牌化工具、令牌篩選或字元篩選新增至索引,方法是讓索引離線至少幾秒鐘。 這會暫時造成索引編製和查詢要求失敗。 在索引更新後,索引的效能和寫入可用性可能會降低數分鐘,如果是非常大的索引,則可能持續更久。 |
要求標頭
名稱 | 必要 | 類型 | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
與要求一起傳送的追蹤標識碼,以協助偵錯。 |
|
If-Match |
string |
定義 If-Match 條件。 只有在伺服器上的 ETag 符合此值時,才會執行作業。 |
|
If-None-Match |
string |
定義 If-None-Match 條件。 只有在伺服器上的 ETag 不符合此值時,才會執行作業。 |
|
Prefer | True |
string |
針對 HTTP PUT 要求,指示服務在成功時傳回已建立/更新的資源。 |
要求本文
名稱 | 必要 | 類型 | Description |
---|---|---|---|
fields | True |
索引的欄位。 |
|
name | True |
string |
索引的名稱。 |
@odata.etag |
string |
索引的 ETag。 |
|
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
charFilters | CharFilter[]: |
索引的字元篩選。 |
|
corsOptions |
控制索引之跨原始來源資源分享 (CORS) 的選項。 |
||
defaultScoringProfile |
string |
如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf) 。 |
|
encryptionKey |
您在 Azure 金鑰保存庫 中建立的加密金鑰描述。 當您想要完整保證沒有任何使用者甚至 Microsoft 可以解密數據時,此密鑰可用來為您的資料提供額外的待用加密層級。 加密數據之後,它一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於在 2019 年 1 月 1 日或之後建立的付費服務。 |
||
normalizers | LexicalNormalizer[]: |
索引的正規化程式。 |
|
scoringProfiles |
索引的評分配置檔。 |
||
semantic |
定義影響語意功能的搜尋索引參數。 |
||
similarity | Similarity: |
評分和排名符合搜尋查詢的檔時,要使用的相似度演算法類型。 相似度演算法只能在建立索引時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。 |
|
suggesters |
索引的建議工具。 |
||
tokenFilters |
TokenFilter[]:
|
索引的令牌篩選。 |
|
tokenizers | LexicalTokenizer[]: |
索引的Tokenizer。 |
|
vectorSearch |
包含與向量搜尋相關的組態選項。 |
回應
名稱 | 類型 | Description |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
錯誤回應。 |
範例
SearchServiceCreateOrUpdateIndex
範例要求
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2024-05-01-preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
範例回覆
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
定義
名稱 | Description |
---|---|
AIServices |
指定用於向量化查詢影像或文字的 AI 服務視覺參數。 |
AIServices |
指定用於向量化查詢影像或文字的 AI 服務視覺參數。 |
AIStudio |
要呼叫的 Azure AI Studio Catalog 內嵌模型名稱。 |
AMLParameters |
指定連接到 AML 向量化工具的屬性。 |
AMLVectorizer |
指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。 |
Ascii |
如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Azure |
為搜尋服務建立之已註冊應用程式的認證,用於驗證存取儲存在 Azure 金鑰保存庫 中的加密密鑰。 |
Azure |
可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。 |
Azure |
將呼叫的 Azure Open AI 模型名稱。 |
Azure |
指定連線至 Azure OpenAI 資源的參數。 |
Azure |
指定用來向量化查詢字串的 Azure OpenAI 資源。 |
BM25Similarity |
以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似 TF-IDF 的演算法,包含由 'b' 參數) 所控制的長度正規化 (,以及由 'k1' 參數) 所控制的詞彙頻率飽和度 (。 |
Char |
定義搜尋引擎支援的所有字元篩選名稱。 |
Cjk |
Forms 從標準Tokenizer產生的CJK詞彙 bigrams。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Cjk |
CjkBigramTokenFilter 可以忽略的腳本。 |
Classic |
使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調只影響僅部分符合所搜尋查詢之檔的因素。 |
Classic |
適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Common |
在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Cors |
定義選項,以控制索引的跨原始來源資源分享 (CORS) 。 |
Custom |
可讓您控制將文字轉換成可編製索引/可搜尋標記的程式。 這是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選器所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。 |
Custom |
可讓您設定可篩選、可排序和可多面向字段的正規化,依預設會以嚴格比對方式運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改儲存的令牌。 |
Custom |
指定使用者定義的向量化程式,以產生查詢字串的內嵌向量。 使用技能集的自定義 Web API 介面來整合外部向量工具。 |
Custom |
指定連線至使用者定義向量工具的屬性。 |
Dictionary |
分解在許多日耳曼語系中找到的複合字。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Distance |
定義根據地理位置距離提升分數的函式。 |
Distance |
提供距離評分函式的參數值。 |
Edge |
從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Edge |
指定應該從中產生 n-gram 的輸入端。 |
Edge |
從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Edge |
將邊緣的輸入標記化為指定大小的 n-gram (s) 。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Elision |
移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Error |
資源管理錯誤其他資訊。 |
Error |
錯誤詳細數據。 |
Error |
錯誤回應 |
Exhaustive |
包含詳盡 KNN 演算法特有的參數。 |
Exhaustive |
包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。 |
Freshness |
定義根據日期時間欄位值提升分數的函式。 |
Freshness |
提供新式評分函式的參數值。 |
Hnsw |
包含 HNSW 演算法特有的參數。 |
Hnsw |
包含 HNSW 近似鄰近演算法在編製索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度與精確度之間的無法取捨。 |
Input |
技能的輸入欄位對應。 |
Keep |
令牌篩選條件,只保留含有指定之單字清單中所含文字的標記。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Keyword |
將字詞標示為關鍵字。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Keyword |
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Keyword |
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Length |
移除太長或太短的文字。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Lexical |
定義搜尋引擎所支援之所有文字分析器的名稱。 |
Lexical |
定義搜尋引擎所支援之所有文字正規化程序的名稱。 |
Lexical |
定義搜尋引擎所支援之所有 Tokenizer 的名稱。 |
Limit |
限制編製索引時的語彙基元數目。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Lucene |
標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。 |
Lucene |
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Lucene |
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Magnitude |
定義根據數值欄位的大小提升分數的函式。 |
Magnitude |
提供參數值給量級評分函式。 |
Mapping |
字元篩選條件,會套用以對應選項定義的對應。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選器是使用 Apache Lucene 來實作。 |
Microsoft |
使用語言特有的規則來分割文字,並將字組縮減到其基本形式。 |
Microsoft |
使用語言特有的規則分割文字。 |
Microsoft |
清單 Microsoft 語言字幹分析令牌化程式支援的語言。 |
Microsoft |
清單 Microsoft 語言令牌化程式支援的語言。 |
NGram |
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。 |
NGram |
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。 |
NGram |
將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Output |
技能的輸出欄位對應。 |
Path |
路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Pattern |
透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 來實作。 |
Pattern |
使用 Java regex 來發出多個令牌 - 一個或多個模式中的每個擷取群組各一個令牌。 此令牌篩選是使用 Apache Lucene 實作。 |
Pattern |
字元篩選條件,取代輸入字串中的字元。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 「aa bb aa bb」 pattern 「 (aa) \s+ (bb) 」。,並取代 」$1#$2“,結果會是 ”aa#bb aa#bb“。 此字元篩選器是使用 Apache Lucene 來實作。 |
Pattern |
取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此令牌篩選是使用 Apache Lucene 實作。 |
Pattern |
使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Phonetic |
識別要搭配 PhoneticTokenFilter 使用的注音編碼器類型。 |
Phonetic |
建立語音相符項目的語彙基元。 此令牌篩選是使用 Apache Lucene 實作。 |
Prioritized |
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 |
Regex |
定義可以結合的旗標,以控制在模式分析器和模式Tokenizer中使用正則表達式的方式。 |
Scalar |
包含純量量化特有的參數。 |
Scalar |
包含索引編製和查詢期間所使用純量量化壓縮方法專用的組態選項。 |
Scoring |
定義匯總函式,用來合併評分配置檔中所有評分函式的結果。 |
Scoring |
定義用來在一系列檔中插補分數提升的函式。 |
Scoring |
定義影響搜尋查詢評分之搜尋索引的參數。 |
Search |
代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。 |
Search |
定義搜尋索引中欄位的數據類型。 |
Search |
表示搜尋索引定義,描述索引的欄位和搜尋行為。 |
Search |
清除資料源的識別屬性。 |
Search |
指定要使用之數據源的身分識別。 |
Search |
Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。 |
Semantic |
定義要用於語意功能內容的特定組態。 |
Semantic |
做為語意設定一部分的欄位。 |
Semantic |
定義影響語意功能的搜尋索引參數。 |
Shingle |
將語彙基元的組合建立為單一語彙基元。 此令牌篩選是使用 Apache Lucene 實作。 |
Snowball |
使用 Snowball 產生的字幹分析器來建立字組的篩選。 此令牌篩選是使用 Apache Lucene 實作。 |
Snowball |
用於 Snowball 令牌篩選的語言。 |
Stemmer |
提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,使其不會以字幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選是使用 Apache Lucene 實作。 |
Stemmer |
語言特定字幹分析篩選器。 此令牌篩選是使用 Apache Lucene 實作。 |
Stemmer |
要用於字幹分析器令牌篩選的語言。 |
Stop |
以非字母分割文字;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 來實作。 |
Stopwords |
識別預先定義的語言特定停用字詞清單。 |
Stopwords |
從語彙基元資料流移除停用字詞。 此令牌篩選是使用 Apache Lucene 實作。 |
Suggester |
定義建議 API 如何套用至索引中的欄位群組。 |
Suggester |
值,表示建議工具的功能。 |
Synonym |
比對令牌數據流中的單字或多字同義字。 此令牌篩選是使用 Apache Lucene 實作。 |
Tag |
定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。 |
Tag |
提供標記評分函式的參數值。 |
Text |
定義索引欄位的加權,其相符項目應該在搜尋查詢中提升評分。 |
Token |
表示令牌篩選可以運作的字元類別。 |
Token |
定義搜尋引擎所支援之所有令牌篩選的名稱。 |
Truncate |
將詞彙截斷為特定長度。 此令牌篩選是使用 Apache Lucene 實作。 |
Uax |
將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Unique |
篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Vector |
用於解譯向量欄位內容的編碼格式。 |
Vector |
包含與向量搜尋相關的組態選項。 |
Vector |
用於編製索引和查詢的演算法。 |
Vector |
用於向量比較的相似度計量。 建議選擇與已定型內嵌模型相同的相似度計量。 |
Vector |
用於編製索引和查詢的壓縮方法。 |
Vector |
壓縮向量值的量化數據類型。 |
Vector |
定義要與向量搜尋搭配使用的組態組合。 |
Vector |
查詢期間要使用的向量化方法。 |
Word |
將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。 |
AIServicesVisionParameters
指定用於向量化查詢影像或文字的 AI 服務視覺參數。
名稱 | 類型 | Description |
---|---|---|
apiKey |
string |
指定 AI 服務資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引的更新上,如果未指定身分識別,該值會保持不變。 如果設定為 「none」 則會清除此屬性的值。 |
modelVersion |
string |
呼叫 AI 服務視覺服務時要使用的模型版本。 其將預設為未指定時可用的最新版本。 |
resourceUri |
string |
AI 服務資源的資源 URI。 |
AIServicesVisionVectorizer
指定用於向量化查詢影像或文字的 AI 服務視覺參數。
名稱 | 類型 | Description |
---|---|---|
aiServicesVisionParameters |
包含 AI 服務視覺內嵌向量化的特定參數。 |
|
kind |
string:
ai |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法建立關聯的名稱。 |
AIStudioModelCatalogName
要呼叫的 Azure AI Studio Catalog 內嵌模型名稱。
名稱 | 類型 | Description |
---|---|---|
Cohere-embed-v3-english |
string |
|
Cohere-embed-v3-multilingual |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Base |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
string |
AMLParameters
指定連接到 AML 向量化工具的屬性。
名稱 | 類型 | Description |
---|---|---|
key |
string |
(金鑰驗證需要) AML 服務的金鑰。 |
modelName |
從部署在所提供端點的 Azure AI Studio Catalog 內嵌模型名稱。 |
|
region |
string |
(權杖驗證的選用項目)。 AML 服務部署所在的區域。 |
resourceId |
string |
(權杖驗證需要)。 AML 服務的 Azure Resource Manager 資源識別碼。 其格式應為 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。 |
timeout |
string |
(選擇性) 指定時,表示進行 API 呼叫的 http 用戶端逾時。 |
uri |
string |
(無驗證或金鑰驗證需要) JSON 承載將傳送到的 AML 服務的評分 URI。 僅允許 https URI 配置。 |
AMLVectorizer
指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。
名稱 | 類型 | Description |
---|---|---|
amlParameters |
指定 AML 向量化工具的屬性。 |
|
kind |
string:
aml |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法建立關聯的名稱。 |
AsciiFoldingTokenFilter
如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
preserveOriginal |
boolean |
False |
值,指出是否保留原始令牌。 預設值為 false。 |
AzureActiveDirectoryApplicationCredentials
為搜尋服務建立之已註冊應用程式的認證,用於驗證存取儲存在 Azure 金鑰保存庫 中的加密密鑰。
名稱 | 類型 | Description |
---|---|---|
applicationId |
string |
AAD 應用程式識別碼,授與 Azure 金鑰保存庫 所需的訪問許可權,在加密待用數據時使用。 應用程式標識碼不應與 AAD 應用程式的物件標識元混淆。 |
applicationSecret |
string |
指定 AAD 應用程式的驗證金鑰。 |
AzureOpenAIEmbeddingSkill
可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能類型的 URI 片段。 |
apiKey |
string |
所指定 Azure OpenAI 資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
context |
string |
表示作業發生的層級,例如檔根目錄或文件內容 (,例如 /document 或 /document/content) 。 預設值為 /document。 |
deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
description |
string |
描述技能的描述,描述技能的輸入、輸出和使用方式。 |
dimensions |
integer |
產生的輸出內嵌應該具有的維度數目。 僅支援文字內嵌-3 和更新版本的模型。 |
inputs |
技能的輸入可以是源數據集中的數據行,或是上游技能的輸出。 |
|
modelName |
部署在所提供 deploymentId 路徑的內嵌模型名稱。 |
|
name |
string |
技能的名稱,可唯一識別技能集內的技能。 在技能陣列中,沒有定義名稱的技能會指定其以1為基底索引的預設名稱,前面加上字元'#'。 |
outputs |
技能的輸出是搜尋索引中的字段,或可供另一個技能作為輸入的值。 |
|
resourceUri |
string |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIModelName
將呼叫的 Azure Open AI 模型名稱。
名稱 | 類型 | Description |
---|---|---|
experimental |
string |
|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
指定連線至 Azure OpenAI 資源的參數。
名稱 | 類型 | Description |
---|---|---|
apiKey |
string |
指定之 Azure OpenAI 資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
modelName |
在提供的 deploymentId 路徑上部署的內嵌模型名稱。 |
|
resourceUri |
string |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIVectorizer
指定用來向量化查詢字串的 Azure OpenAI 資源。
名稱 | 類型 | Description |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
包含 Azure OpenAI 內嵌向量化特有的參數。 |
kind |
string:
azure |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法建立關聯的名稱。 |
BM25Similarity
以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似 TF-IDF 的演算法,包含由 'b' 參數) 所控制的長度正規化 (,以及由 'k1' 參數) 所控制的詞彙頻率飽和度 (。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
此屬性可控制檔的長度如何影響相關性分數。 根據預設,會使用 0.75 的值。 值為 0.0 表示不會套用任何長度正規化,而 1.0 的值表示分數會由文件的長度完全正規化。 |
k1 |
number |
此屬性控制每個相符字詞的字詞頻率與文件查詢配對最終相關性分數之間的縮放函式。 根據預設,會使用1.2的值。 值為 0.0 表示分數不會隨著字詞頻率增加而進行調整。 |
CharFilterName
定義搜尋引擎支援的所有字元篩選名稱。
名稱 | 類型 | Description |
---|---|---|
html_strip |
string |
嘗試移除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forms 從標準Tokenizer產生的CJK詞彙 bigrams。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreScripts |
要忽略的腳本。 |
||
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
outputUnigrams |
boolean |
False |
值,指出是否要輸出 unigram 和 bigrams (如果為 true) ,或只輸出 false) 則為 bigrams (。 預設值為 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的腳本。
名稱 | 類型 | Description |
---|---|---|
han |
string |
當形成 CJK 詞彙的 bigram 時,請忽略 Han 腳本。 |
hangul |
string |
當形成 CJK 詞彙的 bigram 時,請忽略 Hangul 腳本。 |
hiragana |
string |
在形成 CJK 詞彙的 bigrams 時,忽略 Hiragana 腳本。 |
katakana |
string |
當形成 CJK 詞彙的 bigrams 時,請忽略片假名腳本。 |
ClassicSimilarity
使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調只影響僅部分符合所搜尋查詢之檔的因素。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
CommonGramTokenFilter
在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
commonWords |
string[] |
一組通用字組。 |
|
ignoreCase |
boolean |
False |
值,指出一般字組比對是否不區分大小寫。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
queryMode |
boolean |
False |
值,指出令牌篩選是否處於查詢模式。 在查詢模式中,令牌篩選會產生 bigrams,然後移除通用單字和單一字詞,後面接著一般單字。 預設值為 false。 |
CorsOptions
定義選項,以控制索引的跨原始來源資源分享 (CORS) 。
名稱 | 類型 | Description |
---|---|---|
allowedOrigins |
string[] |
JavaScript 程式代碼將授與索引存取權的來源清單。 可以包含 {protocol}://{完整域名}[:{port#}] 格式的主機列表,或單一 '*' 允許所有來源 (不建議) 。 |
maxAgeInSeconds |
integer |
瀏覽器應該快取 CORS 預檢回應的持續時間。 預設為5分鐘。 |
CustomAnalyzer
可讓您控制將文字轉換成可編製索引/可搜尋標記的程式。 這是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選器所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
charFilters |
在令牌化程式處理輸入文字之前,用來準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依列出的順序執行。 |
|
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
tokenFilters |
用來篩選或修改Tokenizer所產生的令牌篩選清單。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依列出的順序執行。 |
|
tokenizer |
用來將連續文字分割成一連串標記的Tokenizer名稱,例如將句子分成單字。 |
CustomNormalizer
可讓您設定可篩選、可排序和可多面向字段的正規化,依預設會以嚴格比對方式運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改儲存的令牌。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定正規化程序類型的 URI 片段。 |
charFilters |
用來在處理輸入文字之前準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依列出的順序執行。 |
|
name |
string |
正規化程序的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不能命名為 'asciifolding'、'standard'、'lowercase'、'uppercase' 或 'elision'。 |
tokenFilters |
用來篩選出或修改輸入令牌的令牌篩選清單。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依列出的順序執行。 |
CustomVectorizer
指定使用者定義的向量化程式,以產生查詢字串的內嵌向量。 使用技能集的自定義 Web API 介面來整合外部向量工具。
名稱 | 類型 | Description |
---|---|---|
customWebApiParameters |
指定使用者定義向量工具的屬性。 |
|
kind |
string:
custom |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法建立關聯的名稱。 |
CustomWebApiParameters
指定連線至使用者定義向量工具的屬性。
名稱 | 類型 | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引器的更新上,如果未指定身分識別,該值會保持不變。 如果設定為 「none」 則會清除此屬性的值。 |
authResourceId |
string |
適用於連線至 Azure 函式中外部程式代碼的自定義端點,或提供轉換的一些其他應用程式。 此值應該是在向 Azure Active Directory 註冊函式或應用程式時所建立的應用程式識別碼。 指定時,向量化會使用受控標識碼連接到函式或應用程式, (系統或使用者指派的搜尋服務) ,並使用此值作為建立存取令牌範圍的資源標識符。 |
httpHeaders |
object |
提出 HTTP 要求所需的標頭。 |
httpMethod |
string |
HTTP 要求的方法。 |
timeout |
string |
要求所需的逾時。 預設值為 30 秒。 |
uri |
string |
提供向量化工具之 Web API 的 URI。 |
DictionaryDecompounderTokenFilter
分解在許多日耳曼語系中找到的複合字。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxSubwordSize |
integer |
15 |
子字大小上限。 只會輸出比這個 短的子字詞。 預設值為 15。 最大值為300。 |
minSubwordSize |
integer |
2 |
子字大小下限。 只會輸出超過這個的子字詞。 預設值為 2。 最大值為300。 |
minWordSize |
integer |
5 |
字大小下限。 只處理超過這個的字組。 預設值為 5。 最大值為300。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
onlyLongestMatch |
boolean |
False |
值,指出是否只將最長相符的子字詞新增至輸出。 預設值為 false。 |
wordList |
string[] |
要比對的單字清單。 |
DistanceScoringFunction
定義根據地理位置距離提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
distance |
距離評分函式的參數值。 |
|
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
type |
string:
distance |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
DistanceScoringParameters
提供距離評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingDistance |
number |
從提升範圍結束的參考位置,以公里為單位的距離。 |
referencePointParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定參考位置。 |
EdgeNGramTokenFilter
從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
side | front |
指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。 |
EdgeNGramTokenFilterSide
指定應該從中產生 n-gram 的輸入端。
名稱 | 類型 | Description |
---|---|---|
back |
string |
指定應該從輸入背面產生 n-gram。 |
front |
string |
指定應該從輸入前端產生 n-gram。 |
EdgeNGramTokenFilterV2
從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
side | front |
指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。 |
EdgeNGramTokenizer
將邊緣的輸入標記化為指定大小的 n-gram (s) 。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
tokenChars |
要保留在標記中的字元類別。 |
ElisionTokenFilter
移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
articles |
string[] |
要移除的發行項集合。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
ErrorAdditionalInfo
資源管理錯誤其他資訊。
名稱 | 類型 | Description |
---|---|---|
info |
object |
其他資訊。 |
type |
string |
其他信息類型。 |
ErrorDetail
錯誤詳細數據。
名稱 | 類型 | Description |
---|---|---|
additionalInfo |
錯誤其他資訊。 |
|
code |
string |
錯誤碼。 |
details |
錯誤詳細資料。 |
|
message |
string |
錯誤訊息。 |
target |
string |
錯誤目標。 |
ErrorResponse
錯誤回應
名稱 | 類型 | Description |
---|---|---|
error |
error 物件。 |
ExhaustiveKnnParameters
包含詳盡 KNN 演算法特有的參數。
名稱 | 類型 | Description |
---|---|---|
metric |
用於向量比較的相似度計量。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。
名稱 | 類型 | Description |
---|---|---|
exhaustiveKnnParameters |
包含詳盡 KNN 演算法特有的參數。 |
|
kind |
string:
exhaustive |
要與向量搜尋搭配使用的演算法類型名稱。 |
name |
string |
要與此特定組態建立關聯的名稱。 |
FreshnessScoringFunction
定義根據日期時間欄位值提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
freshness |
最新評分函式的參數值。 |
|
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
type |
string:
freshness |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
FreshnessScoringParameters
提供新式評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingDuration |
string |
到期期間之後,特定檔將會停止提升。 |
HnswParameters
包含 HNSW 演算法特有的參數。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
efConstruction |
integer |
400 |
包含最接近鄰近的動態清單大小,在索引時間期間使用。 增加此參數可能會改善索引品質,但代價是編製索引時間增加。 在特定時間點,增加此參數會導致傳回減少。 |
efSearch |
integer |
500 |
動態清單的大小,其中包含搜尋期間所使用的最接近鄰近專案。 增加此參數可能會改善搜尋結果,但代價是搜尋速度較慢。 在特定時間點,增加此參數會導致傳回減少。 |
m |
integer |
4 |
建構期間針對每個新專案建立的雙向連結數目。 增加此參數值可改善回收次數,並減少具有高內建維度的數據集擷取時間,代價是記憶體耗用量增加和編製索引時間較長。 |
metric |
用於向量比較的相似度計量。 |
HnswVectorSearchAlgorithmConfiguration
包含 HNSW 近似鄰近演算法在編製索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度與精確度之間的無法取捨。
名稱 | 類型 | Description |
---|---|---|
hnswParameters |
包含 HNSW 演算法特有的參數。 |
|
kind |
string:
hnsw |
要與向量搜尋搭配使用的演算法類型名稱。 |
name |
string |
要與此特定組態建立關聯的名稱。 |
InputFieldMappingEntry
技能的輸入欄位對應。
名稱 | 類型 | Description |
---|---|---|
inputs |
建立複雜類型時所使用的遞歸輸入。 |
|
name |
string |
輸入的名稱。 |
source |
string |
輸入的來源。 |
sourceContext |
string |
用於選取遞歸輸入的來源內容。 |
KeepTokenFilter
令牌篩選條件,只保留含有指定之單字清單中所含文字的標記。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
keepWords |
string[] |
要保留的單字清單。 |
|
keepWordsCase |
boolean |
False |
值,指出是否要先小寫所有字。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
KeywordMarkerTokenFilter
將字詞標示為關鍵字。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
值,指出是否忽略大小寫。 如果為 true,則會先將所有字組轉換成小寫。 預設值為 false。 |
keywords |
string[] |
要標示為關鍵詞的單字清單。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
KeywordTokenizer
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
bufferSize |
integer |
256 |
以位元組為單位的讀取緩衝區大小。 預設值為 256。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
KeywordTokenizerV2
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
256 |
令牌長度上限。 預設值為 256。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LengthTokenFilter
移除太長或太短的文字。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
max |
integer |
300 |
字元的最大長度。 預設值和最大值為 300。 |
min |
integer |
0 |
字元的最小長度。 預設值為 0。 最大值為300。 必須小於 max的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LexicalAnalyzerName
定義搜尋引擎所支援之所有文字分析器的名稱。
名稱 | 類型 | Description |
---|---|---|
ar.lucene |
string |
阿拉伯文的 Lucene 分析器。 |
ar.microsoft |
string |
阿拉伯文的 Microsoft 分析器。 |
bg.lucene |
string |
適用於保加利亞的 Lucene 分析器。 |
bg.microsoft |
string |
適用於保加利亞文的 Microsoft 分析器。 |
bn.microsoft |
string |
適用於孟加拉國的 Microsoft 分析器。 |
ca.lucene |
string |
卡達尼亞文的 Lucene 分析器。 |
ca.microsoft |
string |
適用於卡達尼亞文的 Microsoft 分析器。 |
cs.lucene |
string |
適用於捷克文的 Lucene 分析器。 |
cs.microsoft |
string |
適用於捷克文的 Microsoft 分析器。 |
da.lucene |
string |
丹麥文的 Lucene 分析器。 |
da.microsoft |
string |
適用於丹麥文的 Microsoft 分析器。 |
de.lucene |
string |
德文的 Lucene 分析器。 |
de.microsoft |
string |
適用於德文的 Microsoft 分析器。 |
el.lucene |
string |
希臘文的 Lucene 分析器。 |
el.microsoft |
string |
適用於希臘文的 Microsoft 分析器。 |
en.lucene |
string |
適用於英文的 Lucene 分析器。 |
en.microsoft |
string |
適用於英文的 Microsoft 分析器。 |
es.lucene |
string |
西班牙文的 Lucene 分析器。 |
es.microsoft |
string |
適用於西班牙文的 Microsoft 分析器。 |
et.microsoft |
string |
適用於愛沙尼亞文的 Microsoft 分析器。 |
eu.lucene |
string |
適用於 Basque 的 Lucene 分析器。 |
fa.lucene |
string |
適用於波斯文的 Lucene 分析器。 |
fi.lucene |
string |
芬蘭文的 Lucene 分析器。 |
fi.microsoft |
string |
適用於芬蘭文的 Microsoft 分析器。 |
fr.lucene |
string |
法文的 Lucene 分析器。 |
fr.microsoft |
string |
適用於法文的 Microsoft 分析器。 |
ga.lucene |
string |
適用於愛爾蘭的 Lucene 分析器。 |
gl.lucene |
string |
Galician 的 Lucene 分析器。 |
gu.microsoft |
string |
適用於 Gujarati 的 Microsoft 分析器。 |
he.microsoft |
string |
適用於希伯來文的 Microsoft 分析器。 |
hi.lucene |
string |
適用於印度文的 Lucene 分析器。 |
hi.microsoft |
string |
適用於印度文的 Microsoft 分析器。 |
hr.microsoft |
string |
適用於克羅埃西亞的 Microsoft 分析器。 |
hu.lucene |
string |
適用於匈牙利文的 Lucene 分析器。 |
hu.microsoft |
string |
適用於匈牙利文的 Microsoft 分析器。 |
hy.lucene |
string |
適用於亞美尼亞文的 Lucene 分析器。 |
id.lucene |
string |
適用於印尼文的 Lucene 分析器。 |
id.microsoft |
string |
適用於印尼文的 Microsoft 分析器 (Bahasa) 。 |
is.microsoft |
string |
適用於挪威文的 Microsoft 分析器。 |
it.lucene |
string |
義大利文的 Lucene 分析器。 |
it.microsoft |
string |
義大利文的 Microsoft 分析器。 |
ja.lucene |
string |
適用於日文的 Lucene 分析器。 |
ja.microsoft |
string |
適用於日文的 Microsoft 分析器。 |
keyword |
string |
將欄位的整個內容視為單一語彙基元。 這適合用於郵遞區號、識別碼和產品名稱等資料。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
適用於 Kannada 的 Microsoft 分析器。 |
ko.lucene |
string |
韓文的 Lucene 分析器。 |
ko.microsoft |
string |
適用於韓文的 Microsoft 分析器。 |
lt.microsoft |
string |
適用於立陶宛文的 Microsoft 分析器。 |
lv.lucene |
string |
適用於義大利文的 Lucene 分析器。 |
lv.microsoft |
string |
適用於義大利文的 Microsoft 分析器。 |
ml.microsoft |
string |
Microsoft Analyzer for馬來亞蘭文。 |
mr.microsoft |
string |
適用於 Marathi 的 Microsoft 分析器。 |
ms.microsoft |
string |
Microsoft Analyzer for 馬來亞文 (拉丁) 。 |
nb.microsoft |
string |
適用於挪威文的 Microsoft 分析器 (Bokmål) 。 |
nl.lucene |
string |
荷蘭文的 Lucene 分析器。 |
nl.microsoft |
string |
適用於荷蘭文的 Microsoft 分析器。 |
no.lucene |
string |
挪威文的 Lucene 分析器。 |
pa.microsoft |
string |
適用於 Punjabi 的 Microsoft 分析器。 |
pattern |
string |
透過規則運算式模式彈性地將文字分割成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
波蘭文的 Lucene 分析器。 |
pl.microsoft |
string |
適用於波蘭文的 Microsoft 分析器。 |
pt-BR.lucene |
string |
葡萄牙文 (巴西) Lucene 分析器。 |
pt-BR.microsoft |
string |
巴西) 葡萄牙文 (Microsoft 分析器。 |
pt-PT.lucene |
string |
葡萄牙文 (葡萄牙文) 的 Lucene 分析器。 |
pt-PT.microsoft |
string |
葡萄牙 (葡萄牙) 的 Microsoft 分析器。 |
ro.lucene |
string |
適用於羅馬尼亞文的 Lucene 分析器。 |
ro.microsoft |
string |
適用於羅馬尼亞文的 Microsoft 分析器。 |
ru.lucene |
string |
適用於俄文的 Lucene 分析器。 |
ru.microsoft |
string |
適用於俄文的 Microsoft 分析器。 |
simple |
string |
在非字母的位置分割文字,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
適用於斯洛伐克文的 Microsoft 分析器。 |
sl.microsoft |
string |
斯洛維尼亞文的 Microsoft 分析器。 |
sr-cyrillic.microsoft |
string |
適用於塞爾維亞文 (斯拉夫) 的 Microsoft 分析器。 |
sr-latin.microsoft |
string |
適用於塞爾維亞文 (拉丁) 的 Microsoft 分析器。 |
standard.lucene |
string |
標準 Lucene 分析器。 |
standardasciifolding.lucene |
string |
標準 ASCII 折疊 Lucene 分析器。 請參閱 https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
以非字母分割文字;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
瑞典文的 Lucene 分析器。 |
sv.microsoft |
string |
適用於瑞典文的 Microsoft 分析器。 |
ta.microsoft |
string |
適用於 Tamil 的 Microsoft 分析器。 |
te.microsoft |
string |
適用於 Telugu 的 Microsoft 分析器。 |
th.lucene |
string |
泰文的 Lucene 分析器。 |
th.microsoft |
string |
適用於泰文的 Microsoft 分析器。 |
tr.lucene |
string |
適用於土耳其文的 Lucene 分析器。 |
tr.microsoft |
string |
適用於土耳其文的 Microsoft 分析器。 |
uk.microsoft |
string |
適用於烏克蘭的 Microsoft 分析器。 |
ur.microsoft |
string |
適用於 Urdu 的 Microsoft 分析器。 |
vi.microsoft |
string |
適用於越南文的 Microsoft 分析器。 |
whitespace |
string |
使用 whitespace Token 化工具的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
適用於簡體中文 () 的 Lucene 分析器。 |
zh-Hans.microsoft |
string |
適用於簡體中文 () 的 Microsoft 分析器。 |
zh-Hant.lucene |
string |
中文 (繁體中文) 的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
適用於繁體中文 (的 Microsoft 分析器) 。 |
LexicalNormalizerName
定義搜尋引擎所支援之所有文字正規化程序的名稱。
名稱 | 類型 | Description |
---|---|---|
asciifolding |
string |
如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
將標記文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
標準正規化程式,由小寫和 asciifolding 所組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
將標記文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定義搜尋引擎所支援之所有 Tokenizer 的名稱。
LimitTokenFilter
限制編製索引時的語彙基元數目。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
consumeAllTokens |
boolean |
False |
值,指出是否必須取用輸入中的所有令牌,即使達到 maxTokenCount 也一樣。 預設值為 false。 |
maxTokenCount |
integer |
1 |
要產生的令牌數目上限。 預設值為 1。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LuceneStandardAnalyzer
標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
stopwords |
string[] |
停用字詞的清單。 |
LuceneStandardTokenizer
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LuceneStandardTokenizerV2
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MagnitudeScoringFunction
定義根據數值欄位的大小提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
magnitude |
量級評分函式的參數值。 |
|
type |
string:
magnitude |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
MagnitudeScoringParameters
提供參數值給量級評分函式。
名稱 | 類型 | Description |
---|---|---|
boostingRangeEnd |
number |
提升結束的域值。 |
boostingRangeStart |
number |
啟動提升的域值。 |
constantBoostBeyondRange |
boolean |
值,指出是否為超出範圍結束值的域值套用常數提升;默認值為 false。 |
MappingCharFilter
字元篩選條件,會套用以對應選項定義的對應。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
mappings |
string[] |
下列格式的對應清單:「a=>b」 (所有出現的字元 「a」 都會取代為字元 「b」 ) 。 |
name |
string |
char 篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MicrosoftLanguageStemmingTokenizer
使用語言特有的規則來分割文字,並將字組縮減到其基本形式。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
值,表示如何使用Tokenizer。 如果當做搜尋Tokenizer使用,請將 設定為 true,如果用來作為索引標記化程式,則設定為 false。 預設值為 false。 |
language |
要使用的語言。 預設值為英文。 |
||
maxTokenLength |
integer |
255 |
令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌會根據設定的令牌長度上限來分割。 預設值為 255。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MicrosoftLanguageTokenizer
使用語言特有的規則分割文字。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
值,表示如何使用Tokenizer。 如果當做搜尋Tokenizer使用,請將 設定為 true,如果用來作為索引標記化程式,則設定為 false。 預設值為 false。 |
language |
要使用的語言。 預設值為英文。 |
||
maxTokenLength |
integer |
255 |
令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌會根據設定的令牌長度上限來分割。 預設值為 255。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MicrosoftStemmingTokenizerLanguage
清單 Microsoft 語言字幹分析令牌化程式支援的語言。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的 Microsoft 字幹分析標記化程式。 |
bangla |
string |
選取 Microsoft stemming tokenizer for Bangla。 |
bulgarian |
string |
選取適用於保加利亞文的 Microsoft 字幹分析令牌化程式。 |
catalan |
string |
選取卡達尼亞文的 Microsoft 字幹分析令牌化程式。 |
croatian |
string |
選取適用於克羅埃西亞文的 Microsoft 字幹分析令牌化程式。 |
czech |
string |
選取適用於捷克文的 Microsoft 字幹分析令牌化程式。 |
danish |
string |
選取丹麥文的 Microsoft 字幹分析令牌化程式。 |
dutch |
string |
選取荷蘭文的 Microsoft 字幹分析令牌化程式。 |
english |
string |
選取英文版的 Microsoft 字幹分析令牌化程式。 |
estonian |
string |
選取適用於愛沙尼亞文的 Microsoft 字幹分析令牌化程式。 |
finnish |
string |
選取芬蘭文的 Microsoft 字幹分析令牌化程式。 |
french |
string |
選取法文的 Microsoft 字幹分析令牌化程式。 |
german |
string |
選取德文的 Microsoft 字幹分析令牌化程式。 |
greek |
string |
選取希臘文的 Microsoft 字幹分析 Tokenizer。 |
gujarati |
string |
選取 Gujarati 的 Microsoft 字幹分析令牌化程式。 |
hebrew |
string |
選取希伯來文的 Microsoft 字幹分析令牌化程式。 |
hindi |
string |
選取印度文的 Microsoft 字幹分析令牌化程式。 |
hungarian |
string |
選取適用於匈牙利文的 Microsoft 字幹分析令牌化程式。 |
icelandic |
string |
選取適用於愛爾蘭文的 Microsoft 字幹分析令牌化程式。 |
indonesian |
string |
選取印尼文的 Microsoft 字幹分析令牌化程式。 |
italian |
string |
選取義大利文的 Microsoft 字幹分析令牌化程式。 |
kannada |
string |
選取 Kannada 的 Microsoft 字幹分析令牌化程式。 |
latvian |
string |
選取適用於義大利文的 Microsoft 字幹分析令牌化程式。 |
lithuanian |
string |
選取適用於波蘭文的 Microsoft 字幹分析令牌化程式。 |
malay |
string |
選取馬來文的 Microsoft 字幹分析令牌化程式。 |
malayalam |
string |
選取馬來亞文的 Microsoft 字幹分析令牌化程式。 |
marathi |
string |
選取 Marathi 的 Microsoft 字幹分析令牌化程式。 |
norwegianBokmaal |
string |
選取挪威文 (Bokmål) 的 Microsoft 字幹分析令牌化程式。 |
polish |
string |
選取波蘭文的 Microsoft 字幹分析令牌化工具。 |
portuguese |
string |
選取葡萄牙文的 Microsoft 字幹分析令牌化程式。 |
portugueseBrazilian |
string |
選取葡萄牙文 (巴西) 的 Microsoft 字幹分析令牌化程式。 |
punjabi |
string |
選取適用於 Punjabi 的 Microsoft 字幹分析令牌化程式。 |
romanian |
string |
選取適用於羅馬尼亞文的 Microsoft 字幹分析令牌化程式。 |
russian |
string |
選取俄文的 Microsoft 字幹分析令牌化程式。 |
serbianCyrillic |
string |
選取塞爾維亞文 (斯拉夫文) 的 Microsoft 字幹分析標記工具。 |
serbianLatin |
string |
選取塞爾維亞文 (拉丁文) 的 Microsoft 字幹分析標記工具。 |
slovak |
string |
選取適用於斯洛伐克文的 Microsoft 字幹分析令牌化程式。 |
slovenian |
string |
為斯洛維尼亞選取 Microsoft 字幹分析令牌化程式。 |
spanish |
string |
選取西班牙文的 Microsoft 字幹分析令牌化程式。 |
swedish |
string |
選取瑞典文的 Microsoft 字幹分析令牌化程式。 |
tamil |
string |
為 Tamil 選取 Microsoft 字幹分析令牌化程式。 |
telugu |
string |
選取 Telugu 的 Microsoft 字幹分析令牌化程式。 |
turkish |
string |
選取土耳其文的 Microsoft 字幹分析令牌化程式。 |
ukrainian |
string |
選取適用於烏克蘭文的 Microsoft 字幹分析令牌化程式。 |
urdu |
string |
選取 Urdu 的 Microsoft 字幹分析令牌化程式。 |
MicrosoftTokenizerLanguage
清單 Microsoft 語言令牌化程式支援的語言。
名稱 | 類型 | Description |
---|---|---|
bangla |
string |
選取 Microsoft Tokenizer for Bangla。 |
bulgarian |
string |
選取適用於保加利亞的 Microsoft Tokenizer。 |
catalan |
string |
選取卡達尼亞文的 Microsoft Tokenizer。 |
chineseSimplified |
string |
針對簡體中文 () 選取 Microsoft Tokenizer。 |
chineseTraditional |
string |
針對繁體中文 (選取 Microsoft Tokenizer) 。 |
croatian |
string |
選取適用於克羅埃西亞文的 Microsoft Tokenizer。 |
czech |
string |
選取適用於捷克文的 Microsoft Tokenizer。 |
danish |
string |
選取丹麥文的 Microsoft Tokenizer。 |
dutch |
string |
選取荷蘭文的 Microsoft Tokenizer。 |
english |
string |
選取適用於英文的 Microsoft Tokenizer。 |
french |
string |
選取適用於法文的 Microsoft Tokenizer。 |
german |
string |
選取德文的 Microsoft Tokenizer。 |
greek |
string |
選取希臘文的 Microsoft Tokenizer。 |
gujarati |
string |
選取 Gujarati 的 Microsoft Tokenizer。 |
hindi |
string |
選取印度文的 Microsoft Tokenizer。 |
icelandic |
string |
選取適用於挪威文的 Microsoft Tokenizer。 |
indonesian |
string |
選取印尼文的 Microsoft Tokenizer。 |
italian |
string |
選取義大利文的 Microsoft Tokenizer。 |
japanese |
string |
選取適用於日文的 Microsoft Tokenizer。 |
kannada |
string |
選取 Kannada 的 Microsoft Tokenizer。 |
korean |
string |
選取韓文的 Microsoft Tokenizer。 |
malay |
string |
選取馬來文的 Microsoft Tokenizer。 |
malayalam |
string |
選取馬來亞文的 Microsoft Tokenizer。 |
marathi |
string |
選取 Marathi 的 Microsoft Tokenizer。 |
norwegianBokmaal |
string |
選取挪威文 (Bokmål) 的 Microsoft Tokenizer。 |
polish |
string |
選取波蘭文的 Microsoft Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Microsoft Tokenizer。 |
portugueseBrazilian |
string |
選取葡萄牙文 (巴西) 的 Microsoft Tokenizer。 |
punjabi |
string |
選取適用於 Punjabi 的 Microsoft Tokenizer。 |
romanian |
string |
選取適用於羅馬尼亞文的 Microsoft Tokenizer。 |
russian |
string |
選取俄文的 Microsoft Tokenizer。 |
serbianCyrillic |
string |
選取塞爾維亞文 (斯拉夫文) 的 Microsoft Tokenizer。 |
serbianLatin |
string |
選取塞爾維亞文 (拉丁文) 的 Microsoft Tokenizer。 |
slovenian |
string |
選取斯洛維尼亞文的 Microsoft Tokenizer。 |
spanish |
string |
選取西班牙文的 Microsoft Tokenizer。 |
swedish |
string |
選取瑞典文的 Microsoft Tokenizer。 |
tamil |
string |
選取適用於 Tamil 的 Microsoft Tokenizer。 |
telugu |
string |
選取 Telugu 的 Microsoft Tokenizer。 |
thai |
string |
選取泰文的 Microsoft Tokenizer。 |
ukrainian |
string |
選取適用於烏克蘭文的 Microsoft Tokenizer。 |
urdu |
string |
選取 Urdu 的 Microsoft Tokenizer。 |
vietnamese |
string |
選取適用於越南文的 Microsoft Tokenizer。 |
NGramTokenFilter
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
NGramTokenFilterV2
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
NGramTokenizer
將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
tokenChars |
要保留在標記中的字元類別。 |
OutputFieldMappingEntry
技能的輸出欄位對應。
名稱 | 類型 | Description |
---|---|---|
name |
string |
技能所定義的輸出名稱。 |
targetName |
string |
輸出的目標名稱。 這是選擇性的,預設為 name。 |
PathHierarchyTokenizerV2
路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
delimiter |
string |
/ |
要使用的分隔符。 預設值為 “/”。 |
maxTokenLength |
integer |
300 |
令牌長度上限。 預設值和最大值為 300。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
replacement |
string |
/ |
值,如果設定,則會取代分隔符。 預設值為 “/”。 |
reverse |
boolean |
False |
值,指出是否要以反向順序產生令牌。 預設值為 false。 |
skip |
integer |
0 |
要略過的初始令牌數目。 預設值為 0。 |
PatternAnalyzer
透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
flags |
正則表達式旗標。 |
||
lowercase |
boolean |
True |
值,指出字詞是否應為小寫。 預設值為 true。 |
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
pattern |
string |
\W+ |
符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。 |
stopwords |
string[] |
停用字詞的清單。 |
PatternCaptureTokenFilter
使用 Java regex 來發出多個令牌 - 一個或多個模式中的每個擷取群組各一個令牌。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
patterns |
string[] |
要與每個令牌相符的模式清單。 |
|
preserveOriginal |
boolean |
True |
值,指出是否要傳回原始令牌,即使其中一個模式相符也一樣。 預設值為 true。 |
PatternReplaceCharFilter
字元篩選條件,取代輸入字串中的字元。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 「aa bb aa bb」 pattern 「 (aa) \s+ (bb) 」。,並取代 」$1#$2“,結果會是 ”aa#bb aa#bb“。 此字元篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
name |
string |
char 篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
pattern |
string |
正則表達式模式。 |
replacement |
string |
取代文字。 |
PatternReplaceTokenFilter
取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
pattern |
string |
正則表達式模式。 |
replacement |
string |
取代文字。 |
PatternTokenizer
使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
flags |
正則表達式旗標。 |
||
group |
integer |
-1 |
正則表達式模式中相符群組的以零起始序數,以擷取到標記中。 如果您想要使用整個模式將輸入分割成令牌,而不論相符的群組為何,請使用 -1。 預設值為 -1。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
pattern |
string |
\W+ |
符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。 |
PhoneticEncoder
識別要搭配 PhoneticTokenFilter 使用的注音編碼器類型。
名稱 | 類型 | Description |
---|---|---|
beiderMorse |
string |
將令牌編碼為 Beider-Morse 值。 |
caverphone1 |
string |
將令牌編碼為 Caverphone 1.0 值。 |
caverphone2 |
string |
將令牌編碼為 Caverphone 2.0 值。 |
cologne |
string |
將令牌編碼為「行動語音」值。 |
doubleMetaphone |
string |
將令牌編碼為雙元語音值。 |
haasePhonetik |
string |
使用 Kölner Phonetik 演算法的 Haase 精簡功能來編碼令牌。 |
koelnerPhonetik |
string |
使用 Kölner Phonetik 演演算法編碼令牌。 |
metaphone |
string |
將令牌編碼為 Metaphone 值。 |
nysiis |
string |
將令牌編碼為 NYSIIS 值。 |
refinedSoundex |
string |
將令牌編碼為 Refined Soundex 值。 |
soundex |
string |
將令牌編碼為 Soundex 值。 |
PhoneticTokenFilter
建立語音相符項目的語彙基元。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
encoder | metaphone |
要使用的注音編碼器。 預設值為 「metaphone」。。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
replace |
boolean |
True |
值,指出編碼的令牌是否應該取代原始令牌。 如果為 false,編碼的令牌會新增為同義字。 預設值為 true。 |
PrioritizedFields
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。
名稱 | 類型 | Description |
---|---|---|
prioritizedContentFields |
定義要用於語意排名、標題、醒目提示和答案的內容欄位。 為了獲得最佳結果,選取的字段應該包含自然語言格式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,則具有較低優先順序的欄位可能會遭到截斷。 |
|
prioritizedKeywordsFields |
定義要用於語意排名、標題、醒目提示和答案的關鍵詞欄位。 為了獲得最佳結果,選取的字段應該包含關鍵詞清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,則具有較低優先順序的欄位可能會遭到截斷。 |
|
titleField |
定義要用於語意排名、標題、醒目提示和答案的標題字段。 如果您的索引中沒有標題字段,請將此欄位保留空白。 |
RegexFlags
定義可以結合的旗標,以控制在模式分析器和模式Tokenizer中使用正則表達式的方式。
名稱 | 類型 | Description |
---|---|---|
CANON_EQ |
string |
啟用標準等價。 |
CASE_INSENSITIVE |
string |
啟用不區分大小寫的比對。 |
COMMENTS |
string |
允許模式中的空格元和批注。 |
DOTALL |
string |
啟用 dotall 模式。 |
LITERAL |
string |
啟用模式的常值剖析。 |
MULTILINE |
string |
啟用多行模式。 |
UNICODE_CASE |
string |
啟用 Unicode 感知大小寫折疊。 |
UNIX_LINES |
string |
啟用 Unix 行模式。 |
ScalarQuantizationParameters
包含純量量化特有的參數。
名稱 | 類型 | Description |
---|---|---|
quantizedDataType |
壓縮向量值的量化數據類型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
包含索引編製和查詢期間所使用純量量化壓縮方法專用的組態選項。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
defaultOversampling |
number |
默認過度取樣因數。 過度取樣會在內部要求更多檔, (這個乘數) 在初始搜尋中指定。 這會增加使用完整精確度向量重新計算相似度分數來重新計算的結果集。 最小值為 1,表示沒有過度取樣 (1x) 。 只有在 rerankWithOriginalVectors 為 true 時,才能設定此參數。 較高的值會提高回收率,但代價是延遲。 |
|
kind |
string:
scalar |
要設定用於向量搜尋的壓縮方法類型名稱。 |
|
name |
string |
要與此特定組態建立關聯的名稱。 |
|
rerankWithOriginalVectors |
boolean |
True |
如果設定為 true,一旦取得使用壓縮向量計算的已排序結果集之後,就會重新計算完整精確度相似度分數來重新叫用結果集。 這可改善回收時間,但代價是延遲。 |
scalarQuantizationParameters |
包含純量量化特有的參數。 |
ScoringFunctionAggregation
定義匯總函式,用來合併評分配置檔中所有評分函式的結果。
名稱 | 類型 | Description |
---|---|---|
average |
string |
依所有評分函式結果的平均值提升分數。 |
firstMatching |
string |
使用評分配置檔中的第一個適用評分函式來提升分數。 |
maximum |
string |
將所有評分函式結果的最大值提升分數。 |
minimum |
string |
將所有評分函式結果的最小值提升分數。 |
sum |
string |
依所有評分函式結果的總和提升分數。 |
ScoringFunctionInterpolation
定義用來在一系列檔中插補分數提升的函式。
名稱 | 類型 | Description |
---|---|---|
constant |
string |
以常數因素提升分數。 |
linear |
string |
以線性遞減的數量提升分數。 這是評分函式的預設插補。 |
logarithmic |
string |
將分數提升為以對數減少的數量。 快速降低分數,並隨著分數降低而變慢。 標記計分函數中不允許此插補選項。 |
quadratic |
string |
以四次減少的數量提升分數。 提升速度會緩慢降低以取得較高的分數,且分數降低的速度愈快。 標記計分函數中不允許此插補選項。 |
ScoringProfile
定義影響搜尋查詢評分之搜尋索引的參數。
名稱 | 類型 | Description |
---|---|---|
functionAggregation |
值,指出應該如何結合個別評分函式的結果。 預設為 「Sum」。 如果沒有評分函式,則會忽略。 |
|
functions | ScoringFunction[]: |
影響檔評分的函式集合。 |
name |
string |
評分配置檔的名稱。 |
text |
根據特定索引欄位中文字相符專案提升評分的參數。 |
SearchField
代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。
名稱 | 類型 | Description |
---|---|---|
analyzer |
要用於欄位的分析器名稱。 此選項只可以搭配可搜尋的欄位使用,而無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。 |
|
dimensions |
integer |
向量欄位的維度。 |
facetable |
boolean |
值,指出是否要在Facet查詢中參考欄位。 通常用於搜尋結果的呈現中,包括依類別排序的點擊計數 (例如,搜尋數字相機,並查看依品牌叫用、依百萬像素、價格等) 。 複雜欄位的這個屬性必須是 Null。 Edm.GeographyPoint 或集合類型的字段 (Edm.GeographyPoint) 不可多面向。 所有其他簡單欄位的預設值為 true。 |
fields |
如果這是類型為 Edm.ComplexType 或 Collection (Edm.ComplexType) 的欄位,則為子字段的清單。 簡單欄位必須是 Null 或空白。 |
|
filterable |
boolean |
值,指出是否要在$filter查詢中參考欄位。 filterable 與可搜尋的字串處理方式不同。 Edm.String 或 Collection 類型的欄位 (可篩選的 Edm.String) 不會進行斷字,因此比較僅適用於完全相符專案。 例如,如果您將這類字段 f 設定為 “ny day”,$filter=f eq 'ny' 找不到相符專案,但$filter=f eq 'ny day' 會。 複雜欄位的這個屬性必須是 Null。 針對簡單欄位,預設值為 true,複雜欄位則為 null。 |
indexAnalyzer |
用於欄位索引時間的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。 |
|
key |
boolean |
值,指出欄位是否可唯一識別索引中的檔。 每個索引中的最上層字段都必須選擇為索引鍵欄位,而且必須是Edm.String類型。 索引鍵欄位可用來直接查閱檔,並更新或刪除特定檔。 簡單欄位的預設值為 false,複雜欄位則為 null。 |
name |
string |
功能變數名稱,在索引或父字段的 fields 集合中必須是唯一的。 |
normalizer |
要用於欄位的正規化程序名稱。 此選項只能與啟用可篩選、可排序或可 Facet 的欄位搭配使用。 選擇正規化程序之後,就無法變更欄位。 複雜欄位必須是 Null。 |
|
retrievable |
boolean |
值,指出是否可以在搜尋結果中傳回欄位。 如果您想要使用欄位 (,例如,邊界) 做為篩選、排序或評分機制,但不想讓使用者看到字段,則可以停用此選項。 對於索引鍵欄位,此屬性必須是 true,複雜字段必須為 Null。 這個屬性可以在現有的欄位上變更。 啟用此屬性不會造成索引記憶體需求增加。 針對簡單欄位,預設值為 true、向量欄位為 false,而複雜欄位則為 null。 |
searchAnalyzer |
用於搜尋欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 此分析器可在現有欄位上更新。 複雜欄位必須是 Null。 |
|
searchable |
boolean |
值,指出欄位是否為全文搜索。 這表示它將在索引設定期間執行像是斷字的分析。 如果您為可搜尋的欄位設定像是「sunny day」的值,則系統會在內部將它分割為「sunny」和「day」這兩個個別的語彙基元。 這樣就能針對這些字詞進行全文檢索搜尋。 默認可搜尋類型為Edm.String或集合 (Edm.String) 的欄位。 對於其他非字串數據類型的簡單欄位,此屬性必須為 false,而且複雜欄位必須為 Null。 注意:可搜尋的欄位會耗用索引中的額外空間,以容納全文搜索的其他標記化域值版本。 如果您想要在索引中節省空間,而且不需要在搜尋中包含字段,請將 [可搜尋] 設定為 false。 |
sortable |
boolean |
值,指出是否要在$orderby運算式中參考字段。 根據預設,搜尋引擎會依分數排序結果,但在許多體驗中,使用者會想要依檔中的欄位排序。 只有在單一值 (父檔範圍內的單一值時,才能排序簡單字段) 。 簡單集合欄位無法排序,因為它們是多重值。 複雜集合的簡單子欄位也是多重值,因此無法排序。 不論是直接父欄位或上階字段,都是複雜的集合,都是如此。 複雜欄位無法排序,而且這類欄位的可排序屬性必須為 Null。 可排序的預設值為 true,針對單一值簡單欄位、針對多重值簡單欄位為 false,而複雜欄位則為 null。 |
stored |
boolean |
不可變的值,指出欄位是否會個別保存在要在搜尋結果中傳回的磁碟上。 如果您不打算在搜尋回應中傳回字段內容,以節省記憶體額外負荷,則可以停用此選項。 這隻能在索引建立期間設定,而且只能針對向量字段進行設定。 現有欄位無法變更此屬性,或針對新欄位設定為 false。 如果此屬性設定為 false,則屬性 『可擷取』 也必須設定為 false。 對於索引鍵欄位、新字段以及非向量欄位,此屬性必須是 true 或未設定,而且複雜欄位必須是 Null。 停用此屬性可減少索引記憶體需求。 向量欄位的預設值為 true。 |
synonymMaps |
string[] |
要與此欄位建立關聯的同義字名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前每個欄位只支援一個同義字對應。 將同義字對應指派給字段,可確保以該欄位為目標的查詢詞彙會在查詢時間使用同義字對應中的規則來展開。 這個屬性可以在現有的欄位上變更。 複雜欄位必須是 Null 或空白集合。 |
type |
欄位的數據類型。 |
|
vectorEncoding |
用來解譯欄位內容的編碼格式。 |
|
vectorSearchProfile |
string |
向量搜尋配置檔的名稱,指定搜尋向量字段時要使用的演算法和向量工具。 |
SearchFieldDataType
定義搜尋索引中欄位的數據類型。
名稱 | 類型 | Description |
---|---|---|
Edm.Boolean |
string |
表示欄位包含布爾值, (true 或 false) 。 |
Edm.Byte |
string |
表示欄位包含 8 位無符號整數。 只有在搭配集合 (Edm.Byte) 使用時才有效。 |
Edm.ComplexType |
string |
表示欄位包含一或多個複雜物件,而該物件又具有其他類型的子字段。 |
Edm.DateTimeOffset |
string |
表示欄位包含日期/時間值,包括時區資訊。 |
Edm.Double |
string |
表示欄位包含 IEEE 雙精確度浮點數。 |
Edm.GeographyPoint |
string |
表示欄位包含經度和緯度的地理位置。 |
Edm.Half |
string |
表示欄位包含半精確度浮點數。 這只有在搭配集合 (Edm.Half) 使用時才有效。 |
Edm.Int16 |
string |
表示欄位包含16位帶正負號的整數。 只有在搭配集合 (Edm.Int16) 使用時,才有效。 |
Edm.Int32 |
string |
表示欄位包含32位帶正負號的整數。 |
Edm.Int64 |
string |
表示欄位包含 64 位帶正負號的整數。 |
Edm.SByte |
string |
表示欄位包含 8 位帶正負號的整數。 只有在搭配集合 (Edm.SByte) 使用時,才有效。 |
Edm.Single |
string |
表示欄位包含單精度浮點數。 這只有在搭配集合 (Edm.Single) 使用時才有效。 |
Edm.String |
string |
表示欄位包含字串。 |
SearchIndex
表示搜尋索引定義,描述索引的欄位和搜尋行為。
名稱 | 類型 | Description |
---|---|---|
@odata.etag |
string |
索引的 ETag。 |
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
charFilters | CharFilter[]: |
索引的字元篩選。 |
corsOptions |
控制索引的跨原始來源資源分享 (CORS) 的選項。 |
|
defaultScoringProfile |
string |
如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf) 。 |
encryptionKey |
您在 Azure 金鑰保存庫 中建立的加密金鑰描述。 當您想要完整保證,即使 Microsoft 也無法解密您的數據時,此密鑰可用來為您的資料提供額外的待用加密層級。 加密數據之後,它一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 Null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於在 2019 年 1 月 1 日或之後建立的付費服務。 |
|
fields |
索引的欄位。 |
|
name |
string |
索引的名稱。 |
normalizers | LexicalNormalizer[]: |
索引的正規化程式。 |
scoringProfiles |
索引的評分配置檔。 |
|
semantic |
定義影響語意功能的搜尋索引參數。 |
|
similarity | Similarity: |
評分和排名符合搜尋查詢的檔時,要使用的相似度演算法類型。 相似度演算法只能在建立索引時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。 |
suggesters |
索引的建議工具。 |
|
tokenFilters |
TokenFilter[]:
|
索引的令牌篩選。 |
tokenizers | LexicalTokenizer[]: |
索引的Tokenizer。 |
vectorSearch |
包含與向量搜尋相關的組態選項。 |
SearchIndexerDataNoneIdentity
清除資料源的識別屬性。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定身分識別類型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用之數據源的身分識別。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定身分識別類型的 URI 片段。 |
userAssignedIdentity |
string |
使用者指派受控識別的完整 Azure 資源標識符,通常格式為 “/subscriptions/12345678-1234-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”,應該已指派給搜尋服務。 |
SearchResourceEncryptionKey
Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。
名稱 | 類型 | Description |
---|---|---|
accessCredentials |
用於存取 Azure 金鑰保存庫 的選擇性 Azure Active Directory 認證。 若改用受控識別,則不需要。 |
|
identity | SearchIndexerDataIdentity: |
要用於此加密金鑰的明確受控識別。 如果未指定,且存取認證屬性為 Null,則會使用系統指派的受控識別。 更新資源時,如果未指定明確的身分識別,則會維持不變。 如果指定了 「none」 則會清除此屬性的值。 |
keyVaultKeyName |
string |
要用來加密待用數據的 Azure 金鑰保存庫 金鑰名稱。 |
keyVaultKeyVersion |
string |
用來加密待用數據的 Azure 金鑰保存庫 金鑰版本。 |
keyVaultUri |
string |
Azure 金鑰保存庫 的 URI 也稱為 DNS 名稱,其中包含用來加密待用數據的密鑰。 範例 URI 可能是 |
SemanticConfiguration
定義要用於語意功能內容的特定組態。
名稱 | 類型 | Description |
---|---|---|
name |
string |
語意組態的名稱。 |
prioritizedFields |
描述要用於語意排名、標題、重點和答案的標題、內容和關鍵詞字段。 必須設定至少三個子屬性 (titleField、優先順序設定KeywordsFields 和優先順序的ContentFields) 。 |
SemanticField
做為語意設定一部分的欄位。
名稱 | 類型 | Description |
---|---|---|
fieldName |
string |
SemanticSettings
定義影響語意功能的搜尋索引參數。
名稱 | 類型 | Description |
---|---|---|
configurations |
索引的語意設定。 |
|
defaultConfiguration |
string |
可讓您在索引中設定預設語意組態的名稱,使其選擇性地每次傳遞為查詢參數。 |
ShingleTokenFilter
將語彙基元的組合建立為單一語彙基元。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
filterToken |
string |
_ |
要針對沒有標記的每個位置插入的字串。 默認值為底線 (“_”) 。 |
maxShingleSize |
integer |
2 |
擷取大小上限。 預設值和最小值為 2。 |
minShingleSize |
integer |
2 |
最小閃爍大小。 預設值和最小值為 2。 必須小於 maxShingleSize的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
outputUnigrams |
boolean |
True |
值,指出輸出數據流是否會包含輸入標記, (unigram) 以及隨機顯示。 預設值為 true。 |
outputUnigramsIfNoShingles |
boolean |
False |
值,指出是否要在沒有隨機顯示可用時輸出這些時間的 Unigram。 當 outputUnigrams 設定為 false 時,這個屬性會優先使用。 預設值為 false。 |
tokenSeparator |
string |
聯結相鄰標記以形成閃爍時所使用的字串。 預設值為單一空間 (“) 。 |
SnowballTokenFilter
使用 Snowball 產生的字幹分析器來建立字組的篩選。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
language |
要使用的語言。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
SnowballTokenFilterLanguage
用於 Snowball 令牌篩選的語言。
名稱 | 類型 | Description |
---|---|---|
armenian |
string |
為亞美尼亞文選取 Lucene Snowball 字幹分析令牌化程式。 |
basque |
string |
選取 Basque 的 Lucene Snowball 字幹分析令牌化程式。 |
catalan |
string |
選取卡達尼亞文的 Lucene Snowball 字幹分析令牌化程式。 |
danish |
string |
選取丹麥文的 Lucene Snowball 字幹分析令牌化程式。 |
dutch |
string |
選取荷蘭文的 Lucene Snowball 字幹分析令牌化程式。 |
english |
string |
選取適用於英文的 Lucene Snowball 字幹分析令牌化程式。 |
finnish |
string |
選取芬蘭文的 Lucene Snowball 字幹分析令牌化程式。 |
french |
string |
選取法文的 Lucene Snowball 字幹分析 Tokenizer。 |
german |
string |
選取德文的 Lucene Snowball 字幹分析令牌化程式。 |
german2 |
string |
選取使用德文變體演算法的 Lucene Snowball 字幹分析令牌化程式。 |
hungarian |
string |
為匈牙利文選取 Lucene Snowball 字幹分析標記工具。 |
italian |
string |
選取義大利文的 Lucene Snowball 字幹分析令牌化程式。 |
kp |
string |
針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene Snowball 字幹分析令牌化程式。 |
lovins |
string |
針對使用 Lovins 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。 |
norwegian |
string |
選取挪威文的 Lucene Snowball 字幹分析令牌化程式。 |
porter |
string |
針對使用 Porter 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Lucene Snowball 字幹分析令牌化程式。 |
romanian |
string |
選取羅馬尼亞文的 Lucene Snowball 字幹分析令牌化程式。 |
russian |
string |
選取俄文的 Lucene Snowball 字幹分析令牌化程式。 |
spanish |
string |
選取西班牙文的 Lucene Snowball 字幹分析令牌化程式。 |
swedish |
string |
選取瑞典文的 Lucene Snowball 字幹分析令牌化程式。 |
turkish |
string |
選取土耳其文的 Lucene Snowball 字幹分析令牌化程式。 |
StemmerOverrideTokenFilter
提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,使其不會以字幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
rules |
string[] |
下列格式的字幹規則清單:「word => stem」。,例如:「ran => run」。。 |
StemmerTokenFilter
語言特定字幹分析篩選器。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
language |
要使用的語言。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
StemmerTokenFilterLanguage
要用於字幹分析器令牌篩選的語言。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的 Lucene 字幹分析 Tokenizer。 |
armenian |
string |
選取亞美尼亞文的 Lucene 字幹分析令牌化程式。 |
basque |
string |
選取 Basque 的 Lucene 字幹分析 Tokenizer。 |
brazilian |
string |
選取葡萄牙文 (巴西) 的 Lucene 字幹分析令牌化程式。 |
bulgarian |
string |
為保加利亞文選取 Lucene 字幹分析令牌化程式。 |
catalan |
string |
選取卡達尼亞文的 Lucene 字幹分析令牌化程式。 |
czech |
string |
選取適用於捷克文的 Lucene 字幹分析令牌化程式。 |
danish |
string |
選取丹麥文的 Lucene 字幹分析令牌化程式。 |
dutch |
string |
選取荷蘭文的 Lucene 字幹分析 Tokenizer。 |
dutchKp |
string |
針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene 字幹分析令牌化程式。 |
english |
string |
選取英文的 Lucene 字幹分析令牌化程式。 |
finnish |
string |
選取芬蘭文的 Lucene 字幹分析 Tokenizer。 |
french |
string |
選取法文的 Lucene 字幹分析 Tokenizer。 |
galician |
string |
選取 Galician 的 Lucene 字幹分析令牌化程式。 |
german |
string |
選取德文的 Lucene 字幹分析 Tokenizer。 |
german2 |
string |
選取使用德文變異演算法的 Lucene 字幹分析令牌化程式。 |
greek |
string |
選取希臘文的 Lucene 字幹分析令牌化程式。 |
hindi |
string |
選取印度文的 Lucene 字幹分析令牌化程式。 |
hungarian |
string |
選取匈牙利文的 Lucene 字幹分析令牌化程式。 |
indonesian |
string |
選取印尼文的 Lucene 字幹分析令牌化程式。 |
irish |
string |
為愛爾蘭選取 Lucene 字幹分析令牌化程式。 |
italian |
string |
選取義大利文的 Lucene 字幹分析 Tokenizer。 |
latvian |
string |
選取適用於拉脫維亞文的 Lucene 字幹分析令牌化程式。 |
lightEnglish |
string |
針對執行淺色字幹分析的英文,選取 Lucene 字幹分析標記化程式。 |
lightFinnish |
string |
為芬蘭文選取執行光幹分析的 Lucene 字幹分析令牌化工具。 |
lightFrench |
string |
針對執行淺色字幹分析的法文,選取 Lucene 字幹分析令牌化工具。 |
lightGerman |
string |
針對德文選取 Lucene 字幹分析令牌化程式,以執行淺色字幹分析。 |
lightHungarian |
string |
針對進行淺色字幹分析的匈牙利文,選取 Lucene 字幹分析標記化程式。 |
lightItalian |
string |
針對義大利文,選取執行淺色字幹分析的 Lucene 字幹分析令牌化程式。 |
lightNorwegian |
string |
選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。 |
lightNynorsk |
string |
針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式。 |
lightPortuguese |
string |
針對執行光幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。 |
lightRussian |
string |
針對執行光幹分析的俄文,選取 Lucene 字幹分析令牌化工具。 |
lightSpanish |
string |
針對執行光幹分析的西班牙文,選取 Lucene 字幹分析 Tokenizer。 |
lightSwedish |
string |
針對執行淺色字幹分析的瑞典文,選取 Lucene 字幹分析令牌化程式。 |
lovins |
string |
針對使用 Lovins 字幹分析演算法的英文,選取 Lucene 字幹分析 Tokenizer。 |
minimalEnglish |
string |
針對執行最少字幹分析的英文,選取 Lucene 字幹分析 Tokenizer。 |
minimalFrench |
string |
針對執行最小字幹分析的法文,選取 Lucene 字幹分析 Tokenizer。 |
minimalGalician |
string |
針對執行最小字幹分析的 Galician,選取 Lucene 字幹分析令牌化程式。 |
minimalGerman |
string |
針對德文選取 Lucene 字幹分析令牌化程式,其會執行最少的字幹分析。 |
minimalNorwegian |
string |
針對挪威文 (Bokmål) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。 |
minimalNynorsk |
string |
針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。 |
minimalPortuguese |
string |
針對執行最少字幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。 |
norwegian |
string |
選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。 |
porter2 |
string |
針對使用 Porter2 字幹分析演算法的英文選取 Lucene 字幹分析 Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Lucene 字幹分析令牌化程式。 |
portugueseRslp |
string |
針對使用 RSLP 字幹分析演算法的葡萄牙文,選取 Lucene 字幹分析令牌化程式。 |
possessiveEnglish |
string |
針對英文選取 Lucene 字幹分析令牌化程式,以從單字中移除尾端擁有者。 |
romanian |
string |
選取羅馬尼亞文的 Lucene 字幹分析令牌化程式。 |
russian |
string |
選取俄文的 Lucene 字幹分析 Tokenizer。 |
sorani |
string |
選取 Sorani 的 Lucene 字幹分析 Tokenizer。 |
spanish |
string |
選取西班牙文的 Lucene 字幹分析令牌化程式。 |
swedish |
string |
選取瑞典文的 Lucene 字幹分析令牌化程式。 |
turkish |
string |
選取土耳其文的 Lucene 字幹分析令牌化程式。 |
StopAnalyzer
以非字母分割文字;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
stopwords |
string[] |
停用字詞的清單。 |
StopwordsList
識別預先定義的語言特定停用字詞清單。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的停用字詞清單。 |
armenian |
string |
選取亞美尼亞文的停用字詞清單。 |
basque |
string |
選取 Basque 的停用字詞清單。 |
brazilian |
string |
選取葡萄牙文 (巴西) 的停用字詞清單。 |
bulgarian |
string |
選取保加利亞文的停用字詞清單。 |
catalan |
string |
選取卡達尼亞文的停用字詞清單。 |
czech |
string |
選取捷克文的停用字詞清單。 |
danish |
string |
選取丹麥文的停用字詞清單。 |
dutch |
string |
選取荷蘭文的停用字詞清單。 |
english |
string |
選取英文的停用字詞清單。 |
finnish |
string |
選取芬蘭文的停用字詞清單。 |
french |
string |
選取法文的停用字詞清單。 |
galician |
string |
選取 Galician 的停用字詞清單。 |
german |
string |
選取德文的停用字詞清單。 |
greek |
string |
選取希臘文的停用字詞清單。 |
hindi |
string |
選取印度文的停用字詞清單。 |
hungarian |
string |
選取匈牙利文的停用字詞清單。 |
indonesian |
string |
選取印尼文的停用字詞清單。 |
irish |
string |
選取愛爾蘭的停用字詞清單。 |
italian |
string |
選取義大利文的停用字詞清單。 |
latvian |
string |
選取拉脫維亞文的停用字詞清單。 |
norwegian |
string |
選取挪威文的停用字詞清單。 |
persian |
string |
選取多國文的停用字詞清單。 |
portuguese |
string |
選取葡萄牙文的停用字詞清單。 |
romanian |
string |
選取羅馬尼亞文的停用字詞清單。 |
russian |
string |
選取俄文的停用字詞清單。 |
sorani |
string |
選取 Sorani 的停用字詞清單。 |
spanish |
string |
選取西班牙文的停用字詞清單。 |
swedish |
string |
選取瑞典文的停用字詞清單。 |
thai |
string |
選取泰文的停用字詞清單。 |
turkish |
string |
選取土耳其文的停用字詞清單。 |
StopwordsTokenFilter
從語彙基元資料流移除停用字詞。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
值,指出是否要忽略大小寫。 如果為 true,則會先將所有單字轉換成小寫。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
removeTrailing |
boolean |
True |
值,指出是否要忽略最後一個搜尋字詞是否為停用字詞。 預設值為 true。 |
stopwords |
string[] |
停用字詞清單。 無法設定這個屬性和停用字詞清單屬性。 |
|
stopwordsList | english |
要使用的停用字詞預先定義清單。 無法設定這個屬性和停用字詞屬性。 預設值為英文。 |
Suggester
定義建議 API 如何套用至索引中的欄位群組。
名稱 | 類型 | Description |
---|---|---|
name |
string |
建議工具的名稱。 |
searchMode |
值,指出建議工具的功能。 |
|
sourceFields |
string[] |
建議工具要套用的域名清單。 每個欄位都必須可供搜尋。 |
SuggesterSearchMode
值,表示建議工具的功能。
名稱 | 類型 | Description |
---|---|---|
analyzingInfixMatching |
string |
比對欄位中連續的整個詞彙和前置詞。 例如,針對欄位 'The fastest brown fox',查詢 'fast' 和 'fastest brow' 會兩者相符。 |
SynonymTokenFilter
比對令牌數據流中的單字或多字同義字。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
expand |
boolean |
True |
值,指出如果未使用 => 表示法,則表示同義字清單中的所有單字是否 (,) 對應至彼此。 如果為 true,則使用 => 表示法時,同義字清單中的所有單字都會 (,) 對應到另一個字組。 下列清單:令人讚歎、不可置信、令人讚歎、令人讚歎,相當於:令人讚歎、不可置信、令人讚歎、令人讚歎、 令人> 讚歎。 如果為 false,下列清單:令人讚歎、不可置信、令人讚歎、令人讚歎的,相當於:令人讚歎、不可置信、令人讚歎、 令人讚歎的 => 令人讚歎。 預設值為 true。 |
ignoreCase |
boolean |
False |
值,指出是否要以大小寫折迭輸入進行比對。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
synonyms |
string[] |
下列兩種格式之一的同義字清單:1。 unbelievable, unbelievable, 配量 => 令人讚歎 - => 符號左邊的所有字詞都會取代為其右側的所有字詞;2. 令人讚歎、不可相信、驚歎、令人讚歎 - 以逗號分隔的對等字清單。 設定 expand 選項來變更此清單的解譯方式。 |
TagScoringFunction
定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
tag |
標記評分函式的參數值。 |
|
type |
string:
tag |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
TagScoringParameters
提供標記評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
tagsParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定要與目標字段比較的標記清單。 |
TextWeights
定義索引欄位的加權,其相符項目應該在搜尋查詢中提升評分。
名稱 | 類型 | Description |
---|---|---|
weights |
object |
每個欄位加權的字典,可提升檔評分。 索引鍵是功能變數名稱,而值是每個欄位的加權。 |
TokenCharacterKind
表示令牌篩選可以運作的字元類別。
名稱 | 類型 | Description |
---|---|---|
digit |
string |
將數位保留在令牌中。 |
letter |
string |
將字母保留在令牌中。 |
punctuation |
string |
將標點符號保留在令牌中。 |
symbol |
string |
將符號保留在令牌中。 |
whitespace |
string |
將空格元保留在令牌中。 |
TokenFilterName
定義搜尋引擎所支援之所有令牌篩選的名稱。
TruncateTokenFilter
將詞彙截斷為特定長度。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
length |
integer |
300 |
將截斷字詞的長度。 預設值和最大值為 300。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
UaxUrlEmailTokenizer
將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
UniqueTokenFilter
篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
onlyOnSamePosition |
boolean |
False |
值,指出是否只移除相同位置的重複專案。 預設值為 false。 |
VectorEncodingFormat
用於解譯向量欄位內容的編碼格式。
名稱 | 類型 | Description |
---|---|---|
packedBit |
string |
編碼格式,表示封裝成較寬數據類型的位。 |
VectorSearch
包含與向量搜尋相關的組態選項。
名稱 | 類型 | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
包含索引編製或查詢期間所使用演算法的特定組態選項。 |
compressions | VectorSearchCompressionConfiguration[]: |
包含索引編製或查詢期間所使用之壓縮方法專用的組態選項。 |
profiles |
定義要與向量搜尋搭配使用的組態組合。 |
|
vectorizers | VectorSearchVectorizer[]: |
包含如何向量化文字向量查詢的組態選項。 |
VectorSearchAlgorithmKind
用於編製索引和查詢的演算法。
名稱 | 類型 | Description |
---|---|---|
exhaustiveKnn |
string |
將執行暴力密碼破解搜尋的詳盡 KNN 演算法。 |
hnsw |
string |
HNSW (階層式導覽小型世界) ,這是近似鄰近演算法的類型。 |
VectorSearchAlgorithmMetric
用於向量比較的相似度計量。 建議選擇與已定型內嵌模型相同的相似度計量。
名稱 | 類型 | Description |
---|---|---|
cosine |
string |
測量向量之間的角度,以量化其相似度,忽略大小。 角度越小,相似度越接近。 |
dotProduct |
string |
計算以量測對齊方式和大小相似度的專案型產品總和。 愈大且更正面,相似度越接近。 |
euclidean |
string |
計算多維度空間中向量之間的直線距離。 距離越小,相似度越接近。 |
hamming |
string |
僅適用於位封裝的二進位數據類型。 藉由計算二進位向量中不同的位置,判斷不同的差異性。 差異越少,相似度越接近。 |
VectorSearchCompressionKind
用於編製索引和查詢的壓縮方法。
名稱 | 類型 | Description |
---|---|---|
scalarQuantization |
string |
純量量化,這是一種壓縮方法。 在純量量化中,原始向量值會藉由離散化並表示使用一組縮減的量化值來表示向量的每個元件,以壓縮成較窄的類型,藉此減少整體數據大小。 |
VectorSearchCompressionTargetDataType
壓縮向量值的量化數據類型。
名稱 | 類型 | Description |
---|---|---|
int8 |
string |
VectorSearchProfile
定義要與向量搜尋搭配使用的組態組合。
名稱 | 類型 | Description |
---|---|---|
algorithm |
string |
指定演算法和選擇性參數的向量搜尋演算法組態名稱。 |
compression |
string |
指定壓縮方法和選擇性參數的壓縮方法組態名稱。 |
name |
string |
要與這個特定向量搜尋配置檔相關聯的名稱。 |
vectorizer |
string |
要設定用於向量搜尋的向量化方法類型名稱。 |
VectorSearchVectorizerKind
查詢期間要使用的向量化方法。
名稱 | 類型 | Description |
---|---|---|
aiServicesVision |
string |
使用 Azure AI 服務視覺向量化 API,在查詢時產生影像或文字輸入的內嵌。 |
aml |
string |
使用在查詢時間透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點產生內嵌。 |
azureOpenAI |
string |
在查詢時間使用 Azure OpenAI 資源產生內嵌。 |
customWebApi |
string |
在查詢時間使用自定義 Web 端點產生內嵌。 |
WordDelimiterTokenFilter
將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
catenateAll |
boolean |
False |
值,指出是否要停用所有子字詞部分。 例如,如果此值設定為 true,“Azure-Search-1” 會變成 “AzureSearch1”。 預設值為 false。 |
catenateNumbers |
boolean |
False |
值,指出是否要減少數目部分的最大執行次數。 例如,如果此值設定為 true,“1-2” 會變成 “12”。 預設值為 false。 |
catenateWords |
boolean |
False |
值,指出字組部分的運行時間上限是否會被貓化。 例如,如果此值設定為 true,“Azure-Search” 會變成 “AzureSearch”。 預設值為 false。 |
generateNumberParts |
boolean |
True |
值,指出是否要產生數位子字詞。 預設值為 true。 |
generateWordParts |
boolean |
True |
值,指出是否要產生部分字組。 如果設定,會導致產生部分字組;例如,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
preserveOriginal |
boolean |
False |
值,指出是否要保留原始字組並新增至子字詞清單。 預設值為 false。 |
protectedWords |
string[] |
要防止分隔的令牌清單。 |
|
splitOnCaseChange |
boolean |
True |
值,指出是否要在caseChange上分割單字。 例如,如果此值設定為 true,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。 |
splitOnNumerics |
boolean |
True |
值,指出是否要分割數位。 例如,如果此值設定為 true,“Azure1Search” 會變成 “Azure” “1” “Search”。 預設值為 true。 |
stemEnglishPossessive |
boolean |
True |
值,指出是否要移除每個子字詞的尾端 「s」。。 預設值為 true。 |