Indexes - Get
擷取索引定義。
GET {endpoint}/indexes('{indexName}')?api-version=2023-10-01-Preview
URI 參數
名稱 | 位於 | 必要 | 類型 | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜尋服務的端點 URL。 |
index
|
path | True |
string |
要擷取的索引名稱。 |
api-version
|
query | True |
string |
用戶端 API 版本。 |
要求標頭
名稱 | 必要 | 類型 | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
使用要求傳送的追蹤標識碼,以協助偵錯。 |
回應
名稱 | 類型 | Description |
---|---|---|
200 OK | ||
Other Status Codes |
錯誤回應。 |
範例
SearchServiceGetIndex
範例要求
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2023-10-01-Preview
範例回覆
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
定義
名稱 | Description |
---|---|
Ascii |
如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Azure |
為搜尋服務建立之已註冊應用程式的認證,用於驗證 Azure 金鑰保存庫 中所儲存加密金鑰的存取權。 |
Azure |
指定連線至 Azure OpenAI 資源的參數。 |
Azure |
指定用來向量化查詢字串的 Azure OpenAI 資源。 |
BM25Similarity |
以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似TF-IDF的演算法,其中包含由 'b' 參數 () 所控制的長度正規化,以及由 'k1' 參數所控制 (詞彙飽和度) 。 |
Char |
定義搜尋引擎所支援之所有字元篩選的名稱。 |
Cjk |
形成從標準Tokenizer產生的CJK詞彙 bigrams。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Cjk |
CjkBigramTokenFilter 可以忽略的腳本。 |
Classic |
使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 TF-IDF 的這個變化引進靜態文件長度正規化,以及協調只符合搜尋查詢的文件的協調因素。 |
Classic |
適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 實作。 |
Common |
在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Cors |
定義選項,以控制索引的跨原始來源資源分享 (CORS) 。 |
Custom |
可讓您控制將文字轉換成可編製索引/可搜尋標記的程式。 這是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選器所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。 |
Custom |
可讓您設定可篩選、可排序和可面向欄位的正規化,其預設會以嚴格的比對方式運作。 這是使用者定義的組態,其中包含至少一或多個篩選條件,可修改儲存的令牌。 |
Custom |
指定使用者定義的向量化程式,以產生查詢字串的內嵌向量。 使用技能集的自定義 Web API 介面來整合外部向量工具。 |
Custom |
指定連線至使用者定義向量工具的屬性。 |
Dictionary |
分解在許多日耳曼語系中找到的複合字。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Distance |
定義根據地理位置距離提升分數的函式。 |
Distance |
提供距離評分函式的參數值。 |
Edge |
從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Edge |
指定應該從中產生 n-gram 的輸入端。 |
Edge |
從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 此令牌篩選是使用 Apache Lucene 實作。 |
Edge |
將邊緣的輸入令牌化為指定大小 (s) 的 n-gram。 此 Tokenizer 是使用 Apache Lucene 實作。 |
Elision |
移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選是使用 Apache Lucene 實作。 |
Exhaustive |
包含詳盡 KNN 演算法特有的參數。 |
Exhaustive |
包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。 |
Freshness |
定義根據日期時間欄位值提升分數的函式。 |
Freshness |
提供新式評分函式的參數值。 |
Hnsw |
包含 HNSW 演算法特有的參數。 |
Hnsw |
包含 HNSW 近似鄰近演算法在編製索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度與精確度之間的無法取捨。 |
Keep |
令牌篩選條件,只保留包含指定單字清單中的文字標記。 此令牌篩選是使用 Apache Lucene 實作。 |
Keyword |
將字詞標示為關鍵字。 此令牌篩選是使用 Apache Lucene 實作。 |
Keyword |
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。 |
Keyword |
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。 |
Length |
移除太長或太短的文字。 此令牌篩選是使用 Apache Lucene 實作。 |
Lexical |
定義搜尋引擎所支援之所有文字分析器的名稱。 |
Lexical |
定義搜尋引擎所支援之所有文字正規化程序的名稱。 |
Lexical |
定義搜尋引擎所支援之所有 Tokenizer 的名稱。 |
Limit |
限制編製索引時的語彙基元數目。 此令牌篩選是使用 Apache Lucene 實作。 |
Lucene |
標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。 |
Lucene |
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Lucene |
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Magnitude |
定義根據數值欄位的大小提升分數的函式。 |
Magnitude |
提供參數值給量級評分函式。 |
Mapping |
套用對應選項所定義的對應字元篩選。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選是使用 Apache Lucene 實作。 |
Microsoft |
使用語言特有的規則來分割文字,並將字組縮減到其基本形式。 |
Microsoft |
使用語言特有的規則分割文字。 |
Microsoft |
清單 Microsoft 語言字幹分析令牌化程式支援的語言。 |
Microsoft |
清單 Microsoft 語言令牌化程式支援的語言。 |
NGram |
產生指定大小的 n-gram。 此令牌篩選是使用 Apache Lucene 實作。 |
NGram |
產生指定大小的 n-gram。 此令牌篩選是使用 Apache Lucene 實作。 |
NGram |
將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 實作。 |
Path |
路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 實作。 |
Pattern |
透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 來實作。 |
Pattern |
使用 Java regex 來發出多個令牌 -一個用於一或多個模式中的每個擷取群組。 此令牌篩選是使用 Apache Lucene 實作。 |
Pattern |
取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此字元篩選是使用 Apache Lucene 實作。 |
Pattern |
取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此令牌篩選是使用 Apache Lucene 實作。 |
Pattern |
使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Phonetic |
識別要搭配 PhoneticTokenFilter 使用的注音編碼器類型。 |
Phonetic |
建立語音相符項目的語彙基元。 此令牌篩選是使用 Apache Lucene 實作。 |
Prioritized |
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 |
Regex |
定義旗標,這些旗標可以結合以控制如何在模式分析器和模式標記化程式中使用正則表達式。 |
Scoring |
定義匯總函式,用來合併評分配置檔中所有評分函式的結果。 |
Scoring |
定義用來在一系列檔中插補分數提升的函式。 |
Scoring |
定義影響搜尋查詢評分之搜尋索引的參數。 |
Search |
描述 API 的錯誤狀況。 |
Search |
代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。 |
Search |
定義搜尋索引中欄位的數據類型。 |
Search |
表示搜尋索引定義,描述索引的欄位和搜尋行為。 |
Search |
清除資料源的識別屬性。 |
Search |
指定要使用之數據源的身分識別。 |
Search |
Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。 |
Semantic |
定義要用於語意功能內容的特定組態。 |
Semantic |
做為語意設定一部分的欄位。 |
Semantic |
定義影響語意功能的搜尋索引參數。 |
Shingle |
將語彙基元的組合建立為單一語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Snowball |
使用 Snowball 產生的字幹分析器進行字幹分析的篩選。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Snowball |
用於 Snowball 令牌篩選的語言。 |
Stemmer |
提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典詞幹字詞都會標示為關鍵詞,使其不會以詞幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Stemmer |
語言特定的詞幹篩選條件。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Stemmer |
要用於字幹分析器令牌篩選的語言。 |
Stop |
將文字除以非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作。 |
Stopwords |
識別預先定義的語言特定停用字詞清單。 |
Stopwords |
從語彙基元資料流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Suggester |
定義建議 API 如何套用至索引中的欄位群組。 |
Suggester |
值,表示建議工具的功能。 |
Synonym |
比對令牌數據流中的單一或多字同義字。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Tag |
定義函式,以符合指定標籤清單的字串值來提升檔的分數。 |
Tag |
提供標記評分函式的參數值。 |
Text |
定義索引欄位的加權,其相符項目應該在搜尋查詢中提升評分。 |
Token |
表示令牌篩選可以運作的字元類別。 |
Token |
定義搜尋引擎所支援之所有令牌篩選的名稱。 |
Truncate |
將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Uax |
將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 來實作。 |
Unique |
篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。 |
Vector |
包含與向量搜尋相關的組態選項。 |
Vector |
用於編製索引和查詢的演算法。 |
Vector |
用於向量比較的相似度計量。 |
Vector |
定義要與向量搜尋搭配使用的組態組合。 |
Vector |
查詢期間要使用的向量化方法。 |
Word |
將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。 |
AsciiFoldingTokenFilter
如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
preserveOriginal |
boolean |
False |
值,指出是否保留原始令牌。 預設值為 false。 |
AzureActiveDirectoryApplicationCredentials
為搜尋服務建立之已註冊應用程式的認證,用於驗證 Azure 金鑰保存庫 中所儲存加密金鑰的存取權。
名稱 | 類型 | Description |
---|---|---|
applicationId |
string |
AAD 應用程式識別碼,已授與 Azure 金鑰保存庫 所需的訪問許可權,用於加密待用數據時使用。 應用程式標識碼不應與 AAD 應用程式的物件標識元混淆。 |
applicationSecret |
string |
指定 AAD 應用程式的驗證金鑰。 |
AzureOpenAIParameters
指定連線至 Azure OpenAI 資源的參數。
名稱 | 類型 | Description |
---|---|---|
apiKey |
string |
指定之 Azure OpenAI 資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
resourceUri |
string |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIVectorizer
指定用來向量化查詢字串的 Azure OpenAI 資源。
名稱 | 類型 | Description |
---|---|---|
azureOpenAIParameters |
包含 Azure OpenAI 內嵌向量化特有的參數。 |
|
kind |
string:
azure |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法建立關聯的名稱。 |
BM25Similarity
以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似TF-IDF的演算法,其中包含由 'b' 參數 () 所控制的長度正規化,以及由 'k1' 參數所控制 (詞彙飽和度) 。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
此屬性可控制檔的長度如何影響相關性分數。 根據預設,會使用 0.75 的值。 值為 0.0 表示不會套用長度正規化,而值為 1.0 表示分數會由文件的長度完全正規化。 |
k1 |
number |
此屬性控制每個比對字詞的字詞頻率與文件查詢配對最終相關性分數之間的縮放函式。 根據預設,會使用1.2的值。 值為 0.0 表示分數不會隨著字詞頻率增加而調整。 |
CharFilterName
定義搜尋引擎所支援之所有字元篩選的名稱。
名稱 | 類型 | Description |
---|---|---|
html_strip |
string |
嘗試移除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成從標準Tokenizer產生的CJK詞彙 bigrams。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreScripts |
要忽略的腳本。 |
||
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
outputUnigrams |
boolean |
False |
值,指出是否要輸出 unigram 和 bigrams (如果為 true) ,或只輸出 false) 則為 bigrams (。 預設值為 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的腳本。
名稱 | 類型 | Description |
---|---|---|
han |
string |
當形成 CJK 詞彙的 bigram 時,請忽略 Han 腳本。 |
hangul |
string |
當形成 CJK 詞彙的 bigram 時,請忽略 Hangul 腳本。 |
hiragana |
string |
在形成 CJK 詞彙的 bigrams 時,忽略 Hiragana 腳本。 |
katakana |
string |
當形成 CJK 詞彙的 bigrams 時,請忽略片假名腳本。 |
ClassicSimilarity
使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 TF-IDF 的這個變化引進靜態文件長度正規化,以及協調只符合搜尋查詢的文件的協調因素。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
CommonGramTokenFilter
在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
commonWords |
string[] |
一組通用字組。 |
|
ignoreCase |
boolean |
False |
值,指出一般字組比對是否不區分大小寫。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
queryMode |
boolean |
False |
值,指出令牌篩選是否處於查詢模式。 在查詢模式中,令牌篩選會產生 bigrams,然後移除通用單字和單一字詞,後面接著一般單字。 預設值為 false。 |
CorsOptions
定義選項,以控制索引的跨原始來源資源分享 (CORS) 。
名稱 | 類型 | Description |
---|---|---|
allowedOrigins |
string[] |
JavaScript 程式代碼將授與索引存取權的來源清單。 可以包含 {protocol}://{完整域名}[:{port#}] 格式的主機列表,或單一 '*' 允許所有來源 (不建議) 。 |
maxAgeInSeconds |
integer |
瀏覽器應該快取 CORS 預檢回應的持續時間。 預設為5分鐘。 |
CustomAnalyzer
可讓您控制將文字轉換成可編製索引/可搜尋標記的程式。 這是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選器所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
charFilters |
在令牌化程式處理輸入文字之前,用來準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依列出的順序執行。 |
|
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
tokenFilters |
用來篩選或修改Tokenizer所產生的令牌篩選清單。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依列出的順序執行。 |
|
tokenizer |
用來將連續文字分割成一連串標記的Tokenizer名稱,例如將句子分成單字。 |
CustomNormalizer
可讓您設定可篩選、可排序和可面向欄位的正規化,其預設會以嚴格的比對方式運作。 這是使用者定義的組態,其中包含至少一或多個篩選條件,可修改儲存的令牌。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定正規化程序類型的 URI 片段。 |
charFilters |
用來在處理輸入文字之前準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依照列出的順序執行。 |
|
name |
string |
正規化程序的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不會命名為 'asciifolding'、'standard'、'lowercase'、'uppercase'或 'elision'。 |
tokenFilters |
用來篩選或修改輸入令牌的令牌篩選清單。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依照列出的順序執行。 |
CustomVectorizer
指定使用者定義的向量化程式,以產生查詢字串的內嵌向量。 使用技能集的自定義 Web API 介面來整合外部向量工具。
名稱 | 類型 | Description |
---|---|---|
customWebApiParameters |
指定使用者定義向量工具的屬性。 |
|
kind |
string:
custom |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法建立關聯的名稱。 |
CustomWebApiParameters
指定連線至使用者定義向量工具的屬性。
名稱 | 類型 | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引器的更新上,如果未指定身分識別,該值會保持不變。 如果設定為 「none」 則會清除此屬性的值。 |
authResourceId |
string |
適用於連線至 Azure 函式中外部程式代碼的自定義端點,或提供轉換的一些其他應用程式。 此值應該是在向 Azure Active Directory 註冊函式或應用程式時所建立的應用程式識別碼。 指定時,向量化會使用受控標識碼連接到函式或應用程式, (系統或使用者指派的搜尋服務) ,並使用此值作為建立存取令牌範圍的資源標識符。 |
httpHeaders |
object |
提出 HTTP 要求所需的標頭。 |
httpMethod |
string |
HTTP 要求的方法。 |
timeout |
string |
要求所需的逾時。 預設值為 30 秒。 |
uri |
string |
提供向量化工具之 Web API 的 URI。 |
DictionaryDecompounderTokenFilter
分解在許多日耳曼語系中找到的複合字。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxSubwordSize |
integer |
15 |
子字大小上限。 只會輸出比這個 短的子字詞。 預設值為 15。 最大值為300。 |
minSubwordSize |
integer |
2 |
子字大小下限。 只會輸出超過這個的子字詞。 預設值為 2。 最大值為300。 |
minWordSize |
integer |
5 |
字大小下限。 只處理超過這個的字組。 預設值為 5。 最大值為300。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
onlyLongestMatch |
boolean |
False |
值,指出是否只將最長相符的子字詞新增至輸出。 預設值為 false。 |
wordList |
string[] |
要比對的單字清單。 |
DistanceScoringFunction
定義根據地理位置距離提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
distance |
距離評分函式的參數值。 |
|
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
type |
string:
distance |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
DistanceScoringParameters
提供距離評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingDistance |
number |
從提升範圍結束的參考位置,以公里為單位的距離。 |
referencePointParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定參考位置。 |
EdgeNGramTokenFilter
從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n-gram 長度。 預設值為 2。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
side | front |
指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。 |
EdgeNGramTokenFilterSide
指定應該從中產生 n-gram 的輸入端。
名稱 | 類型 | Description |
---|---|---|
back |
string |
指定應該從輸入背面產生 n-gram。 |
front |
string |
指定應該從輸入前端產生 n-gram。 |
EdgeNGramTokenFilterV2
從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
side | front |
指定應該從中產生 n-gram 的輸入端。 預設值為 「front」。。 |
EdgeNGramTokenizer
將邊緣的輸入令牌化為指定大小 (s) 的 n-gram。 此 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
tokenChars |
要保留在令牌中的字元類別。 |
ElisionTokenFilter
移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
articles |
string[] |
要移除的一組發行項。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
ExhaustiveKnnParameters
包含詳盡 KNN 演算法特有的參數。
名稱 | 類型 | Description |
---|---|---|
metric |
用於向量比較的相似度計量。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。
名稱 | 類型 | Description |
---|---|---|
exhaustiveKnnParameters |
包含詳盡 KNN 演算法特有的參數。 |
|
kind |
string:
exhaustive |
要與向量搜尋搭配使用的演算法類型名稱。 |
name |
string |
要與此特定組態建立關聯的名稱。 |
FreshnessScoringFunction
定義根據日期時間欄位值提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
freshness |
最新評分函式的參數值。 |
|
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
type |
string:
freshness |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
FreshnessScoringParameters
提供新式評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingDuration |
string |
到期期間之後,特定檔將會停止提升。 |
HnswParameters
包含 HNSW 演算法特有的參數。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
efConstruction |
integer |
400 |
包含最接近鄰近的動態清單大小,在索引時間期間使用。 增加此參數可能會改善索引品質,但代價是編製索引時間增加。 在特定時間點,增加此參數會導致傳回減少。 |
efSearch |
integer |
500 |
動態清單的大小,其中包含搜尋期間所使用的最接近鄰近專案。 增加此參數可能會改善搜尋結果,但代價是搜尋速度較慢。 在特定時間點,增加此參數會導致傳回減少。 |
m |
integer |
4 |
建構期間針對每個新專案建立的雙向連結數目。 增加此參數值可改善回收次數,並減少具有高內建維度的數據集擷取時間,代價是記憶體耗用量增加和編製索引時間較長。 |
metric |
用於向量比較的相似度計量。 |
HnswVectorSearchAlgorithmConfiguration
包含 HNSW 近似鄰近演算法在編製索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度與精確度之間的無法取捨。
名稱 | 類型 | Description |
---|---|---|
hnswParameters |
包含 HNSW 演算法特有的參數。 |
|
kind |
string:
hnsw |
要與向量搜尋搭配使用的演算法類型名稱。 |
name |
string |
要與此特定組態建立關聯的名稱。 |
KeepTokenFilter
令牌篩選條件,只保留包含指定單字清單中的文字標記。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
keepWords |
string[] |
要保留的字詞清單。 |
|
keepWordsCase |
boolean |
False |
值,指出是否先小寫所有單字。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
KeywordMarkerTokenFilter
將字詞標示為關鍵字。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
值,指出是否要忽略大小寫。 如果為 true,則會先將所有單字轉換成小寫。 預設值為 false。 |
keywords |
string[] |
要標示為關鍵詞的單字清單。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
KeywordTokenizer
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
bufferSize |
integer |
256 |
以位元組為單位的讀取緩衝區大小。 預設值為 256。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
KeywordTokenizerV2
以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
256 |
令牌長度上限。 預設值為 256。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LengthTokenFilter
移除太長或太短的文字。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
max |
integer |
300 |
字元的最大長度。 預設值和最大值為 300。 |
min |
integer |
0 |
字元的最小長度。 預設值為 0。 最大值為300。 必須小於 max的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LexicalAnalyzerName
定義搜尋引擎所支援之所有文字分析器的名稱。
名稱 | 類型 | Description |
---|---|---|
ar.lucene |
string |
阿拉伯文的 Lucene 分析器。 |
ar.microsoft |
string |
阿拉伯文的 Microsoft 分析器。 |
bg.lucene |
string |
適用於保加利亞的 Lucene 分析器。 |
bg.microsoft |
string |
適用於保加利亞文的 Microsoft 分析器。 |
bn.microsoft |
string |
適用於孟加拉國的 Microsoft 分析器。 |
ca.lucene |
string |
卡達尼亞文的 Lucene 分析器。 |
ca.microsoft |
string |
適用於卡達尼亞文的 Microsoft 分析器。 |
cs.lucene |
string |
適用於捷克文的 Lucene 分析器。 |
cs.microsoft |
string |
適用於捷克文的 Microsoft 分析器。 |
da.lucene |
string |
丹麥文的 Lucene 分析器。 |
da.microsoft |
string |
適用於丹麥文的 Microsoft 分析器。 |
de.lucene |
string |
德文的 Lucene 分析器。 |
de.microsoft |
string |
適用於德文的 Microsoft 分析器。 |
el.lucene |
string |
希臘文的 Lucene 分析器。 |
el.microsoft |
string |
適用於希臘文的 Microsoft 分析器。 |
en.lucene |
string |
適用於英文的 Lucene 分析器。 |
en.microsoft |
string |
適用於英文的 Microsoft 分析器。 |
es.lucene |
string |
西班牙文的 Lucene 分析器。 |
es.microsoft |
string |
適用於西班牙文的 Microsoft 分析器。 |
et.microsoft |
string |
適用於愛沙尼亞文的 Microsoft 分析器。 |
eu.lucene |
string |
適用於 Basque 的 Lucene 分析器。 |
fa.lucene |
string |
適用於波斯文的 Lucene 分析器。 |
fi.lucene |
string |
芬蘭文的 Lucene 分析器。 |
fi.microsoft |
string |
適用於芬蘭文的 Microsoft 分析器。 |
fr.lucene |
string |
法文的 Lucene 分析器。 |
fr.microsoft |
string |
適用於法文的 Microsoft 分析器。 |
ga.lucene |
string |
適用於愛爾蘭的 Lucene 分析器。 |
gl.lucene |
string |
Galician 的 Lucene 分析器。 |
gu.microsoft |
string |
適用於 Gujarati 的 Microsoft 分析器。 |
he.microsoft |
string |
適用於希伯來文的 Microsoft 分析器。 |
hi.lucene |
string |
適用於印度文的 Lucene 分析器。 |
hi.microsoft |
string |
適用於印度文的 Microsoft 分析器。 |
hr.microsoft |
string |
適用於克羅埃西亞的 Microsoft 分析器。 |
hu.lucene |
string |
適用於匈牙利文的 Lucene 分析器。 |
hu.microsoft |
string |
適用於匈牙利文的 Microsoft 分析器。 |
hy.lucene |
string |
適用於亞美尼亞文的 Lucene 分析器。 |
id.lucene |
string |
印尼文的 Lucene 分析器。 |
id.microsoft |
string |
適用於印尼文 () 的 Microsoft 分析器。 |
is.microsoft |
string |
適用於愛爾蘭的 Microsoft 分析器。 |
it.lucene |
string |
義大利文的 Lucene 分析器。 |
it.microsoft |
string |
義大利文的 Microsoft 分析器。 |
ja.lucene |
string |
適用於日文的 Lucene 分析器。 |
ja.microsoft |
string |
適用於日文的 Microsoft 分析器。 |
keyword |
string |
將欄位的整個內容視為單一語彙基元。 這適合用於郵遞區號、識別碼和產品名稱等資料。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
適用於 Kannada 的 Microsoft 分析器。 |
ko.lucene |
string |
韓文的 Lucene 分析器。 |
ko.microsoft |
string |
適用於韓文的 Microsoft 分析器。 |
lt.microsoft |
string |
適用於立陶宛的 Microsoft 分析器。 |
lv.lucene |
string |
適用於拉脫維亞的 Lucene 分析器。 |
lv.microsoft |
string |
適用於義大利文的 Microsoft 分析器。 |
ml.microsoft |
string |
Microsoft Analyzer for馬來亞蘭文。 |
mr.microsoft |
string |
適用於 Marathi 的 Microsoft 分析器。 |
ms.microsoft |
string |
Microsoft Analyzer for 馬來亞文 (拉丁) 。 |
nb.microsoft |
string |
適用於挪威文的 Microsoft 分析器 (Bokmål) 。 |
nl.lucene |
string |
荷蘭文的 Lucene 分析器。 |
nl.microsoft |
string |
適用於荷蘭文的 Microsoft 分析器。 |
no.lucene |
string |
挪威文的 Lucene 分析器。 |
pa.microsoft |
string |
適用於 Punjabi 的 Microsoft 分析器。 |
pattern |
string |
透過規則運算式模式彈性地將文字分割成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
波蘭文的 Lucene 分析器。 |
pl.microsoft |
string |
適用於波蘭文的 Microsoft 分析器。 |
pt-BR.lucene |
string |
葡萄牙文 (巴西) Lucene 分析器。 |
pt-BR.microsoft |
string |
巴西) 葡萄牙文 (Microsoft 分析器。 |
pt-PT.lucene |
string |
葡萄牙文 (葡萄牙文) 的 Lucene 分析器。 |
pt-PT.microsoft |
string |
葡萄牙 (葡萄牙) 的 Microsoft 分析器。 |
ro.lucene |
string |
適用於羅馬尼亞文的 Lucene 分析器。 |
ro.microsoft |
string |
適用於羅馬尼亞文的 Microsoft 分析器。 |
ru.lucene |
string |
適用於俄文的 Lucene 分析器。 |
ru.microsoft |
string |
適用於俄文的 Microsoft 分析器。 |
simple |
string |
在非字母的位置分割文字,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
適用於斯洛伐克文的 Microsoft 分析器。 |
sl.microsoft |
string |
斯洛維尼亞文的 Microsoft 分析器。 |
sr-cyrillic.microsoft |
string |
適用於塞爾維亞文 (斯拉夫) 的 Microsoft 分析器。 |
sr-latin.microsoft |
string |
適用於塞爾維亞文 (拉丁) 的 Microsoft 分析器。 |
standard.lucene |
string |
標準 Lucene 分析器。 |
standardasciifolding.lucene |
string |
標準 ASCII 折疊 Lucene 分析器。 請參閱 https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
以非字母分割文字;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
瑞典文的 Lucene 分析器。 |
sv.microsoft |
string |
適用於瑞典文的 Microsoft 分析器。 |
ta.microsoft |
string |
適用於 Tamil 的 Microsoft 分析器。 |
te.microsoft |
string |
適用於 Telugu 的 Microsoft 分析器。 |
th.lucene |
string |
泰文的 Lucene 分析器。 |
th.microsoft |
string |
適用於泰文的 Microsoft 分析器。 |
tr.lucene |
string |
適用於土耳其文的 Lucene 分析器。 |
tr.microsoft |
string |
適用於土耳其文的 Microsoft 分析器。 |
uk.microsoft |
string |
適用於烏克蘭的 Microsoft 分析器。 |
ur.microsoft |
string |
適用於 Urdu 的 Microsoft 分析器。 |
vi.microsoft |
string |
適用於越南文的 Microsoft 分析器。 |
whitespace |
string |
使用 whitespace Token 化工具的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
適用於簡體中文 () 的 Lucene 分析器。 |
zh-Hans.microsoft |
string |
適用於簡體中文 () 的 Microsoft 分析器。 |
zh-Hant.lucene |
string |
中文 (繁體中文) 的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
適用於繁體中文 (的 Microsoft 分析器) 。 |
LexicalNormalizerName
定義搜尋引擎所支援之所有文字正規化程序的名稱。
名稱 | 類型 | Description |
---|---|---|
asciifolding |
string |
如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
將標記文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
標準正規化程式,由小寫和 asciifolding 所組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
將標記文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定義搜尋引擎所支援之所有 Tokenizer 的名稱。
LimitTokenFilter
限制編製索引時的語彙基元數目。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
consumeAllTokens |
boolean |
False |
值,指出是否必須取用輸入中的所有令牌,即使達到 maxTokenCount 也一樣。 預設值為 false。 |
maxTokenCount |
integer |
1 |
要產生的令牌數目上限。 預設值為 1。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LuceneStandardAnalyzer
標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。 |
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
stopwords |
string[] |
停用字詞清單。 |
LuceneStandardTokenizer
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
LuceneStandardTokenizerV2
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MagnitudeScoringFunction
定義根據數值欄位的大小提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
magnitude |
量級評分函式的參數值。 |
|
type |
string:
magnitude |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
MagnitudeScoringParameters
提供參數值給量級評分函式。
名稱 | 類型 | Description |
---|---|---|
boostingRangeEnd |
number |
提升結束的域值。 |
boostingRangeStart |
number |
啟動提升的域值。 |
constantBoostBeyondRange |
boolean |
值,指出是否為超出範圍結束值的域值套用常數提升;默認值為 false。 |
MappingCharFilter
套用對應選項所定義的對應字元篩選。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
mappings |
string[] |
下列格式的對應清單:「a=>b」 (字元 「a」 的所有出現項目都會取代為字元 「b」 ) 。 |
name |
string |
字元篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MicrosoftLanguageStemmingTokenizer
使用語言特有的規則來分割文字,並將字組縮減到其基本形式。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
值,指出如何使用Tokenizer。 如果做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,請將 設定為 false。 預設值為 false。 |
language |
要使用的語言。 預設值為英文。 |
||
maxTokenLength |
integer |
255 |
令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據最大令牌長度集進行分割。 預設值為 255。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MicrosoftLanguageTokenizer
使用語言特有的規則分割文字。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
值,指出如何使用Tokenizer。 如果做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,請將 設定為 false。 預設值為 false。 |
language |
要使用的語言。 預設值為英文。 |
||
maxTokenLength |
integer |
255 |
令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據最大令牌長度集進行分割。 預設值為 255。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
MicrosoftStemmingTokenizerLanguage
清單 Microsoft 語言字幹分析令牌化程式支援的語言。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的 Microsoft 字幹分析 Tokenizer。 |
bangla |
string |
選取孟加拉國文的 Microsoft 字幹分析令牌化程式。 |
bulgarian |
string |
選取適用於保加利亞文的 Microsoft 字幹分析 Tokenizer。 |
catalan |
string |
選取卡達尼亞文的 Microsoft 字幹分析令牌化程式。 |
croatian |
string |
選取克羅埃西亞文的 Microsoft 字幹分析 Tokenizer。 |
czech |
string |
選取適用於捷克文的 Microsoft 字幹分析 Tokenizer。 |
danish |
string |
選取丹麥文的 Microsoft 字幹分析 Tokenizer。 |
dutch |
string |
選取荷蘭文的 Microsoft 字幹分析 Tokenizer。 |
english |
string |
選取英文的 Microsoft 字幹分析 Tokenizer。 |
estonian |
string |
選取適用於愛沙尼亞文的 Microsoft 字幹分析令牌化程式。 |
finnish |
string |
選取芬蘭文的 Microsoft 字幹分析 Tokenizer。 |
french |
string |
選取法文的 Microsoft 字幹分析 Tokenizer。 |
german |
string |
選取德文的 Microsoft 字幹分析 Tokenizer。 |
greek |
string |
選取希臘文的 Microsoft 字幹分析 Tokenizer。 |
gujarati |
string |
選取 Gujarati 的 Microsoft 字幹分析 Tokenizer。 |
hebrew |
string |
選取希伯來文的 Microsoft 字幹分析 Tokenizer。 |
hindi |
string |
選取印度文的 Microsoft 字幹分析令牌化程式。 |
hungarian |
string |
選取匈牙利文的 Microsoft 字幹分析 Tokenizer。 |
icelandic |
string |
選取適用於愛爾蘭文的 Microsoft 字幹分析 Tokenizer。 |
indonesian |
string |
選取印尼文的 Microsoft 字幹分析令牌化工具。 |
italian |
string |
選取義大利文的 Microsoft 字幹分析 Tokenizer。 |
kannada |
string |
選取 Kannada 的 Microsoft 字幹分析令牌化程式。 |
latvian |
string |
選取適用於義大利文的 Microsoft 字幹分析 Tokenizer。 |
lithuanian |
string |
選取立陶宛文的 Microsoft 字幹分析 Tokenizer。 |
malay |
string |
選取馬來亞文的 Microsoft 字幹分析令牌化工具。 |
malayalam |
string |
選取馬來亞蘭文的 Microsoft 字幹分析令牌化程式。 |
marathi |
string |
選取 Marathi 的 Microsoft 字幹分析令牌化程式。 |
norwegianBokmaal |
string |
選取挪威文 (Bokmål) 的 Microsoft 字幹標記化程式。 |
polish |
string |
選取波蘭文的 Microsoft 字幹分析 Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Microsoft 字幹分析 Tokenizer。 |
portugueseBrazilian |
string |
選取葡萄牙文 (巴西) 的 Microsoft 字幹分析令牌化程式。 |
punjabi |
string |
選取 Punjabi 的 Microsoft 字幹分析令牌化程式。 |
romanian |
string |
選取適用於羅馬尼亞文的 Microsoft 字幹分析令牌化程式。 |
russian |
string |
選取俄文的 Microsoft 字幹分析令牌化程式。 |
serbianCyrillic |
string |
選取塞爾維亞文 (斯拉夫文) 的 Microsoft 字幹分析標記工具。 |
serbianLatin |
string |
選取塞爾維亞文 (拉丁文) 的 Microsoft 字幹分析標記工具。 |
slovak |
string |
選取適用於斯洛伐克文的 Microsoft 字幹分析令牌化程式。 |
slovenian |
string |
為斯洛維尼亞選取 Microsoft 字幹分析令牌化程式。 |
spanish |
string |
選取西班牙文的 Microsoft 字幹分析令牌化程式。 |
swedish |
string |
選取瑞典文的 Microsoft 字幹分析令牌化程式。 |
tamil |
string |
為 Tamil 選取 Microsoft 字幹分析令牌化程式。 |
telugu |
string |
選取 Telugu 的 Microsoft 字幹分析令牌化程式。 |
turkish |
string |
選取土耳其文的 Microsoft 字幹分析令牌化程式。 |
ukrainian |
string |
選取適用於烏克蘭文的 Microsoft 字幹分析令牌化程式。 |
urdu |
string |
選取 Urdu 的 Microsoft 字幹分析令牌化程式。 |
MicrosoftTokenizerLanguage
清單 Microsoft 語言令牌化程式支援的語言。
名稱 | 類型 | Description |
---|---|---|
bangla |
string |
選取孟加拉國文的 Microsoft Tokenizer。 |
bulgarian |
string |
選取適用於保加利亞文的 Microsoft Tokenizer。 |
catalan |
string |
選取卡達尼亞文的 Microsoft Tokenizer。 |
chineseSimplified |
string |
針對簡體中文 (選取 Microsoft Tokenizer) 。 |
chineseTraditional |
string |
選取繁體中文 (傳統) 的 Microsoft Tokenizer。 |
croatian |
string |
選取克羅埃西亞文的 Microsoft Tokenizer。 |
czech |
string |
選取適用於捷克文的 Microsoft Tokenizer。 |
danish |
string |
選取丹麥文的 Microsoft Tokenizer。 |
dutch |
string |
選取荷蘭文的 Microsoft Tokenizer。 |
english |
string |
選取英文版的 Microsoft Tokenizer。 |
french |
string |
選取法文的 Microsoft Tokenizer。 |
german |
string |
選取德文的 Microsoft Tokenizer。 |
greek |
string |
選取希臘文的 Microsoft Tokenizer。 |
gujarati |
string |
選取 Gujarati 的 Microsoft Tokenizer。 |
hindi |
string |
選取適用於印度文的 Microsoft Tokenizer。 |
icelandic |
string |
選取適用於愛爾蘭文的 Microsoft Tokenizer。 |
indonesian |
string |
選取印尼文的 Microsoft Tokenizer。 |
italian |
string |
選取義大利文的 Microsoft Tokenizer。 |
japanese |
string |
選取日文的 Microsoft Tokenizer。 |
kannada |
string |
選取 Kannada 的 Microsoft Tokenizer。 |
korean |
string |
選取韓文的 Microsoft Tokenizer。 |
malay |
string |
選取馬來亞文的 Microsoft Tokenizer。 |
malayalam |
string |
選取馬來亞蘭文的 Microsoft Tokenizer。 |
marathi |
string |
選取 Marathi 的 Microsoft Tokenizer。 |
norwegianBokmaal |
string |
選取挪威文的 Microsoft tokenizer (Bokmål) 。 |
polish |
string |
選取適用於波蘭文的 Microsoft Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Microsoft Tokenizer。 |
portugueseBrazilian |
string |
選取葡萄牙文 (巴西) 的 Microsoft Tokenizer。 |
punjabi |
string |
選取 Punjabi 的 Microsoft Tokenizer。 |
romanian |
string |
選取適用於羅馬尼亞文的 Microsoft Tokenizer。 |
russian |
string |
選取俄文的 Microsoft Tokenizer。 |
serbianCyrillic |
string |
選取塞爾維亞文 (斯拉夫) 的 Microsoft Tokenizer。 |
serbianLatin |
string |
選取塞爾維亞文 (拉丁) 的 Microsoft Tokenizer。 |
slovenian |
string |
選取斯洛維尼亞文的 Microsoft Tokenizer。 |
spanish |
string |
選取西班牙文的 Microsoft Tokenizer。 |
swedish |
string |
選取瑞典文的 Microsoft Tokenizer。 |
tamil |
string |
選取 Tamil 的 Microsoft Tokenizer。 |
telugu |
string |
選取 Telugu 的 Microsoft Tokenizer。 |
thai |
string |
選取泰文的 Microsoft Tokenizer。 |
ukrainian |
string |
選取適用於烏克蘭文的 Microsoft Tokenizer。 |
urdu |
string |
選取 Urdu 的 Microsoft Tokenizer。 |
vietnamese |
string |
選取越南文的 Microsoft Tokenizer。 |
NGramTokenFilter
產生指定大小的 n-gram。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
NGramTokenFilterV2
產生指定大小的 n-gram。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
NGramTokenizer
將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
tokenChars |
要保留在令牌中的字元類別。 |
PathHierarchyTokenizerV2
路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
delimiter |
string |
/ |
要使用的分隔符。 預設值為 “/”。 |
maxTokenLength |
integer |
300 |
令牌長度上限。 預設值和最大值為 300。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
replacement |
string |
/ |
值,如果設定,則會取代分隔符。 預設值為 “/”。 |
reverse |
boolean |
False |
值,指出是否要以反向順序產生令牌。 預設值為 false。 |
skip |
integer |
0 |
要略過的初始令牌數目。 預設值為 0。 |
PatternAnalyzer
透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
flags |
正則表達式旗標。 |
||
lowercase |
boolean |
True |
值,指出字詞是否應為小寫。 預設值為 true。 |
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
pattern |
string |
\W+ |
符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。 |
stopwords |
string[] |
停用字詞的清單。 |
PatternCaptureTokenFilter
使用 Java regex 來發出多個令牌 -一個用於一或多個模式中的每個擷取群組。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
patterns |
string[] |
要與每個令牌相符的模式清單。 |
|
preserveOriginal |
boolean |
True |
值,指出是否要傳回原始令牌,即使其中一個模式相符也一樣。 預設值為 true。 |
PatternReplaceCharFilter
取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此字元篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
name |
string |
字元篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
pattern |
string |
正則表達式模式。 |
replacement |
string |
取代文字。 |
PatternReplaceTokenFilter
取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
pattern |
string |
正則表達式模式。 |
replacement |
string |
取代文字。 |
PatternTokenizer
使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
flags |
正則表達式旗標。 |
||
group |
integer |
-1 |
正則表達式模式中相符群組的以零起始序數,以擷取到標記中。 如果您想要使用整個模式將輸入分割成令牌,而不論相符的群組為何,請使用 -1。 預設值為 -1。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
pattern |
string |
\W+ |
符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。 |
PhoneticEncoder
識別要搭配 PhoneticTokenFilter 使用的注音編碼器類型。
名稱 | 類型 | Description |
---|---|---|
beiderMorse |
string |
將令牌編碼為 Beider-Morse 值。 |
caverphone1 |
string |
將令牌編碼為 Caverphone 1.0 值。 |
caverphone2 |
string |
將令牌編碼為 Caverphone 2.0 值。 |
cologne |
string |
將令牌編碼為「行動語音」值。 |
doubleMetaphone |
string |
將令牌編碼為雙元語音值。 |
haasePhonetik |
string |
使用 Kölner Phonetik 演算法的 Haase 精簡功能來編碼令牌。 |
koelnerPhonetik |
string |
使用 Kölner Phonetik 演演算法編碼令牌。 |
metaphone |
string |
將令牌編碼為 Metaphone 值。 |
nysiis |
string |
將令牌編碼為 NYSIIS 值。 |
refinedSoundex |
string |
將令牌編碼為 Refined Soundex 值。 |
soundex |
string |
將令牌編碼為 Soundex 值。 |
PhoneticTokenFilter
建立語音相符項目的語彙基元。 此令牌篩選是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
encoder | metaphone |
要使用的注音編碼器。 預設值為 「metaphone」。。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
replace |
boolean |
True |
值,指出編碼令牌是否應該取代原始令牌。 如果為 false,編碼的令牌會新增為同義字。 預設值為 true。 |
PrioritizedFields
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。
名稱 | 類型 | Description |
---|---|---|
prioritizedContentFields |
定義要用於語意排名、標題、醒目提示和答案的內容欄位。 為了獲得最佳結果,選取的字段應該包含自然語言格式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,則具有較低優先順序的欄位可能會遭到截斷。 |
|
prioritizedKeywordsFields |
定義要用於語意排名、標題、醒目提示和答案的關鍵詞欄位。 為了獲得最佳結果,選取的字段應該包含關鍵詞清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,則具有較低優先順序的欄位可能會遭到截斷。 |
|
titleField |
定義要用於語意排名、標題、醒目提示和答案的標題字段。 如果您的索引中沒有標題字段,請將此欄位保留空白。 |
RegexFlags
定義旗標,這些旗標可以結合以控制如何在模式分析器和模式標記化程式中使用正則表達式。
名稱 | 類型 | Description |
---|---|---|
CANON_EQ |
string |
啟用標準等價。 |
CASE_INSENSITIVE |
string |
啟用不區分大小寫的比對。 |
COMMENTS |
string |
允許模式中的空格元和批注。 |
DOTALL |
string |
啟用 dotall 模式。 |
LITERAL |
string |
啟用模式的常值剖析。 |
MULTILINE |
string |
啟用多行模式。 |
UNICODE_CASE |
string |
啟用 Unicode 感知大小寫折疊。 |
UNIX_LINES |
string |
啟用 Unix 行模式。 |
ScoringFunctionAggregation
定義匯總函式,用來合併評分配置檔中所有評分函式的結果。
名稱 | 類型 | Description |
---|---|---|
average |
string |
依所有評分函式結果的平均值提升分數。 |
firstMatching |
string |
使用評分配置檔中的第一個適用評分函式來提升分數。 |
maximum |
string |
將所有評分函式結果的最大值提升分數。 |
minimum |
string |
將所有評分函式結果的最小值提升分數。 |
sum |
string |
依所有評分函式結果的總和提升分數。 |
ScoringFunctionInterpolation
定義用來在一系列檔中插補分數提升的函式。
名稱 | 類型 | Description |
---|---|---|
constant |
string |
以常數因素提升分數。 |
linear |
string |
以線性遞減的數量提升分數。 這是評分函式的預設插補。 |
logarithmic |
string |
將分數提升為以對數減少的數量。 快速降低分數,並隨著分數降低而變慢。 標記計分函數中不允許此插補選項。 |
quadratic |
string |
以四次減少的數量提升分數。 提升速度會緩慢降低以取得較高的分數,且分數降低的速度愈快。 標記計分函數中不允許此插補選項。 |
ScoringProfile
定義影響搜尋查詢評分之搜尋索引的參數。
名稱 | 類型 | Description |
---|---|---|
functionAggregation |
值,指出應該如何結合個別評分函式的結果。 預設為 「Sum」。 如果沒有評分函式,則會忽略。 |
|
functions | ScoringFunction[]: |
影響檔評分的函式集合。 |
name |
string |
評分配置檔的名稱。 |
text |
根據特定索引欄位中文字相符專案提升評分的參數。 |
SearchError
描述 API 的錯誤狀況。
名稱 | 類型 | Description |
---|---|---|
code |
string |
其中一組伺服器定義的錯誤碼。 |
details |
導致此錯誤之特定錯誤的詳細數據陣列。 |
|
message |
string |
人類可讀取的錯誤表示法。 |
SearchField
代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。
名稱 | 類型 | Description |
---|---|---|
analyzer |
要用於欄位的分析器名稱。 此選項只可以搭配可搜尋的欄位使用,而無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。 |
|
dimensions |
integer |
向量欄位的維度。 |
facetable |
boolean |
值,指出是否要在Facet查詢中參考欄位。 通常用於搜尋結果的呈現中,包括依類別排序的點擊計數 (例如,搜尋數字相機,並查看依品牌叫用、依百萬像素、價格等) 。 複雜欄位的這個屬性必須是 Null。 Edm.GeographyPoint 或集合類型的字段 (Edm.GeographyPoint) 不可多面向。 所有其他簡單欄位的預設值為 true。 |
fields |
如果這是類型為 Edm.ComplexType 或 Collection (Edm.ComplexType) 的欄位,則為子字段的清單。 簡單欄位必須是 Null 或空白。 |
|
filterable |
boolean |
值,指出是否要在$filter查詢中參考欄位。 filterable 與可搜尋的字串處理方式不同。 Edm.String 或 Collection 類型的欄位 (可篩選的 Edm.String) 不會進行斷字,因此比較僅適用於完全相符專案。 例如,如果您將這類字段 f 設定為 “ny day”,$filter=f eq 'ny' 找不到相符專案,但$filter=f eq 'ny day' 會。 複雜欄位的這個屬性必須是 Null。 針對簡單欄位,預設值為 true,複雜欄位則為 null。 |
indexAnalyzer |
用於欄位索引時間的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。 |
|
key |
boolean |
值,指出欄位是否可唯一識別索引中的檔。 每個索引中的最上層字段都必須選擇為索引鍵欄位,而且必須是Edm.String類型。 索引鍵欄位可用來直接查閱檔,並更新或刪除特定檔。 簡單欄位的預設值為 false,複雜欄位則為 null。 |
name |
string |
功能變數名稱,在索引或父字段的 fields 集合中必須是唯一的。 |
normalizer |
要用於欄位的正規化程序名稱。 此選項只能與啟用可篩選、可排序或可 Facet 的欄位搭配使用。 選擇正規化程序之後,就無法變更欄位。 複雜欄位必須是 Null。 |
|
retrievable |
boolean |
值,指出是否可以在搜尋結果中傳回欄位。 如果您想要使用欄位 (,例如,邊界) 做為篩選、排序或評分機制,但不想讓使用者看到字段,則可以停用此選項。 對於索引鍵欄位,此屬性必須是 true,複雜字段必須為 Null。 這個屬性可以在現有的欄位上變更。 啟用此屬性不會造成索引記憶體需求增加。 針對簡單欄位,預設值為 true,複雜欄位則為 null。 |
searchAnalyzer |
用於搜尋欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 此分析器可在現有欄位上更新。 複雜欄位必須是 Null。 |
|
searchable |
boolean |
值,指出欄位是否為全文搜索。 這表示它將在索引設定期間執行像是斷字的分析。 如果您為可搜尋的欄位設定像是「sunny day」的值,則系統會在內部將它分割為「sunny」和「day」這兩個個別的語彙基元。 這樣就能針對這些字詞進行全文檢索搜尋。 默認可搜尋類型為Edm.String或集合 (Edm.String) 的欄位。 對於其他非字串數據類型的簡單欄位,此屬性必須為 false,而且複雜欄位必須為 Null。 注意:可搜尋的欄位會耗用索引中的額外空間,以容納全文搜索的其他標記化域值版本。 如果您想要在索引中節省空間,而且不需要在搜尋中包含字段,請將 [可搜尋] 設定為 false。 |
sortable |
boolean |
值,指出是否要在$orderby運算式中參考字段。 根據預設,搜尋引擎會依分數排序結果,但在許多體驗中,使用者會想要依檔中的欄位排序。 只有在單一值 (父檔範圍內的單一值時,才能排序簡單字段) 。 簡單集合欄位無法排序,因為它們是多重值。 複雜集合的簡單子欄位也是多重值,因此無法排序。 不論是直接父欄位或上階字段,都是複雜的集合,都是如此。 複雜欄位無法排序,而且這類欄位的可排序屬性必須為 Null。 可排序的預設值為 true,針對單一值簡單欄位、針對多重值簡單欄位為 false,而複雜欄位則為 null。 |
synonymMaps |
string[] |
要與此欄位建立關聯的同義字名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前每個欄位只支援一個同義字對應。 將同義字對應指派給字段,可確保以該欄位為目標的查詢詞彙會在查詢時間使用同義字對應中的規則來展開。 這個屬性可以在現有的欄位上變更。 複雜欄位必須是 Null 或空白集合。 |
type |
欄位的數據類型。 |
|
vectorSearchProfile |
string |
向量搜尋配置檔的名稱,指定搜尋向量字段時要使用的演算法和向量工具。 |
SearchFieldDataType
定義搜尋索引中欄位的數據類型。
名稱 | 類型 | Description |
---|---|---|
Edm.Boolean |
string |
表示欄位包含布爾值, (true 或 false) 。 |
Edm.ComplexType |
string |
表示欄位包含一或多個複雜物件,而該物件又具有其他類型的子字段。 |
Edm.DateTimeOffset |
string |
表示欄位包含日期/時間值,包括時區資訊。 |
Edm.Double |
string |
表示欄位包含 IEEE 雙精確度浮點數。 |
Edm.GeographyPoint |
string |
表示欄位包含經度和緯度的地理位置。 |
Edm.Int32 |
string |
表示欄位包含32位帶正負號的整數。 |
Edm.Int64 |
string |
表示欄位包含 64 位帶正負號的整數。 |
Edm.Single |
string |
表示欄位包含單精度浮點數。 這只有在搭配集合 (Edm.Single) 使用時才有效。 |
Edm.String |
string |
表示欄位包含字串。 |
SearchIndex
表示搜尋索引定義,描述索引的欄位和搜尋行為。
名稱 | 類型 | Description |
---|---|---|
@odata.etag |
string |
索引的 ETag。 |
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
charFilters | CharFilter[]: |
索引的字元篩選。 |
corsOptions |
控制索引的跨原始來源資源分享 (CORS) 的選項。 |
|
defaultScoringProfile |
string |
如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf) 。 |
encryptionKey |
您在 Azure 金鑰保存庫 中建立的加密金鑰描述。 當您想要完整保證,即使 Microsoft 也無法解密您的數據時,此密鑰可用來為您的資料提供額外的待用加密層級。 加密數據之後,它一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 Null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於在 2019 年 1 月 1 日或之後建立的付費服務。 |
|
fields |
索引的欄位。 |
|
name |
string |
索引的名稱。 |
normalizers | LexicalNormalizer[]: |
索引的正規化程式。 |
scoringProfiles |
索引的評分配置檔。 |
|
semantic |
定義影響語意功能的搜尋索引參數。 |
|
similarity | Similarity: |
評分和排名符合搜尋查詢的檔時,要使用的相似度演算法類型。 相似度演算法只能在建立索引時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。 |
suggesters |
索引的建議工具。 |
|
tokenFilters |
TokenFilter[]:
|
索引的令牌篩選。 |
tokenizers | LexicalTokenizer[]: |
索引的Tokenizer。 |
vectorSearch |
包含與向量搜尋相關的組態選項。 |
SearchIndexerDataNoneIdentity
清除資料源的識別屬性。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定身分識別類型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用之數據源的身分識別。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定身分識別類型的 URI 片段。 |
userAssignedIdentity |
string |
使用者指派受控識別的完整 Azure 資源標識符,通常格式為 “/subscriptions/12345678-1234-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”,應該已指派給搜尋服務。 |
SearchResourceEncryptionKey
Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。
名稱 | 類型 | Description |
---|---|---|
accessCredentials |
用來存取 Azure 金鑰保存庫 的選擇性 Azure Active Directory 認證。 若改用受控識別,則不需要。 |
|
identity | SearchIndexerDataIdentity: |
要用於此加密金鑰的明確受控識別。 如果未指定,且存取認證屬性為 Null,則會使用系統指派的受控識別。 更新資源時,如果未指定明確的身分識別,則會維持不變。 如果指定了 「none」 則會清除此屬性的值。 |
keyVaultKeyName |
string |
用來加密待用數據的 Azure 金鑰保存庫 金鑰名稱。 |
keyVaultKeyVersion |
string |
用來加密待用數據的 Azure 金鑰保存庫 金鑰版本。 |
keyVaultUri |
string |
Azure 金鑰保存庫 的 URI 也稱為 DNS 名稱,其中包含用來加密待用數據的密鑰。 範例 URI 可能是 |
SemanticConfiguration
定義要用於語意功能內容的特定組態。
名稱 | 類型 | Description |
---|---|---|
name |
string |
語意設定的名稱。 |
prioritizedFields |
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 必須設定至少三個子屬性的其中一個 (titleField、優先順序的KeywordsFields 和 prioritizedContentFields) 。 |
SemanticField
做為語意設定一部分的欄位。
名稱 | 類型 | Description |
---|---|---|
fieldName |
string |
SemanticSettings
定義影響語意功能的搜尋索引參數。
名稱 | 類型 | Description |
---|---|---|
configurations |
索引的語意設定。 |
|
defaultConfiguration |
string |
可讓您在索引中設定預設語意組態的名稱,使其選擇性地每次傳遞為查詢參數。 |
ShingleTokenFilter
將語彙基元的組合建立為單一語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
filterToken |
string |
_ |
要針對沒有標記的每個位置插入的字串。 默認值為底線 (“_”) 。 |
maxShingleSize |
integer |
2 |
最大閃爍大小。 預設值和最小值為 2。 |
minShingleSize |
integer |
2 |
最小閃爍大小。 預設值和最小值為 2。 必須小於 maxShingleSize的值。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
outputUnigrams |
boolean |
True |
值,指出輸出數據流是否將包含 (unigram) 以及 shingles 的輸入標記。 預設值為 true。 |
outputUnigramsIfNoShingles |
boolean |
False |
值,指出當沒有隨機顯示可用時,是否要針對那些時間輸出 Unigram。 當 outputUnigrams 設定為 false 時,這個屬性會優先使用。 預設值為 false。 |
tokenSeparator |
string |
將相鄰標記聯結以形成閃爍時要使用的字串。 預設值為單一空格 (“) 。 |
SnowballTokenFilter
使用 Snowball 產生的字幹分析器進行字幹分析的篩選。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
language |
要使用的語言。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
SnowballTokenFilterLanguage
用於 Snowball 令牌篩選的語言。
名稱 | 類型 | Description |
---|---|---|
armenian |
string |
為亞美尼亞文選取 Lucene Snowball 字幹分析令牌化程式。 |
basque |
string |
選取 Basque 的 Lucene Snowball 字幹分析令牌化程式。 |
catalan |
string |
選取卡達尼亞文的 Lucene Snowball 字幹分析令牌化程式。 |
danish |
string |
選取丹麥文的 Lucene Snowball 字幹分析令牌化程式。 |
dutch |
string |
選取荷蘭文的 Lucene Snowball 字幹分析令牌化程式。 |
english |
string |
選取適用於英文的 Lucene Snowball 字幹分析令牌化程式。 |
finnish |
string |
選取芬蘭文的 Lucene Snowball 字幹分析令牌化程式。 |
french |
string |
選取法文的 Lucene Snowball 字幹分析 Tokenizer。 |
german |
string |
選取德文的 Lucene Snowball 字幹分析令牌化程式。 |
german2 |
string |
選取使用德文變體演算法的 Lucene Snowball 字幹分析令牌化程式。 |
hungarian |
string |
為匈牙利文選取 Lucene Snowball 字幹分析標記工具。 |
italian |
string |
選取義大利文的 Lucene Snowball 字幹分析令牌化程式。 |
kp |
string |
針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene Snowball 字幹分析令牌化程式。 |
lovins |
string |
針對使用 Lovins 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。 |
norwegian |
string |
選取挪威文的 Lucene Snowball 字幹分析令牌化程式。 |
porter |
string |
針對使用 Porter 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Lucene Snowball 字幹分析令牌化程式。 |
romanian |
string |
選取羅馬尼亞文的 Lucene Snowball 字幹分析令牌化程式。 |
russian |
string |
選取俄文的 Lucene Snowball 字幹分析令牌化程式。 |
spanish |
string |
選取西班牙文的 Lucene Snowball 字幹分析令牌化程式。 |
swedish |
string |
選取瑞典文的 Lucene Snowball 字幹分析令牌化程式。 |
turkish |
string |
選取土耳其文的 Lucene Snowball 字幹分析令牌化程式。 |
StemmerOverrideTokenFilter
提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典詞幹字詞都會標示為關鍵詞,使其不會以詞幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
rules |
string[] |
下列格式的字幹規則清單:「word => stem」。,例如:「ran => run」。。 |
StemmerTokenFilter
語言特定的詞幹篩選條件。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
language |
要使用的語言。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
StemmerTokenFilterLanguage
要用於字幹分析器令牌篩選的語言。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的 Lucene 字幹分析 Tokenizer。 |
armenian |
string |
選取亞美尼亞文的 Lucene 字幹分析令牌化程式。 |
basque |
string |
選取 Basque 的 Lucene 字幹分析 Tokenizer。 |
brazilian |
string |
選取葡萄牙文 (巴西) 的 Lucene 字幹分析令牌化程式。 |
bulgarian |
string |
為保加利亞文選取 Lucene 字幹分析令牌化程式。 |
catalan |
string |
選取卡達尼亞文的 Lucene 字幹分析令牌化程式。 |
czech |
string |
選取適用於捷克文的 Lucene 字幹分析令牌化程式。 |
danish |
string |
選取丹麥文的 Lucene 字幹分析令牌化程式。 |
dutch |
string |
選取荷蘭文的 Lucene 字幹分析 Tokenizer。 |
dutchKp |
string |
針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene 字幹分析令牌化程式。 |
english |
string |
選取英文的 Lucene 字幹分析令牌化程式。 |
finnish |
string |
選取芬蘭文的 Lucene 字幹分析 Tokenizer。 |
french |
string |
選取法文的 Lucene 字幹分析 Tokenizer。 |
galician |
string |
選取 Galician 的 Lucene 字幹分析令牌化程式。 |
german |
string |
選取德文的 Lucene 字幹分析 Tokenizer。 |
german2 |
string |
選取使用德文變異演算法的 Lucene 字幹分析令牌化程式。 |
greek |
string |
選取希臘文的 Lucene 字幹分析令牌化程式。 |
hindi |
string |
選取印度文的 Lucene 字幹分析令牌化程式。 |
hungarian |
string |
選取匈牙利文的 Lucene 字幹分析令牌化程式。 |
indonesian |
string |
選取印尼文的 Lucene 字幹分析令牌化程式。 |
irish |
string |
為愛爾蘭選取 Lucene 字幹分析令牌化程式。 |
italian |
string |
選取義大利文的 Lucene 字幹分析 Tokenizer。 |
latvian |
string |
選取適用於拉脫維亞文的 Lucene 字幹分析令牌化程式。 |
lightEnglish |
string |
針對執行淺色字幹分析的英文,選取 Lucene 字幹分析標記化程式。 |
lightFinnish |
string |
為芬蘭文選取執行光幹分析的 Lucene 字幹分析令牌化工具。 |
lightFrench |
string |
針對執行淺色字幹分析的法文,選取 Lucene 字幹分析令牌化工具。 |
lightGerman |
string |
針對德文選取 Lucene 字幹分析令牌化程式,以執行淺色字幹分析。 |
lightHungarian |
string |
針對進行淺色字幹分析的匈牙利文,選取 Lucene 字幹分析標記化程式。 |
lightItalian |
string |
針對義大利文,選取執行淺色字幹分析的 Lucene 字幹分析令牌化程式。 |
lightNorwegian |
string |
選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。 |
lightNynorsk |
string |
針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式。 |
lightPortuguese |
string |
針對執行光幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。 |
lightRussian |
string |
針對執行光幹分析的俄文,選取 Lucene 字幹分析令牌化工具。 |
lightSpanish |
string |
針對執行光幹分析的西班牙文,選取 Lucene 字幹分析 Tokenizer。 |
lightSwedish |
string |
針對執行淺色字幹分析的瑞典文,選取 Lucene 字幹分析令牌化程式。 |
lovins |
string |
針對使用 Lovins 字幹分析演算法的英文,選取 Lucene 字幹分析 Tokenizer。 |
minimalEnglish |
string |
針對執行最少字幹分析的英文,選取 Lucene 字幹分析 Tokenizer。 |
minimalFrench |
string |
針對執行最小字幹分析的法文,選取 Lucene 字幹分析 Tokenizer。 |
minimalGalician |
string |
針對執行最小字幹分析的 Galician,選取 Lucene 字幹分析令牌化程式。 |
minimalGerman |
string |
針對德文選取 Lucene 字幹分析令牌化程式,其會執行最少的字幹分析。 |
minimalNorwegian |
string |
針對挪威文 (Bokmål) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。 |
minimalNynorsk |
string |
針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。 |
minimalPortuguese |
string |
針對執行最少字幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。 |
norwegian |
string |
選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。 |
porter2 |
string |
針對使用 Porter2 字幹分析演算法的英文選取 Lucene 字幹分析 Tokenizer。 |
portuguese |
string |
選取葡萄牙文的 Lucene 字幹分析令牌化程式。 |
portugueseRslp |
string |
針對使用 RSLP 字幹分析演算法的葡萄牙文,選取 Lucene 字幹分析令牌化程式。 |
possessiveEnglish |
string |
針對英文選取 Lucene 字幹分析令牌化程式,以從單字中移除尾端擁有者。 |
romanian |
string |
選取羅馬尼亞文的 Lucene 字幹分析令牌化程式。 |
russian |
string |
選取俄文的 Lucene 字幹分析 Tokenizer。 |
sorani |
string |
選取 Sorani 的 Lucene 字幹分析 Tokenizer。 |
spanish |
string |
選取西班牙文的 Lucene 字幹分析令牌化程式。 |
swedish |
string |
選取瑞典文的 Lucene 字幹分析令牌化程式。 |
turkish |
string |
選取土耳其文的 Lucene 字幹分析令牌化程式。 |
StopAnalyzer
將文字除以非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
name |
string |
分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
stopwords |
string[] |
停用字詞清單。 |
StopwordsList
識別預先定義的語言特定停用字詞清單。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的停用字詞清單。 |
armenian |
string |
選取亞美尼亞文的停用字詞清單。 |
basque |
string |
選取 Basque 的停用字詞清單。 |
brazilian |
string |
選取葡萄牙文 (巴西) 的停用字詞清單。 |
bulgarian |
string |
選取保加利亞文的停用字詞清單。 |
catalan |
string |
選取卡達尼亞文的停用字詞清單。 |
czech |
string |
選取捷克文的停用字詞清單。 |
danish |
string |
選取丹麥文的停用字詞清單。 |
dutch |
string |
選取荷蘭文的停用字詞清單。 |
english |
string |
選取英文的停用字詞清單。 |
finnish |
string |
選取芬蘭文的停用字詞清單。 |
french |
string |
選取法文的停用字詞清單。 |
galician |
string |
選取 Galician 的停用字詞清單。 |
german |
string |
選取德文的停用字詞清單。 |
greek |
string |
選取希臘文的停用字詞清單。 |
hindi |
string |
選取印度文的停用字詞清單。 |
hungarian |
string |
選取匈牙利文的停用字詞清單。 |
indonesian |
string |
選取印尼文的停用字詞清單。 |
irish |
string |
選取愛爾蘭的停用字詞清單。 |
italian |
string |
選取義大利文的停用字詞清單。 |
latvian |
string |
選取拉脫維亞文的停用字詞清單。 |
norwegian |
string |
選取挪威文的停用字詞清單。 |
persian |
string |
選取多國文的停用字詞清單。 |
portuguese |
string |
選取葡萄牙文的停用字詞清單。 |
romanian |
string |
選取羅馬尼亞文的停用字詞清單。 |
russian |
string |
選取俄文的停用字詞清單。 |
sorani |
string |
選取 Sorani 的停用字詞清單。 |
spanish |
string |
選取西班牙文的停用字詞清單。 |
swedish |
string |
選取瑞典文的停用字詞清單。 |
thai |
string |
選取泰文的停用字詞清單。 |
turkish |
string |
選取土耳其文的停用字詞清單。 |
StopwordsTokenFilter
從語彙基元資料流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
值,指出是否忽略大小寫。 如果為 true,則會先將所有字組轉換成小寫。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
removeTrailing |
boolean |
True |
值,指出是否要忽略最後一個搜尋字詞是否為停用字詞。 預設值為 true。 |
stopwords |
string[] |
停用字詞清單。 無法同時設定此屬性和停用字詞清單屬性。 |
|
stopwordsList | english |
要使用的停用字詞預先定義清單。 無法同時設定此屬性和停用字詞屬性。 預設值為英文。 |
Suggester
定義建議 API 如何套用至索引中的欄位群組。
名稱 | 類型 | Description |
---|---|---|
name |
string |
建議工具的名稱。 |
searchMode |
值,指出建議工具的功能。 |
|
sourceFields |
string[] |
建議工具要套用的域名清單。 每個欄位都必須可供搜尋。 |
SuggesterSearchMode
值,表示建議工具的功能。
名稱 | 類型 | Description |
---|---|---|
analyzingInfixMatching |
string |
比對欄位中連續的整個詞彙和前置詞。 例如,針對欄位 'The fastest brown fox',查詢 'fast' 和 'fastest brow' 會兩者相符。 |
SynonymTokenFilter
比對令牌數據流中的單一或多字同義字。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
expand |
boolean |
True |
值,指出如果未使用 => 表示法, (同義字清單中的所有單字,) 對應至彼此。 如果為 true,則同義字清單中的所有單字 (如果未使用 => 表示法,) 對應至彼此。 下列清單:令人讚歎、不可置信、令人讚歎的、令人讚歎的,相當於:令人讚歎、不具信力、驚歎=> 令人讚歎、無法理解、令人讚歎。 如果為 false,則下列清單:令人讚歎、不可理解、令人讚歎、令人讚歎的相當於:令人讚歎、不可理解、驚歎=> 令人讚歎。 預設值為 true。 |
ignoreCase |
boolean |
False |
值,指出是否要進行比對的案例折疊輸入。 預設值為 false。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
synonyms |
string[] |
下列兩種格式之一的同義字清單:1。 unbelievable、一般 => 令人讚歎 - => 符號左邊的所有字詞都會取代為其右側的所有字詞;2. unbelievable、 unbelievable、 amazing - 逗號分隔的對等單字清單。 設定 expand 選項來變更此清單的解譯方式。 |
TagScoringFunction
定義函式,以符合指定標籤清單的字串值來提升檔的分數。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是正數不等於1.0。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
tag |
標記評分函式的參數值。 |
|
type |
string:
tag |
指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。 |
TagScoringParameters
提供標記評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
tagsParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定要與目標字段比較的標記清單。 |
TextWeights
定義索引欄位的加權,其相符項目應該在搜尋查詢中提升評分。
名稱 | 類型 | Description |
---|---|---|
weights |
object |
每個欄位加權的字典,可提升檔評分。 索引鍵是功能變數名稱,而值是每個欄位的加權。 |
TokenCharacterKind
表示令牌篩選可以運作的字元類別。
名稱 | 類型 | Description |
---|---|---|
digit |
string |
將數位保留在令牌中。 |
letter |
string |
將字母保留在令牌中。 |
punctuation |
string |
將標點符號保留在令牌中。 |
symbol |
string |
將符號保留在令牌中。 |
whitespace |
string |
在令牌中保留空格符。 |
TokenFilterName
定義搜尋引擎所支援之所有令牌篩選的名稱。
TruncateTokenFilter
將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
length |
integer |
300 |
將截斷字詞的長度。 預設值和最大值為 300。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
UaxUrlEmailTokenizer
將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
UniqueTokenFilter
篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
onlyOnSamePosition |
boolean |
False |
值,指出是否只移除相同位置的重複專案。 預設值為 false。 |
VectorSearch
包含與向量搜尋相關的組態選項。
名稱 | 類型 | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
包含索引編製或查詢期間所使用演算法的特定組態選項。 |
profiles |
定義要與向量搜尋搭配使用的組態組合。 |
|
vectorizers | VectorSearchVectorizer[]: |
包含如何向量化文字向量查詢的組態選項。 |
VectorSearchAlgorithmKind
用於編製索引和查詢的演算法。
名稱 | 類型 | Description |
---|---|---|
exhaustiveKnn |
string |
將執行暴力密碼破解搜尋的詳盡 KNN 演算法。 |
hnsw |
string |
HNSW (階層式導覽小型世界) ,這是近似鄰近演算法的類型。 |
VectorSearchAlgorithmMetric
用於向量比較的相似度計量。
名稱 | 類型 | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
定義要與向量搜尋搭配使用的組態組合。
名稱 | 類型 | Description |
---|---|---|
algorithm |
string |
指定演算法和選擇性參數的向量搜尋演算法組態名稱。 |
name |
string |
要與這個特定向量搜尋配置檔建立關聯的名稱。 |
vectorizer |
string |
要設定用於向量搜尋的向量化方法類型名稱。 |
VectorSearchVectorizerKind
查詢期間要使用的向量化方法。
名稱 | 類型 | Description |
---|---|---|
azureOpenAI |
string |
在查詢時間使用 Azure OpenAI 資源產生內嵌。 |
customWebApi |
string |
在查詢時間使用自定義 Web 端點產生內嵌。 |
WordDelimiterTokenFilter
將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
catenateAll |
boolean |
False |
值,指出是否要標示所有子字詞部分。 例如,如果此值設定為 true,“Azure-Search-1” 會變成 “AzureSearch1”。 預設值為 false。 |
catenateNumbers |
boolean |
False |
值,指出是否將分隔最大數目部分的執行次數。 例如,如果此值設定為 true,“1-2” 會變成 “12”。 預設值為 false。 |
catenateWords |
boolean |
False |
值,指出字組部分的運行時間上限是否會被貓化。 例如,如果此值設定為 true,“Azure-Search” 會變成 “AzureSearch”。 預設值為 false。 |
generateNumberParts |
boolean |
True |
值,指出是否要產生數位子字詞。 預設值為 true。 |
generateWordParts |
boolean |
True |
值,指出是否要產生部分字組。 如果設定,會導致產生部分字組;例如,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。 |
name |
string |
令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
|
preserveOriginal |
boolean |
False |
值,指出是否會保留原始字組並新增至子字詞清單。 預設值為 false。 |
protectedWords |
string[] |
要保護免於分隔的令牌清單。 |
|
splitOnCaseChange |
boolean |
True |
值,指出是否要在caseChange上分割單字。 例如,如果此值設定為 true,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。 |
splitOnNumerics |
boolean |
True |
值,指出是否要分割數位。 例如,如果此值設定為 true,“Azure1Search” 會變成 “Azure” “1” “Search”。 預設值為 true。 |
stemEnglishPossessive |
boolean |
True |
值,指出是否要移除每個子字詞的尾端 「s」。。 預設值為 true。 |