Indexes - Create Or Update
Создает новый индекс поиска или обновляет индекс, если он уже существует.
PUT {endpoint}/indexes('{indexName}')?api-version=2024-07-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2024-07-01
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
index
|
path | True |
string |
Определение индекса для создания или обновления. |
api-version
|
query | True |
string |
Версия клиентского API. |
allow
|
query |
boolean |
Позволяет добавлять новые анализаторы, маркеризаторы, фильтры маркеров или фильтры символов в индекс, принимая индекс в автономный режим по крайней мере через несколько секунд. Это временно приводит к сбою индексирования и запросов. Производительность и доступность индекса записи могут быть нарушены в течение нескольких минут после обновления индекса или длиннее для очень больших индексов. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправляемый запросом на отладку. |
|
If-Match |
string |
Определяет условие If-Match. Операция будет выполнена только в том случае, если ETag на сервере соответствует этому значению. |
|
If-None-Match |
string |
Определяет условие If-None-Match. Операция будет выполнена только в том случае, если ETag на сервере не соответствует этому значению. |
|
Prefer | True |
string |
Для HTTP-запросов PUT служба возвращает созданный или обновленный ресурс успешно. |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
fields | True |
Поля индекса. |
|
name | True |
string |
Имя индекса. |
@odata.etag |
string |
ETag индекса. |
|
analyzers | LexicalAnalyzer[]: |
Анализаторы индекса. |
|
charFilters | CharFilter[]: |
Фильтры символов для индекса. |
|
corsOptions |
Параметры управления общим доступом к ресурсам между источниками (CORS) для индекса. |
||
defaultScoringProfile |
string |
Имя профиля оценки, используемого, если ни один из них не указан в запросе. Если это свойство не задано, а профиль оценки не указан в запросе, будет использоваться оценка по умолчанию (tf-idf). |
|
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже не Корпорация Майкрософт, не может расшифровать данные. После шифрования данных он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г. |
||
scoringProfiles |
Профили оценки для индекса. |
||
semantic |
Определяет параметры индекса поиска, влияющего на семантические возможности. |
||
similarity | Similarity: |
Тип алгоритма сходства, используемый при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм сходства может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение NULL, используется алгоритм ClassicSimilarity. |
|
suggesters |
Предложения для индекса. |
||
tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
|
tokenizers | LexicalTokenizer[]: |
Маркеризаторы индекса. |
|
vectorSearch |
Содержит параметры конфигурации, связанные с векторным поиском. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Ответ на ошибку. |
Примеры
SearchServiceCreateOrUpdateIndex
Образец запроса
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2024-07-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"searchable": true,
"retrievable": true
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
Пример ответа
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Определения
Имя | Описание |
---|---|
Ascii |
Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Azure |
Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault. |
Azure |
Позволяет создать вектор внедрения для заданного текстового ввода с помощью ресурса Azure OpenAI. |
Azure |
Имя модели Azure Open AI, которое будет вызываться. |
Azure |
Задает параметры для подключения к ресурсу Azure OpenAI. |
Azure |
Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса. |
Binary |
Содержит параметры конфигурации, относящиеся к методу сжатия двоичной квантизации, используемому во время индексирования и запроса. |
BM25Similarity |
Функция ранжирования на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм TF-IDF, включающий нормализацию длины (контролируемый параметром B), а также насыщенность терминов (контролируемый параметром k1). |
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
Cjk |
Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cjk |
Скрипты, которые могут игнорироваться CjkBigramTokenFilter. |
Classic |
Устаревший алгоритм сходства, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF представляет нормализацию статического длины документа, а также координирующие факторы, которые наказывают документы, которые частично соответствуют поисковым запросам. |
Classic |
Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. Этот токенизатор реализуется с помощью Apache Lucene. |
Common |
Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cors |
Определяет параметры управления общим доступом к ресурсам между источниками (CORS) для индекса. |
Custom |
Позволяет контролировать процесс преобразования текста в индексируемые и поисковые маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного токенизатора и одного или нескольких фильтров. Маркеризатор отвечает за разбиение текста в маркеры и фильтры для изменения маркеров, создаваемых токенизатором. |
Dictionary |
Раскомпозирует составные слова, найденные во многих немецких языках. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Distance |
Определяет функцию, которая повышает оценки на основе расстояния от географического расположения. |
Distance |
Предоставляет значения параметров функции оценки расстояния. |
Edge |
Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Указывает, какая сторона входных данных должна быть создана из n-граммы. |
Edge |
Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Маркеризирует входные данные из края в n-граммы заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene. |
Elision |
Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Error |
Дополнительные сведения об ошибке управления ресурсами. |
Error |
Сведения об ошибке. |
Error |
Ответ на ошибку |
Exhaustive |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
Exhaustive |
Содержит параметры конфигурации, относящиеся к исчерпывающим алгоритму KNN, используемому во время запроса, который будет выполнять поиск методом подбора по всему векторному индексу. |
Freshness |
Определяет функцию, которая повышает оценки на основе значения поля даты и времени. |
Freshness |
Предоставляет значения параметров функции оценки свежести. |
Hnsw |
Содержит параметры, относящиеся к алгоритму HNSW. |
Hnsw |
Содержит параметры конфигурации, относящиеся к алгоритму HNSW, приблизительному ближайшему соседу, используемому во время индексирования и запроса. Алгоритм HNSW предлагает ошеломимый компромисс между скоростью поиска и точностью. |
Input |
Сопоставление полей ввода для навыка. |
Keep |
Фильтр маркеров, который сохраняет только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene. |
Keyword |
Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene. |
Length |
Удаляет слова, слишком длинные или слишком короткие. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lexical |
Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех токенизаторов, поддерживаемых поисковой системой. |
Limit |
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lucene |
Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. |
Lucene |
Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene. |
Lucene |
Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene. |
Magnitude |
Определяет функцию, которая повышает оценки на основе величины числового поля. |
Magnitude |
Предоставляет значения параметров функции оценки величины. |
Mapping |
Фильтр символов, который применяет сопоставления, определенные с параметром сопоставления. Сопоставление жадно (самый длинный шаблон сопоставления в заданной точке выигрывает). Допускается замена пустой строки. Этот фильтр символов реализуется с помощью Apache Lucene. |
Microsoft |
Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам. |
Microsoft |
Делит текст с помощью правил, относящихся к языку. |
Microsoft |
Выводит список языков, поддерживаемых маркеризатором маркеров языка Майкрософт. |
Microsoft |
Выводит список языков, поддерживаемых токенизатором языка Майкрософт. |
NGram |
Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Маркеризирует входные данные в n-граммах заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene. |
Output |
Сопоставление полей вывода для навыка. |
Path |
Токенизатор для иерархий, похожих на пути. Этот токенизатор реализуется с помощью Apache Lucene. |
Pattern |
Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene. |
Pattern |
Использует регрессии Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. Этот токенизатор реализуется с помощью Apache Lucene. |
Phonetic |
Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter. |
Phonetic |
Создайте маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Prioritized |
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделений и ответов. |
Regex |
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и маркеризаторе шаблонов. |
Scalar |
Содержит параметры, относящиеся к скалярной квантизации. |
Scalar |
Содержит параметры конфигурации, относящиеся к методу сжатия скалярной квантизации, используемому во время индексирования и запроса. |
Scoring |
Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки. |
Scoring |
Определяет функцию, используемую для интерполяции показателей повышения в диапазоне документов. |
Scoring |
Определяет параметры индекса поиска, влияющего на оценку в поисковых запросах. |
Search |
Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля. |
Search |
Определяет тип данных поля в индексе поиска. |
Search |
Представляет определение индекса поиска, описывающее поля и поведение поиска индекса. |
Search |
Очищает свойство удостоверения источника данных. |
Search |
Указывает удостоверение для используемого источника данных. |
Search |
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов. |
Semantic |
Определяет определенную конфигурацию, используемую в контексте семантических возможностей. |
Semantic |
Поле, используемое в рамках семантической конфигурации. |
Semantic |
Определяет параметры индекса поиска, влияющего на семантические возможности. |
Shingle |
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Фильтр, который стебляет слова с помощью созданного сноубола стебля. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Язык, используемый для фильтра маркеров Snowball. |
Stemmer |
Предоставляет возможность переопределить другие фильтры с использованием пользовательских фильтров на основе словаря. Все термины, связанные с словарем, будут помечены как ключевые слова, чтобы они не были стеблированы с помощью стволовых модулей вниз по цепочке. Необходимо поместить перед любыми фильтрами с использованием стволовых элементов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Фильтр для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Язык, используемый для фильтра маркеров stemmer. |
Stop |
Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. Этот анализатор реализуется с помощью Apache Lucene. |
Stopwords |
Определяет предопределенный список слов стоп-слов для конкретного языка. |
Stopwords |
Удаляет слова остановки из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Suggester |
Определяет, как API предложения должен применяться к группе полей в индексе. |
Suggester |
Значение, указывающее возможности средства предложения. |
Synonym |
Соответствует синонимам одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Tag |
Определяет функцию, которая повышает оценку документов со строковыми значениями, соответствующими заданному списку тегов. |
Tag |
Предоставляет значения параметров функции оценки тегов. |
Text |
Определяет весы в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах. |
Token |
Представляет классы символов, на которых может работать фильтр маркеров. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
Truncate |
Усечение терминов до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Uax |
Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene. |
Unique |
Фильтрует маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Vector |
Формат кодирования для интерпретации содержимого поля вектора. |
Vector |
Содержит параметры конфигурации, связанные с векторным поиском. |
Vector |
Алгоритм, используемый для индексирования и запроса. |
Vector |
Метрика сходства, используемая для сравнения векторов. Рекомендуется выбрать ту же метрику сходства, что и модель внедрения. |
Vector |
Метод сжатия, используемый для индексирования и запроса. |
Vector |
Квантизованный тип данных сжатых векторных значений. |
Vector |
Определяет сочетание конфигураций для использования с векторным поиском. |
Vector |
Метод векторизации, используемый во время запроса. |
Web |
Задает свойства для подключения к определяемой пользователем векторизаторе. |
Web |
Задает определяемый пользователем векторизатор для создания векторного внедрения строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса веб-API набора навыков. |
Word |
Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
AsciiFoldingTokenFilter
Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
preserveOriginal |
boolean |
False |
Значение, указывающее, будет ли храниться исходный токен. Значение по умолчанию — false. |
AzureActiveDirectoryApplicationCredentials
Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.
Имя | Тип | Описание |
---|---|---|
applicationId |
string |
Идентификатор приложения AAD, которому было предоставлено необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD. |
applicationSecret |
string |
Ключ проверки подлинности указанного приложения AAD. |
AzureOpenAIEmbeddingSkill
Позволяет создать вектор внедрения для заданного текстового ввода с помощью ресурса Azure OpenAI.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип навыка. |
apiKey |
string |
Ключ API указанного ресурса Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. |
context |
string |
Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document. |
deploymentId |
string |
Идентификатор развертывания модели Azure OpenAI в указанном ресурсе. |
description |
string |
Описание навыка, описывающего входные данные, выходные данные и использование навыка. |
dimensions |
integer |
Число измерений, в которых должны быть внедренные выходные данные. Поддерживается только в моделях с внедрением текста-3 и более поздних версий. |
inputs |
Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящего навыка. |
|
modelName |
Имя модели внедрения, развернутой по указанному пути deploymentId. |
|
name |
string |
Имя навыка, который однозначно идентифицирует его в наборе навыков. Навык без определенного имени будет указан по умолчанию для его 1-го индекса в массиве навыков, префиксированного символом "#". |
outputs |
Выходные данные навыка — это поле в индексе поиска или значение, которое можно использовать в качестве входных данных другим навыком. |
|
resourceUri |
string |
URI ресурса ресурса Azure OpenAI. |
AzureOpenAIModelName
Имя модели Azure Open AI, которое будет вызываться.
Имя | Тип | Описание |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Задает параметры для подключения к ресурсу Azure OpenAI.
Имя | Тип | Описание |
---|---|---|
apiKey |
string |
Ключ API указанного ресурса Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. |
deploymentId |
string |
Идентификатор развертывания модели Azure OpenAI в указанном ресурсе. |
modelName |
Имя модели внедрения, развернутой по указанному пути deploymentId. |
|
resourceUri |
string |
URI ресурса ресурса Azure OpenAI. |
AzureOpenAIVectorizer
Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.
Имя | Тип | Описание |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Содержит параметры, относящиеся к векторизации внедрения Azure OpenAI. |
kind |
string:
azure |
Имя типа метода векторизации, настроенного для использования с векторным поиском. |
name |
string |
Имя, сопоставленное с этим конкретным методом векторизации. |
BinaryQuantizationVectorSearchCompressionConfiguration
Содержит параметры конфигурации, относящиеся к методу сжатия двоичной квантизации, используемому во время индексирования и запроса.
Имя | Тип | Default value | Описание |
---|---|---|---|
defaultOversampling |
number |
Коэффициент превышения по умолчанию. Oversampling внутренне запрашивает дополнительные документы (указанные этим умножением) в первоначальном поиске. Это увеличивает набор результатов, которые будут повторно выполняться с помощью перекомпилированных показателей сходства из векторов полной точности. Минимальное значение равно 1, то есть без превышения (1x). Этот параметр можно задать только в том случае, если параметр rerankWithOriginalVectors имеет значение true. Более высокие значения улучшают отзыв за счет задержки. |
|
kind |
string:
binary |
Имя типа метода сжатия, настроенного для использования с векторным поиском. |
|
name |
string |
Имя, сопоставленное с этой конкретной конфигурацией. |
|
rerankWithOriginalVectors |
boolean |
True |
Если задано значение true, после получения упорядоченного набора результатов, вычисляемого с помощью сжатых векторов, они будут повторно оценены путем пересчета показателей сходства полной точности. Это улучшит отзыв за счет задержки. |
BM25Similarity
Функция ранжирования на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм TF-IDF, включающий нормализацию длины (контролируемый параметром B), а также насыщенность терминов (контролируемый параметром k1).
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализуется длиной документа. |
k1 |
number |
Это свойство управляет функцией масштабирования между частотой терминов каждого соответствующего термина и конечной оценкой релевантности пары document-query. По умолчанию используется значение 1.2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты термина. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreScripts |
Скрипты, которые следует игнорировать. |
||
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
outputUnigrams |
boolean |
False |
Значение, указывающее, следует ли выводить юниграммы и bigrams (если значение true), или просто bigrams (если значение false). Значение по умолчанию — false. |
CjkBigramTokenFilterScripts
Скрипты, которые могут игнорироваться CjkBigramTokenFilter.
Имя | Тип | Описание |
---|---|---|
han |
string |
Игнорировать скрипт Han при формировании bigrams терминов CJK. |
hangul |
string |
Игнорировать скрипт Hangul при формировании bigrams терминов CJK. |
hiragana |
string |
Игнорировать скрипт Hiragana при формировании bigrams терминов CJK. |
katakana |
string |
Игнорировать скрипт Katakana при формировании bigrams терминов CJK. |
ClassicSimilarity
Устаревший алгоритм сходства, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF представляет нормализацию статического длины документа, а также координирующие факторы, которые наказывают документы, которые частично соответствуют поисковым запросам.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
CommonGramTokenFilter
Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
commonWords |
string[] |
Набор общих слов. |
|
ignoreCase |
boolean |
False |
Значение, указывающее, не учитывается ли совпадение распространенных слов. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
queryMode |
boolean |
False |
Значение, указывающее, находится ли фильтр маркеров в режиме запроса. При использовании режима запроса фильтр маркеров создает большие кадры, а затем удаляет общие слова и отдельные термины, за которым следует общее слово. Значение по умолчанию — false. |
CorsOptions
Определяет параметры управления общим доступом к ресурсам между источниками (CORS) для индекса.
Имя | Тип | Описание |
---|---|---|
allowedOrigins |
string[] |
Список источников, из которых код JavaScript будет предоставлен доступ к индексу. Может содержать список узлов формы {protocol}://{полное доменное имя}[:{port#}], или один "*", чтобы разрешить все источники (не рекомендуется). |
maxAgeInSeconds |
integer |
Длительность, в течение которой браузеры должны кэшировать предварительные ответы CORS. По умолчанию — 5 минут. |
CustomAnalyzer
Позволяет контролировать процесс преобразования текста в индексируемые и поисковые маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного токенизатора и одного или нескольких фильтров. Маркеризатор отвечает за разбиение текста в маркеры и фильтры для изменения маркеров, создаваемых токенизатором.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
charFilters |
Список фильтров символов, используемых для подготовки входного текста перед обработкой маркеризатором. Например, они могут заменить определенные символы или символы. Фильтры выполняются в том порядке, в котором они перечислены. |
|
name |
string |
Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных токенизатором. Например, можно указать строчный фильтр, который преобразует все символы в строчный регистр. Фильтры выполняются в том порядке, в котором они перечислены. |
|
tokenizer |
Имя токенизатора, используемого для разделения непрерывного текста на последовательность маркеров, например разбиение предложения на слова. |
DictionaryDecompounderTokenFilter
Раскомпозирует составные слова, найденные во многих немецких языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxSubwordSize |
integer |
15 |
Максимальный размер подслугов. Только вложенные слова короче, чем это выводится. Значение по умолчанию — 15. Максимальное значение — 300. |
minSubwordSize |
integer |
2 |
Минимальный размер подслогов. Выводятся только вложенные слова, превышающие это значение. Значение по умолчанию — 2. Максимальное значение — 300. |
minWordSize |
integer |
5 |
Минимальный размер слова. Только слова дольше, чем это обрабатывается. Значение по умолчанию — 5. Максимальное значение — 300. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
onlyLongestMatch |
boolean |
False |
Значение, указывающее, следует ли добавлять в выходные данные только самый длинный соответствующий подсловь. Значение по умолчанию — false. |
wordList |
string[] |
Список слов, которые нужно сопоставить. |
DistanceScoringFunction
Определяет функцию, которая повышает оценки на основе расстояния от географического расположения.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
distance |
Значения параметров для функции оценки расстояния. |
|
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear". |
|
type |
string:
distance |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром. |
DistanceScoringParameters
Предоставляет значения параметров функции оценки расстояния.
Имя | Тип | Описание |
---|---|---|
boostingDistance |
number |
Расстояние в километрах от эталонного расположения, где заканчивается повышение диапазона. |
referencePointParameter |
string |
Имя параметра, переданного в поисковых запросах, для указания расположения ссылки. |
EdgeNGramTokenFilter
Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. |
minGram |
integer |
1 |
Минимальная длина n-грамма. Значение по умолчанию — 1. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
side | front |
Указывает, какая сторона входных данных должна быть создана из n-граммы. Значение по умолчанию — front. |
EdgeNGramTokenFilterSide
Указывает, какая сторона входных данных должна быть создана из n-граммы.
Имя | Тип | Описание |
---|---|---|
back |
string |
Указывает, что n-грамма должна быть создана из задней части входных данных. |
front |
string |
Указывает, что n-грамма должна быть создана на передней части входных данных. |
EdgeNGramTokenFilterV2
Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300. |
minGram |
integer |
1 |
Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
side | front |
Указывает, какая сторона входных данных должна быть создана из n-граммы. Значение по умолчанию — front. |
EdgeNGramTokenizer
Маркеризирует входные данные из края в n-граммы заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300. |
minGram |
integer |
1 |
Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
tokenChars |
Классы символов, которые хранятся в маркерах. |
ElisionTokenFilter
Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
articles |
string[] |
Набор статей для удаления. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
ErrorAdditionalInfo
Дополнительные сведения об ошибке управления ресурсами.
Имя | Тип | Описание |
---|---|---|
info |
object |
Дополнительные сведения. |
type |
string |
Дополнительный тип сведений. |
ErrorDetail
Сведения об ошибке.
Имя | Тип | Описание |
---|---|---|
additionalInfo |
Дополнительные сведения об ошибке. |
|
code |
string |
Код ошибки. |
details |
Сведения об ошибке. |
|
message |
string |
Сообщение об ошибке. |
target |
string |
Целевой объект ошибки. |
ErrorResponse
Ответ на ошибку
Имя | Тип | Описание |
---|---|---|
error |
Объект ошибки. |
ExhaustiveKnnParameters
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.
Имя | Тип | Описание |
---|---|---|
metric |
Метрика сходства, используемая для сравнения векторов. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, относящиеся к исчерпывающим алгоритму KNN, используемому во время запроса, который будет выполнять поиск методом подбора по всему векторному индексу.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnnParameters |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
|
kind |
string:
exhaustive |
Имя типа алгоритма, настроенного для использования с векторным поиском. |
name |
string |
Имя, сопоставленное с этой конкретной конфигурацией. |
FreshnessScoringFunction
Определяет функцию, которая повышает оценки на основе значения поля даты и времени.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
freshness |
Значения параметров для функции оценки свежести. |
|
interpolation |
Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear". |
|
type |
string:
freshness |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром. |
FreshnessScoringParameters
Предоставляет значения параметров функции оценки свежести.
Имя | Тип | Описание |
---|---|---|
boostingDuration |
string |
Срок действия, после которого повышение будет прекращено для определенного документа. |
HnswParameters
Содержит параметры, относящиеся к алгоритму HNSW.
Имя | Тип | Default value | Описание |
---|---|---|---|
efConstruction |
integer |
400 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время индексирования. Увеличение этого параметра может повысить качество индекса за счет увеличения времени индексирования. В определенный момент увеличение этого параметра приводит к уменьшению возврата. |
efSearch |
integer |
500 |
Размер динамического списка, содержащего ближайших соседей, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению возврата. |
m |
integer |
4 |
Количество двунаправленных ссылок, созданных для каждого нового элемента во время построения. Увеличение этого значения параметра может повысить время отзыва и уменьшить время извлечения для наборов данных с высокой встроенной размерностью за счет увеличения потребления памяти и длительного времени индексирования. |
metric |
Метрика сходства, используемая для сравнения векторов. |
HnswVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, относящиеся к алгоритму HNSW, приблизительному ближайшему соседу, используемому во время индексирования и запроса. Алгоритм HNSW предлагает ошеломимый компромисс между скоростью поиска и точностью.
Имя | Тип | Описание |
---|---|---|
hnswParameters |
Содержит параметры, относящиеся к алгоритму HNSW. |
|
kind |
string:
hnsw |
Имя типа алгоритма, настроенного для использования с векторным поиском. |
name |
string |
Имя, сопоставленное с этой конкретной конфигурацией. |
InputFieldMappingEntry
Сопоставление полей ввода для навыка.
Имя | Тип | Описание |
---|---|---|
inputs |
Рекурсивные входные данные, используемые при создании сложного типа. |
|
name |
string |
Имя входных данных. |
source |
string |
Источник входных данных. |
sourceContext |
string |
Исходный контекст, используемый для выбора рекурсивных входных данных. |
KeepTokenFilter
Фильтр маркеров, который сохраняет только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
keepWords |
string[] |
Список слов, которые нужно сохранить. |
|
keepWordsCase |
boolean |
False |
Значение, указывающее, следует ли сначала ввести все слова в нижний регистр. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
KeywordMarkerTokenFilter
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение, указывающее, следует ли игнорировать регистр. Если значение true, все слова преобразуются в нижний регистр. Значение по умолчанию — false. |
keywords |
string[] |
Список слов, которые нужно пометить как ключевые слова. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
KeywordTokenizer
Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
bufferSize |
integer |
256 |
Размер буфера чтения в байтах. Значение по умолчанию — 256. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
KeywordTokenizerV2
Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxTokenLength |
integer |
256 |
Максимальная длина маркера. Значение по умолчанию — 256. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
LengthTokenFilter
Удаляет слова, слишком длинные или слишком короткие. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
max |
integer |
300 |
Максимальная длина символов. Значение по умолчанию и максимальное значение — 300. |
min |
integer |
0 |
Минимальная длина символов. Значение по умолчанию — 0. Максимальное значение — 300. Должно быть меньше значения максимального значения. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
LexicalAnalyzerName
Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для Болгарии. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонца. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонца. |
cs.lucene |
string |
Анализатор Lucene для Чехии. |
cs.microsoft |
string |
Анализатор Майкрософт для Чехии. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для Эстонии. |
eu.lucene |
string |
Анализатор Lucene для Баска. |
fa.lucene |
string |
Анализатор Lucene для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финляндии. |
fi.microsoft |
string |
Анализатор Майкрософт для Финляндии. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландских. |
gl.lucene |
string |
Анализатор Lucene для Галисиана. |
gu.microsoft |
string |
Анализатор Майкрософт для Gujarati. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для Хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для Хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армян. |
id.lucene |
string |
Анализатор Lucene для Индонезии. |
id.microsoft |
string |
Анализатор Майкрософт для Индонезии (Бахаса). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Kannada. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для Литвы. |
lv.lucene |
string |
Анализатор Lucene для Латышского. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Microsoft для Малаялам. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для Малая (латиница). |
nb.microsoft |
string |
Анализатор Майкрософт для норвежского языка (Bokmål). |
nl.lucene |
string |
Анализатор Lucene для голландцев. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Пенджаби. |
pattern |
string |
Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румына. |
ro.microsoft |
string |
Анализатор Майкрософт для румына. |
ru.lucene |
string |
Анализатор Lucene для россии. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацких. |
sl.microsoft |
string |
Анализатор Майкрософт для словенцев. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербских (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербских (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор ASCII Folding Lucene. См. https://zcusa.951200.xyz/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для Тамила. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украины. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамцев. |
whitespace |
string |
Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского (упрощенное письмо). |
zh-Hans.microsoft |
string |
Анализатор Майкрософт для китайского (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского (традиционного). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского (традиционного языка). |
LexicalTokenizerName
Определяет имена всех токенизаторов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам. |
microsoft_language_tokenizer |
string |
Делит текст с помощью правил, относящихся к языку. |
nGram |
string |
Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
consumeAllTokens |
boolean |
False |
Значение, указывающее, должны ли все маркеры из входных данных использоваться, даже если достигается maxTokenCount. Значение по умолчанию — false. |
maxTokenCount |
integer |
1 |
Максимальное количество маркеров для создания. Значение по умолчанию — 1. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
LuceneStandardAnalyzer
Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
stopwords |
string[] |
Список стоп-слов. |
LuceneStandardTokenizer
Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
LuceneStandardTokenizerV2
Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
MagnitudeScoringFunction
Определяет функцию, которая повышает оценки на основе величины числового поля.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear". |
|
magnitude |
Значения параметров для функции оценки величины. |
|
type |
string:
magnitude |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром. |
MagnitudeScoringParameters
Предоставляет значения параметров функции оценки величины.
Имя | Тип | Описание |
---|---|---|
boostingRangeEnd |
number |
Значение поля, на котором заканчивается повышение. |
boostingRangeStart |
number |
Значение поля, с которого начинается повышение. |
constantBoostBeyondRange |
boolean |
Значение, указывающее, следует ли применять константный импульс для значений полей за пределами конечного значения диапазона; значение по умолчанию — false. |
MappingCharFilter
Фильтр символов, который применяет сопоставления, определенные с параметром сопоставления. Сопоставление жадно (самый длинный шаблон сопоставления в заданной точке выигрывает). Допускается замена пустой строки. Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра char. |
mappings |
string[] |
Список сопоставлений следующего формата: "a=>b" (все вхождения символа "a" будут заменены символом "b"). |
name |
string |
Имя фильтра char. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
MicrosoftLanguageStemmingTokenizer
Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
isSearchTokenizer |
boolean |
False |
Значение, указывающее, как используется токенизатор. Установите значение true, если используется в качестве маркеризатора поиска, установите значение false, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. По умолчанию используется английский язык. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. Маркеры длиной более 300 символов сначала разделяются на маркеры длины 300, а затем каждый из этих маркеров разбивается на основе максимального набора длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
MicrosoftLanguageTokenizer
Делит текст с помощью правил, относящихся к языку.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
isSearchTokenizer |
boolean |
False |
Значение, указывающее, как используется токенизатор. Установите значение true, если используется в качестве маркеризатора поиска, установите значение false, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. По умолчанию используется английский язык. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. Маркеры длиной более 300 символов сначала разделяются на маркеры длины 300, а затем каждый из этих маркеров разбивается на основе максимального набора длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
MicrosoftStemmingTokenizerLanguage
Выводит список языков, поддерживаемых маркеризатором маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает токенизатор маркеров microsoft stemming для арабского языка. |
bangla |
string |
Выбирает средство маркеров для Microsoft stemming для Bangla. |
bulgarian |
string |
Выбирает средство токенизации microsoft stemming для болгарии. |
catalan |
string |
Выбирает токенизатор маркеров для каталонца Майкрософт. |
croatian |
string |
Выбирает средство токенизации Майкрософт для хорватского языка. |
czech |
string |
Выбирает средство маркеров для microsoft stemming для Чехии. |
danish |
string |
Выбирает токенизатор маркеров microsoft stemming для датского языка. |
dutch |
string |
Выбирает средство токенизации майкрософт для голландцев. |
english |
string |
Выбирает средство маркеров для microsoft stemming для английского языка. |
estonian |
string |
Выбирает токенизатор маркеров microsoft stemming для Эстонии. |
finnish |
string |
Выбирает токенизатор маркеров microsoft stemming для финляндии. |
french |
string |
Выбирает средство маркеров для французского языка с использованием маркеров для microsoft stemming. |
german |
string |
Выбирает токенизатор маркеров microsoft stemming для немецкого языка. |
greek |
string |
Выбирает токенизатор маркеров microsoft stemming для греческого языка. |
gujarati |
string |
Выбирает средство токенизации microsoft stemming для Gujarati. |
hebrew |
string |
Выбирает средство маркеров для иврита в microsoft stemming. |
hindi |
string |
Выбирает средство маркеров для Хинди в microsoft stemming. |
hungarian |
string |
Выбирает средство маркеров для венгерских сценариев майкрософт. |
icelandic |
string |
Выбирает средство токенизации майкрософт для Исландии. |
indonesian |
string |
Выбирает средство маркеров для индонезийского языка с использованием маркеров для microsoft stemming. |
italian |
string |
Выбирает средство маркеров для итальянского языка с использованием маркеров для microsoft stemming. |
kannada |
string |
Выбирает средство маркеров для Microsoft stemming для Kannada. |
latvian |
string |
Выбирает токенизатор маркеров microsoft stemming для Латышского языка. |
lithuanian |
string |
Выбирает токенизатор маркеров microsoft stemming для Литвы. |
malay |
string |
Выбирает токенизатор для Microsoft stemming для Малая. |
malayalam |
string |
Выбирает средство маркеров для Microsoft stemming для Малаялам. |
marathi |
string |
Выбирает средство маркеров для Маратхи в microsoft stemming. |
norwegianBokmaal |
string |
Выбирает токенизатор для норвежского языка (Bokmål). |
polish |
string |
Выбирает токенизатор маркеров microsoft stemming для польского. |
portuguese |
string |
Выбирает токенизатор маркеров microsoft stemming для португальского языка. |
portugueseBrazilian |
string |
Выбирает средство маркеров для португальского языка (Бразилия). |
punjabi |
string |
Выбирает средство токенизации для Пенджаби майкрософт. |
romanian |
string |
Выбирает токенизатор для румына microsoft stemming. |
russian |
string |
Выбирает средство маркеров для microsoft stemming для русского языка. |
serbianCyrillic |
string |
Выбирает токенизатор маркеров для сербских (кириллица). |
serbianLatin |
string |
Выбирает токенизатор для сербских (латиница). |
slovak |
string |
Выбирает токенизатор для словацкого маркера microsoft stemming. |
slovenian |
string |
Выбирает средство маркеров для словенцев в microsoft stemming. |
spanish |
string |
Выбирает токенизатор маркеров microsoft stemming для испанского языка. |
swedish |
string |
Выбирает средство токенизации microsoft stemming для шведского языка. |
tamil |
string |
Выбирает токенизатор маркеров для Тамил для Microsoft stemming. |
telugu |
string |
Выбирает средство токенизации microsoft stemming для Telugu. |
turkish |
string |
Выбирает токенизатор маркеров для турецкого языка с использованием маркеров для microsoft stemming. |
ukrainian |
string |
Выбирает токенизатор маркеров microsoft stemming для украины. |
urdu |
string |
Выбирает средство маркеров для Урду для microsoft stemming. |
MicrosoftTokenizerLanguage
Выводит список языков, поддерживаемых токенизатором языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
bangla |
string |
Выбирает токенизатор Майкрософт для Bangla. |
bulgarian |
string |
Выбирает токенизатор Майкрософт для болгарии. |
catalan |
string |
Выбирает токенизатор Майкрософт для каталонского. |
chineseSimplified |
string |
Выбирает токенизатор Майкрософт для китайского (упрощенное письмо). |
chineseTraditional |
string |
Выбирает токенизатор Майкрософт для китайского (традиционного). |
croatian |
string |
Выбирает токенизатор Майкрософт для хорватского. |
czech |
string |
Выбирает средство токенизатора Майкрософт для Чехии. |
danish |
string |
Выбирает токенизатор Майкрософт для датского. |
dutch |
string |
Выбирает токенизатор Майкрософт для голландцев. |
english |
string |
Выбирает токенизатор Майкрософт для английского языка. |
french |
string |
Выбирает токенизатор Майкрософт для французского языка. |
german |
string |
Выбирает токенизатор Майкрософт для немецкого языка. |
greek |
string |
Выбирает токенизатор Майкрософт для греческого языка. |
gujarati |
string |
Выбирает токенизатор Майкрософт для Gujarati. |
hindi |
string |
Выбирает токенизатор Майкрософт для Хинди. |
icelandic |
string |
Выбирает токенизатор Майкрософт для Исландии. |
indonesian |
string |
Выбирает токенизатор Майкрософт для Индонезии. |
italian |
string |
Выбирает токенизатор Майкрософт для итальянского языка. |
japanese |
string |
Выбирает токенизатор Майкрософт для японского языка. |
kannada |
string |
Выбирает токенизатор Майкрософт для Kannada. |
korean |
string |
Выбирает токенизатор Майкрософт для корейского языка. |
malay |
string |
Выбирает токенизатор Майкрософт для Малая. |
malayalam |
string |
Выбирает токенизатор Майкрософт для Малаялам. |
marathi |
string |
Выбирает токенизатор Майкрософт для Marathi. |
norwegianBokmaal |
string |
Выбирает токенизатор Майкрософт для норвежского языка (Bokmål). |
polish |
string |
Выбирает токенизатор Майкрософт для польского. |
portuguese |
string |
Выбирает токенизатор Майкрософт для португальского языка. |
portugueseBrazilian |
string |
Выбирает токенизатор Майкрософт для португальского языка (Бразилия). |
punjabi |
string |
Выбирает токенизатор Майкрософт для Punjabi. |
romanian |
string |
Выбирает токенизатор Майкрософт для румына. |
russian |
string |
Выбирает токенизатор Майкрософт для русского языка. |
serbianCyrillic |
string |
Выбирает токенизатор Майкрософт для сербских (кириллица). |
serbianLatin |
string |
Выбирает токенизатор Майкрософт для сербских (латиница). |
slovenian |
string |
Выбирает токенизатор Майкрософт для словенцев. |
spanish |
string |
Выбирает токенизатор Майкрософт для испанского языка. |
swedish |
string |
Выбирает токенизатор Майкрософт для шведского языка. |
tamil |
string |
Выбирает токенизатор Майкрософт для Тамила. |
telugu |
string |
Выбирает токенизатор Майкрософт для Telugu. |
thai |
string |
Выбирает токенизатор Майкрософт для тайского языка. |
ukrainian |
string |
Выбирает токенизатор Майкрософт для украины. |
urdu |
string |
Выбирает токенизатор Майкрософт для Urdu. |
vietnamese |
string |
Выбирает токенизатор Майкрософт для вьетнамцев. |
NGramTokenFilter
Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. |
minGram |
integer |
1 |
Минимальная длина n-грамма. Значение по умолчанию — 1. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
NGramTokenFilterV2
Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300. |
minGram |
integer |
1 |
Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
NGramTokenizer
Маркеризирует входные данные в n-граммах заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300. |
minGram |
integer |
1 |
Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
tokenChars |
Классы символов, которые хранятся в маркерах. |
OutputFieldMappingEntry
Сопоставление полей вывода для навыка.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя выходных данных, определенных навыком. |
targetName |
string |
Целевое имя выходных данных. Это необязательно и по умолчанию имя. |
PathHierarchyTokenizerV2
Токенизатор для иерархий, похожих на пути. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
delimiter |
string |
/ |
Используемый символ разделителя. Значение по умолчанию — "/". |
maxTokenLength |
integer |
300 |
Максимальная длина маркера. Значение по умолчанию и максимальное значение — 300. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
replacement |
string |
/ |
Значение, которое, если задано, заменяет символ разделителя. Значение по умолчанию — "/". |
reverse |
boolean |
False |
Значение, указывающее, следует ли создавать маркеры в обратном порядке. Значение по умолчанию — false. |
skip |
integer |
0 |
Количество пропустить начальных маркеров. Значение по умолчанию — 0. |
PatternAnalyzer
Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
flags |
Флаги регулярных выражений. |
||
lowercase |
boolean |
True |
Значение, указывающее, должны ли термины быть строчными. Значение по умолчанию — true. |
name |
string |
Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию используется выражение, соответствующее одному или нескольким символам, не являющихся словами. |
stopwords |
string[] |
Список стоп-слов. |
PatternCaptureTokenFilter
Использует регрессии Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
patterns |
string[] |
Список шаблонов для сопоставления с каждым маркером. |
|
preserveOriginal |
boolean |
True |
Значение, указывающее, следует ли возвращать исходный маркер, даже если один из шаблонов соответствует. Значение по умолчанию — true. |
PatternReplaceCharFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра char. |
name |
string |
Имя фильтра char. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Замещающий текст. |
PatternReplaceTokenFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Замещающий текст. |
PatternTokenizer
Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
flags |
Флаги регулярных выражений. |
||
group |
integer |
-1 |
Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в токены. Используйте -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от совпадающих групп. Значение по умолчанию — -1. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию используется выражение, соответствующее одному или нескольким символам, не являющихся словами. |
PhoneticEncoder
Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter.
Имя | Тип | Описание |
---|---|---|
beiderMorse |
string |
Кодирует маркер в значение Beider-Morse. |
caverphone1 |
string |
Кодирует маркер в значение Caverphone 1.0. |
caverphone2 |
string |
Кодирует маркер в значение Caverphone 2.0. |
cologne |
string |
Кодирует маркер в значение Phonetic в Кельне. |
doubleMetaphone |
string |
Кодирует маркер в двойное значение метафона. |
haasePhonetik |
string |
Кодирует токен с помощью уточнения Haase алгоритма Kölner Phonetik. |
koelnerPhonetik |
string |
Кодирует маркер с помощью алгоритма Kölner Phonetik. |
metaphone |
string |
Кодирует маркер в значение Метафона. |
nysiis |
string |
Кодирует маркер в значение NYSIIS. |
refinedSoundex |
string |
Кодирует маркер в значение Уточненного soundex. |
soundex |
string |
Кодирует маркер в значение Soundex. |
PhoneticTokenFilter
Создайте маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
encoder | metaphone |
Используемый фонетический кодировщик. По умолчанию используется метафон. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
replace |
boolean |
True |
Значение, указывающее, должны ли кодированные маркеры заменить исходные маркеры. Если значение false, закодированные маркеры добавляются в качестве синонимов. Значение по умолчанию — true. |
PrioritizedFields
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделений и ответов.
Имя | Тип | Описание |
---|---|---|
prioritizedContentFields |
Определяет поля содержимого, которые будут использоваться для семантического ранжирования, заголовков, выделений и ответов. Для лучшего результата выбранные поля должны содержать текст в форме естественного языка. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
prioritizedKeywordsFields |
Определяет поля ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделений и ответов. Для наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
titleField |
Определяет поле заголовка, используемое для семантического ранжирования, подписей, выделений и ответов. Если в индексе нет поля заголовка, оставьте его пустым. |
RegexFlags
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и маркеризаторе шаблонов.
Имя | Тип | Описание |
---|---|---|
CANON_EQ |
string |
Включает каноническую эквивалентность. |
CASE_INSENSITIVE |
string |
Включает сопоставление без учета регистра. |
COMMENTS |
string |
Разрешает пробелы и комментарии в шаблоне. |
DOTALL |
string |
Включает режим dotall. |
LITERAL |
string |
Включает синтаксический анализ шаблона литерала. |
MULTILINE |
string |
Включает многостроевой режим. |
UNICODE_CASE |
string |
Включает свертывание регистра с поддержкой Юникода. |
UNIX_LINES |
string |
Включает режим строк Unix. |
ScalarQuantizationParameters
Содержит параметры, относящиеся к скалярной квантизации.
Имя | Тип | Описание |
---|---|---|
quantizedDataType |
Квантизованный тип данных сжатых векторных значений. |
ScalarQuantizationVectorSearchCompressionConfiguration
Содержит параметры конфигурации, относящиеся к методу сжатия скалярной квантизации, используемому во время индексирования и запроса.
Имя | Тип | Default value | Описание |
---|---|---|---|
defaultOversampling |
number |
Коэффициент превышения по умолчанию. Oversampling внутренне запрашивает дополнительные документы (указанные этим умножением) в первоначальном поиске. Это увеличивает набор результатов, которые будут повторно выполняться с помощью перекомпилированных показателей сходства из векторов полной точности. Минимальное значение равно 1, то есть без превышения (1x). Этот параметр можно задать только в том случае, если параметр rerankWithOriginalVectors имеет значение true. Более высокие значения улучшают отзыв за счет задержки. |
|
kind |
string:
scalar |
Имя типа метода сжатия, настроенного для использования с векторным поиском. |
|
name |
string |
Имя, сопоставленное с этой конкретной конфигурацией. |
|
rerankWithOriginalVectors |
boolean |
True |
Если задано значение true, после получения упорядоченного набора результатов, вычисляемого с помощью сжатых векторов, они будут повторно оценены путем пересчета показателей сходства полной точности. Это улучшит отзыв за счет задержки. |
scalarQuantizationParameters |
Содержит параметры, относящиеся к скалярной квантизации. |
ScoringFunctionAggregation
Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки.
Имя | Тип | Описание |
---|---|---|
average |
string |
Повышение показателей на средний показатель всех результатов функции оценки. |
firstMatching |
string |
Повышение показателей с помощью первой применимой функции оценки в профиле оценки. |
maximum |
string |
Повышение показателей на максимальное количество всех результатов функции оценки. |
minimum |
string |
Повышение показателей по минимуму всех результатов функции оценки. |
sum |
string |
Повышение показателей по сумме всех результатов функции оценки. |
ScoringFunctionInterpolation
Определяет функцию, используемую для интерполяции показателей повышения в диапазоне документов.
Имя | Тип | Описание |
---|---|---|
constant |
string |
Повышает оценки на константный фактор. |
linear |
string |
Повышает оценку по линейному уменьшению суммы. Это интерполяция по умолчанию для функций оценки. |
logarithmic |
string |
Повышает оценку на сумму, которая уменьшает логарифмически. Повышение быстро уменьшается для более высоких показателей и более медленно по мере уменьшения показателей. Этот параметр интерполяции не допускается в функциях оценки тегов. |
quadratic |
string |
Повышает оценки на сумму, которая уменьшается квадратично. Повышение снижается медленно для более высоких показателей и быстрее по мере уменьшения показателей. Этот параметр интерполяции не допускается в функциях оценки тегов. |
ScoringProfile
Определяет параметры индекса поиска, влияющего на оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
functionAggregation |
Значение, указывающее, как следует объединять результаты отдельных функций оценки. По умолчанию используется значение Sum. Игнорируется, если нет функций оценки. |
|
functions | ScoringFunction[]: |
Коллекция функций, влияющих на оценку документов. |
name |
string |
Имя профиля оценки. |
text |
Параметры, повышающие оценку на основе текстовых совпадений в определенных полях индекса. |
SearchField
Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для поля. Этот параметр можно использовать только с полями, доступными для поиска, и его нельзя задать вместе с searchAnalyzer или indexAnalyzer. После выбора анализатора его нельзя изменить для поля. Должен иметь значение NULL для сложных полей. |
|
dimensions |
integer |
Размерность поля вектора. |
facetable |
boolean |
Значение, указывающее, следует ли указывать поле в запросах аспектов. Обычно используется в презентации результатов поиска, включающих количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по бренду, по мегапикселям, по цене и т. д.). Это свойство должно иметь значение NULL для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть аспектируемыми. По умолчанию используется значение true для всех остальных простых полей. |
fields |
Список вложенных полей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Должно быть пустым или пустым для простых полей. |
|
filterable |
boolean |
Значение, указывающее, следует ли указывать поле в $filter запросах. Фильтрация отличается от способа обработки строк поиска. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не проходят разбиение слов, поэтому сравнения предназначены только для точных совпадений. Например, если задать такое поле f на "солнечный день", $filter=fq "солнечный" не будет найти совпадений, но $filter=fq "солнечный день". Это свойство должно иметь значение NULL для сложных полей. По умолчанию используется значение true для простых полей и null для сложных полей. |
indexAnalyzer |
Имя анализатора, используемого во время индексирования поля. Этот параметр можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с searchAnalyzer, и его нельзя задать вместе с параметром анализатора. Это свойство нельзя задать для имени анализатора языка; используйте свойство анализатора вместо этого, если вам нужен анализатор языка. После выбора анализатора его нельзя изменить для поля. Должен иметь значение NULL для сложных полей. |
|
key |
boolean |
Значение, указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля необходимо выбрать ровно одно поле верхнего уровня в каждом индексе, и оно должно иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую и обновления или удаления определенных документов. Значение по умолчанию — false для простых полей и null для сложных полей. |
name |
string |
Имя поля, которое должно быть уникальным в коллекции полей индекса или родительского поля. |
retrievable |
boolean |
Значение, указывающее, можно ли возвращать поле в результатах поиска. Этот параметр можно отключить, если вы хотите использовать поле (например, поле) в качестве фильтра, сортировки или механизма оценки, но не хотите, чтобы поле отображалось для конечного пользователя. Это свойство должно иметь значение true для ключевых полей, и оно должно иметь значение NULL для сложных полей. Это свойство можно изменить в существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. По умолчанию используется значение true для простых полей, false для векторных полей и null для сложных полей. |
searchAnalyzer |
Имя анализатора, используемого во время поиска поля. Этот параметр можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с indexAnalyzer, и его нельзя задать вместе с параметром анализатора. Это свойство нельзя задать для имени анализатора языка; используйте свойство анализатора вместо этого, если вам нужен анализатор языка. Этот анализатор можно обновить в существующем поле. Должен иметь значение NULL для сложных полей. |
|
searchable |
boolean |
Значение, указывающее, доступно ли поле для полнотекстового поиска. Это означает, что он будет проходить анализ, например критические слова во время индексирования. Если вы устанавливаете для поиска значение, например "солнечный день", внутренне оно будет разделено на отдельные токены "солнечный" и "день". Это позволяет выполнять полнотекстовый поиск этих терминов. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно быть false для простых полей других типов данных, не являющихся строковыми, и оно должно иметь значение NULL для сложных полей. Примечание. Поля, доступные для поиска, используют дополнительное пространство в индексе для размещения дополнительных маркеризованных версий значения поля для полнотекстового поиска. Если вы хотите сэкономить место в индексе и не требуется, чтобы поле было включено в поиск, задайте для поиска значение false. |
sortable |
boolean |
Значение, указывающее, следует ли ссылаться на поле в выражениях $orderby. По умолчанию поисковая система сортирует результаты по оценке, но во многих интерфейсах пользователи хотят отсортировать поля в документах. Простое поле может быть сортировано только в том случае, если оно имеет одно значение в области родительского документа. Простые поля коллекции не могут быть сортируемыми, так как они имеют многозначное значение. Простые вложенные поля сложных коллекций также являются многозначными и поэтому не могут быть сортируемыми. Это верно, является ли это немедленное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, а свойство сортировки должно иметь значение NULL для таких полей. Значение по умолчанию для сортировки равно true для однозначных простых полей, false для многозначных простых полей и null для сложных полей. |
stored |
boolean |
Неизменяемое значение, указывающее, будет ли поле сохраняться отдельно на диске, возвращаемое в результатах поиска. Этот параметр можно отключить, если вы не планируете возвращать содержимое поля в ответе поиска, чтобы сэкономить на затратах на хранение. Это можно задать только во время создания индекса и только для полей векторов. Это свойство нельзя изменить для существующих полей или задать значение false для новых полей. Если это свойство задано как false, свойство "извлекаемое" также должно иметь значение false. Это свойство должно быть true или не задано для ключевых полей, для новых полей, а также для полей, не являющихся векторными, и оно должно иметь значение NULL для сложных полей. Отключение этого свойства приведет к снижению требований к хранилищу индексов. Значение по умолчанию имеет значение true для полей векторов. |
synonymMaps |
string[] |
Список имен синонимов сопоставляется с этим полем. Этот параметр можно использовать только с полями, доступными для поиска. В настоящее время поддерживается только одна карта синонимов на поле. Назначение сопоставления синонимов полю гарантирует, что условия запроса, предназначенные для этого поля, развертываются во время запроса с помощью правил в карте синонимов. Этот атрибут можно изменить в существующих полях. Должен иметь значение NULL или пустую коллекцию для сложных полей. |
type |
Тип данных поля. |
|
vectorEncoding |
Формат кодирования для интерпретации содержимого поля. |
|
vectorSearchProfile |
string |
Имя профиля векторного поиска, указывающего алгоритм и векторизатор для использования при поиске поля вектора. |
SearchFieldDataType
Определяет тип данных поля в индексе поиска.
Имя | Тип | Описание |
---|---|---|
Edm.Boolean |
string |
Указывает, что поле содержит логическое значение (true или false). |
Edm.Byte |
string |
Указывает, что поле содержит 8-разрядное целое число без знака. Это допустимо только при использовании с collection(Edm.Byte). |
Edm.ComplexType |
string |
Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, имеют под поля других типов. |
Edm.DateTimeOffset |
string |
Указывает, что поле содержит значение даты и времени, включая сведения о часовом поясе. |
Edm.Double |
string |
Указывает, что поле содержит число с плавающей запятой с двойной точностью IEEE. |
Edm.GeographyPoint |
string |
Указывает, что поле содержит географическое расположение с точки зрения долготы и широты. |
Edm.Half |
string |
Указывает, что поле содержит число с плавающей запятой половины точности. Это допустимо только при использовании с коллекцией (Edm.Half). |
Edm.Int16 |
string |
Указывает, что поле содержит 16-разрядное целое число со знаком. Это допустимо только при использовании с collection(Edm.Int16). |
Edm.Int32 |
string |
Указывает, что поле содержит 32-разрядное целое число со знаком. |
Edm.Int64 |
string |
Указывает, что поле содержит 64-разрядное целое число со знаком. |
Edm.SByte |
string |
Указывает, что поле содержит 8-разрядное целое число со знаком. Это допустимо только при использовании с Collection(Edm.SByte). |
Edm.Single |
string |
Указывает, что поле содержит число с плавающей запятой с одной точностью. Это допустимо только при использовании с collection(Edm.Single). |
Edm.String |
string |
Указывает, что поле содержит строку. |
SearchIndex
Представляет определение индекса поиска, описывающее поля и поведение поиска индекса.
Имя | Тип | Описание |
---|---|---|
@odata.etag |
string |
ETag индекса. |
analyzers | LexicalAnalyzer[]: |
Анализаторы индекса. |
charFilters | CharFilter[]: |
Фильтры символов для индекса. |
corsOptions |
Параметры управления общим доступом к ресурсам между источниками (CORS) для индекса. |
|
defaultScoringProfile |
string |
Имя профиля оценки, используемого, если ни один из них не указан в запросе. Если это свойство не задано, а профиль оценки не указан в запросе, будет использоваться оценка по умолчанию (tf-idf). |
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже не Корпорация Майкрософт, не может расшифровать данные. После шифрования данных он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г. |
|
fields |
Поля индекса. |
|
name |
string |
Имя индекса. |
scoringProfiles |
Профили оценки для индекса. |
|
semantic |
Определяет параметры индекса поиска, влияющего на семантические возможности. |
|
similarity | Similarity: |
Тип алгоритма сходства, используемый при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм сходства может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение NULL, используется алгоритм ClassicSimilarity. |
suggesters |
Предложения для индекса. |
|
tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
tokenizers | LexicalTokenizer[]: |
Маркеризаторы индекса. |
vectorSearch |
Содержит параметры конфигурации, связанные с векторным поиском. |
SearchIndexerDataNoneIdentity
Очищает свойство удостоверения источника данных.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
SearchIndexerDataUserAssignedIdentity
Указывает удостоверение для используемого источника данных.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
userAssignedIdentity |
string |
Полный идентификатор ресурса Azure назначаемого пользователем управляемого удостоверения обычно в форме "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", который должен быть назначен службе поиска. |
SearchResourceEncryptionKey
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.
Имя | Тип | Описание |
---|---|---|
accessCredentials |
Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение. |
|
keyVaultKeyName |
string |
Имя ключа Azure Key Vault, используемого для шифрования неактивных данных. |
keyVaultKeyVersion |
string |
Версия ключа Azure Key Vault, используемая для шифрования неактивных данных. |
keyVaultUri |
string |
Универсальный код ресурса (URI) Хранилища ключей Azure, который также называется DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI может быть |
SemanticConfiguration
Определяет определенную конфигурацию, используемую в контексте семантических возможностей.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя семантической конфигурации. |
prioritizedFields |
Описание полей заголовка, содержимого и ключевых слов, используемых для семантического ранжирования, подписей, выделений и ответов. Необходимо задать по крайней мере один из трех вложенных свойств (titleField, приоритетыKeywordsFields и приоритетыContentFields). |
SemanticField
Поле, используемое в рамках семантической конфигурации.
Имя | Тип | Описание |
---|---|---|
fieldName |
string |
SemanticSettings
Определяет параметры индекса поиска, влияющего на семантические возможности.
Имя | Тип | Описание |
---|---|---|
configurations |
Семантические конфигурации индекса. |
|
defaultConfiguration |
string |
Позволяет задать имя семантической конфигурации по умолчанию в индексе, что делает его необязательным для передачи в качестве параметра запроса каждый раз. |
ShingleTokenFilter
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
filterToken |
string |
_ |
Строка для вставки для каждой позиции, в которой нет маркера. По умолчанию используется символ подчеркивания ("_"). |
maxShingleSize |
integer |
2 |
Максимальный размер голени. Значение по умолчанию и минимальное значение — 2. |
minShingleSize |
integer |
2 |
Минимальный размер голени. Значение по умолчанию и минимальное значение — 2. Должно быть меньше значения maxShingleSize. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
outputUnigrams |
boolean |
True |
Значение, указывающее, будет ли выходной поток содержать входные маркеры (юниграммы), а также мешки. Значение по умолчанию — true. |
outputUnigramsIfNoShingles |
boolean |
False |
Значение, указывающее, следует ли выводить юниграммы в те времена, когда не доступны мешки. Это свойство имеет приоритет, если outputUnigrams имеет значение false. Значение по умолчанию — false. |
tokenSeparator |
string |
Строка, используемая при присоединении смежных маркеров для формирования голени. По умолчанию используется одно пространство (" "). |
SnowballTokenFilter
Фильтр, который стебляет слова с помощью созданного сноубола стебля. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
SnowballTokenFilterLanguage
Язык, используемый для фильтра маркеров Snowball.
Имя | Тип | Описание |
---|---|---|
armenian |
string |
Выбирает токенизатор стебля Lucene Snowball для армян. |
basque |
string |
Выбирает токенизатор стебля Lucene Snowball для Баска. |
catalan |
string |
Выбирает токенизатор стебля Lucene Snowball для каталонского. |
danish |
string |
Выбирает токенизатор стебля Lucene Snowball для датского языка. |
dutch |
string |
Выбирает токенизатор для голландцев Lucene Snowball. |
english |
string |
Выбирает токенизатор маркеров Lucene Snowball для английского языка. |
finnish |
string |
Выбирает токенизатор стебля Lucene Snowball для финляндии. |
french |
string |
Выбирает токенизатор стебля Lucene Snowball для французского языка. |
german |
string |
Выбирает токенизатор стебля Lucene Snowball для немецкого языка. |
german2 |
string |
Выбирает токенизатор стебля Lucene Snowball, использующий алгоритм немецкого варианта. |
hungarian |
string |
Выбирает токенизатор стебля Lucene Snowball для венгерского. |
italian |
string |
Выбирает токенизатор маркеров Lucene Snowball для итальянского языка. |
kp |
string |
Выбирает токенизатор стебля Lucene Snowball для Нидерландов, который использует алгоритм Kraaij-Pohlmann стебля. |
lovins |
string |
Выбирает токенизатор стебля Lucene Snowball для английского языка, использующего алгоритм Lovins stemming. |
norwegian |
string |
Выбирает токенизатор стебля Lucene Snowball для норвежского языка. |
porter |
string |
Выбирает токенизатор стебля Lucene Snowball для английского языка, использующего алгоритм стебляния Porter. |
portuguese |
string |
Выбирает токенизатор стебля Lucene Snowball для португальского языка. |
romanian |
string |
Выбирает токенизатор стебля Lucene Snowball для румына. |
russian |
string |
Выбирает токенизатор стебля Lucene Snowball для россии. |
spanish |
string |
Выбирает токенизатор стебля Lucene Snowball для испанского языка. |
swedish |
string |
Выбирает токенизатор стебля Lucene Snowball для шведского языка. |
turkish |
string |
Выбирает токенизатор стебля Lucene Snowball для турецкого языка. |
StemmerOverrideTokenFilter
Предоставляет возможность переопределить другие фильтры с использованием пользовательских фильтров на основе словаря. Все термины, связанные с словарем, будут помечены как ключевые слова, чтобы они не были стеблированы с помощью стволовых модулей вниз по цепочке. Необходимо поместить перед любыми фильтрами с использованием стволовых элементов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
rules |
string[] |
Список правил стека в следующем формате: "word => stem", например "run => run". |
StemmerTokenFilter
Фильтр для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
StemmerTokenFilterLanguage
Язык, используемый для фильтра маркеров stemmer.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает токенизатор стебля Lucene для арабского языка. |
armenian |
string |
Выбирает токенизатор стебля Lucene для армян. |
basque |
string |
Выбирает токенизатор стебля Lucene для Баска. |
brazilian |
string |
Выбирает токенизатор стебля Lucene для португальского (Бразилия). |
bulgarian |
string |
Выбирает токенизатор стебля Lucene для болгарии. |
catalan |
string |
Выбирает токенизатор стебля Lucene для каталонца. |
czech |
string |
Выбирает токенизатор блюсти Lucene для Чехии. |
danish |
string |
Выбирает токенизатор стебля Lucene для датского языка. |
dutch |
string |
Выбирает токенизатор люсена для голландцев. |
dutchKp |
string |
Выбирает токенизатор стебля Lucene для Нидерландов, использующий алгоритм Kraaij-Pohlmann стебля. |
english |
string |
Выбирает токенизатор стека Lucene для английского языка. |
finnish |
string |
Выбирает токенизатор стебля Lucene для финляндии. |
french |
string |
Выбирает токенизатор стека Lucene для французского языка. |
galician |
string |
Выбирает токенизатор стебля Lucene для Галисиана. |
german |
string |
Выбирает токенизатор стебля Lucene для немецкого языка. |
german2 |
string |
Выбирает токенизатор стека Lucene, использующий алгоритм немецкого варианта. |
greek |
string |
Выбирает токенизатор стебля Lucene для греческого языка. |
hindi |
string |
Выбирает токенизатор Хинди Lucene для Хинди. |
hungarian |
string |
Выбирает токенизатор стебля Lucene для венгерских. |
indonesian |
string |
Выбирает токенизатор стебля Lucene для индонезийского языка. |
irish |
string |
Выбирает токенизатор стебля Lucene для ирландских. |
italian |
string |
Выбирает токенизатор стека Lucene для итальянского языка. |
latvian |
string |
Выбирает токенизатор стебля Lucene для Латвии. |
lightEnglish |
string |
Выбирает токенизатор стебля Lucene для английского языка, который делает легкий стебли. |
lightFinnish |
string |
Выбирает токенизатор стебля Lucene для финляндии, который делает легкий стебли. |
lightFrench |
string |
Выбирает токенизатор стебля Lucene для французского языка, который делает легкий стебли. |
lightGerman |
string |
Выбирает токенизатор стебля Lucene для германии, который делает легкий стебли. |
lightHungarian |
string |
Выбирает токенизатор стебля Lucene для венгерских, который делает легкий стебли. |
lightItalian |
string |
Выбирает токенизатор стебля Lucene для итальянского языка, который делает легкий стебли. |
lightNorwegian |
string |
Выбирает токенизатор стебля Lucene для норвежского (Bokmål), который делает легкий стебли. |
lightNynorsk |
string |
Выбирает токенизатор стебля Lucene для норвежского (Nynorsk), который делает легкий стебли. |
lightPortuguese |
string |
Выбирает токенизатор стебля Lucene для португальского языка, который делает легкий стебли. |
lightRussian |
string |
Выбирает токенизатор стебля Lucene для россии, который делает легкий стебли. |
lightSpanish |
string |
Выбирает токенизатор стебля Lucene для испанского языка, который делает легкий стебли. |
lightSwedish |
string |
Выбирает токенизатор стебля Lucene для шведского языка, который делает легкий стебли. |
lovins |
string |
Выбирает токенизатор стека Lucene для английского языка, использующего алгоритм Lovins stemming. |
minimalEnglish |
string |
Выбирает токенизатор стебля Lucene для английского языка, который делает минимальный стебли. |
minimalFrench |
string |
Выбирает токенизатор стека Lucene для французского языка, который делает минимальный стебли. |
minimalGalician |
string |
Выбирает токенизатор стебля Lucene для Галисиана, который делает минимальное стеблирование. |
minimalGerman |
string |
Выбирает токенизатор стебля Lucene для германии, который делает минимальный стебли. |
minimalNorwegian |
string |
Выбирает токенизатор стебля Lucene для норвежского (Bokmål), который делает минимальный стебли. |
minimalNynorsk |
string |
Выбирает токенизатор стебля Lucene для норвежского (Nynorsk), который делает минимальный стебли. |
minimalPortuguese |
string |
Выбирает токенизатор стебля Lucene для португальского языка, который делает минимальный стебли. |
norwegian |
string |
Выбирает токенизатор стека Lucene для норвежского языка (Bokmål). |
porter2 |
string |
Выбирает токенизатор стебля Lucene для английского языка, использующего алгоритм stemming Porter2. |
portuguese |
string |
Выбирает токенизатор стека Lucene для португальского языка. |
portugueseRslp |
string |
Выбирает токенизатор стебля Lucene для португальского языка, использующего алгоритм стеммирования RSLP. |
possessiveEnglish |
string |
Выбирает токенизатор стека Lucene для английского языка, который удаляет конечные пристрастия из слов. |
romanian |
string |
Выбирает токенизатор стебля Lucene для румына. |
russian |
string |
Выбирает токенизатор стека Lucene для русского языка. |
sorani |
string |
Выбирает токенизатор для Lucene stemming для Sorani. |
spanish |
string |
Выбирает токенизатор стека Lucene для испанского языка. |
swedish |
string |
Выбирает токенизатор стека Lucene для шведского языка. |
turkish |
string |
Выбирает токенизатор стебля Lucene для турецкого языка. |
StopAnalyzer
Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
name |
string |
Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
stopwords |
string[] |
Список стоп-слов. |
StopwordsList
Определяет предопределенный список слов стоп-слов для конкретного языка.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает список стоп-слов для арабского языка. |
armenian |
string |
Выбирает список стоп-слов для армян. |
basque |
string |
Выбирает список стоп-слов для Баска. |
brazilian |
string |
Выбирает список стоп-слов для португальского (Бразилия). |
bulgarian |
string |
Выбирает список стоп-слов для болгарского. |
catalan |
string |
Выбирает список стоп-слов для каталонца. |
czech |
string |
Выбирает список стоп-слов для Чехии. |
danish |
string |
Выбирает список стоп-слов для датского языка. |
dutch |
string |
Выбирает список стоп-слов для голландцев. |
english |
string |
Выбирает список стоп-слов для английского языка. |
finnish |
string |
Выбирает список стоп-слов для финляндии. |
french |
string |
Выбирает список стоп-слов для французского языка. |
galician |
string |
Выбирает список стоп-слов для Галисиана. |
german |
string |
Выбирает список стоп-слов для немецкого языка. |
greek |
string |
Выбирает список стоп-слов для греческого языка. |
hindi |
string |
Выбирает список стоп-слов для Хинди. |
hungarian |
string |
Выбирает список стоп-слов для венгерского. |
indonesian |
string |
Выбирает список стоп-слов для Индонезии. |
irish |
string |
Выбирает список стоп-слов для ирландских. |
italian |
string |
Выбирает список стоп-слов для итальянского языка. |
latvian |
string |
Выбирает список стоп-слов для латышского языка. |
norwegian |
string |
Выбирает список стоп-слов для норвежского языка. |
persian |
string |
Выбирает список стоп-слов для персидского языка. |
portuguese |
string |
Выбирает список стоп-слов для португальского языка. |
romanian |
string |
Выбирает список стоп-слов для румынка. |
russian |
string |
Выбирает список стоп-слов для русского языка. |
sorani |
string |
Выбирает список стоп-слов для Sorani. |
spanish |
string |
Выбирает список стоп-слов для испанского языка. |
swedish |
string |
Выбирает список стоп-слов для шведского языка. |
thai |
string |
Выбирает список стоп-слов для тайского языка. |
turkish |
string |
Выбирает список стоп-слов для турецкого языка. |
StopwordsTokenFilter
Удаляет слова остановки из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение, указывающее, следует ли игнорировать регистр. Если значение true, все слова преобразуются в нижний регистр. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
removeTrailing |
boolean |
True |
Значение, указывающее, следует ли игнорировать последний поисковый термин, если это стоп-слово. Значение по умолчанию — true. |
stopwords |
string[] |
Список стоп-слов. Это свойство и свойство списка стоп-слов не могут быть заданы. |
|
stopwordsList | english |
Предопределенный список стоп-слов для использования. Это свойство и свойство stopwords не могут быть заданы. По умолчанию используется английский язык. |
Suggester
Определяет, как API предложения должен применяться к группе полей в индексе.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя средства предложения. |
searchMode |
Значение, указывающее возможности средства предложения. |
|
sourceFields |
string[] |
Список имен полей, к которым применяется средство предложения. Каждое поле должно быть доступны для поиска. |
SuggesterSearchMode
Значение, указывающее возможности средства предложения.
Имя | Тип | Описание |
---|---|---|
analyzingInfixMatching |
string |
Соответствует последовательным целым терминам и префиксам в поле. Например, для поля "Самый быстрый коричневый фокс", запросы "быстрый" и "самый быстрый бровь" оба совпадают. |
SynonymTokenFilter
Соответствует синонимам одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
expand |
boolean |
True |
Значение, указывающее, будут ли все слова в списке синонимов (если => нотация не используется) сопоставляться друг с другом. Если значение true, все слова в списке синонимов (если => нотация не используется) будут сопоставляться друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалент: невероятный, невероятный, сказочный, удивительный => невероятные, сказочные, удивительные, удивительные. Если ложь, следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентно: невероятным, невероятным, сказочным, удивительным => невероятным. Значение по умолчанию — true. |
ignoreCase |
boolean |
False |
Значение, указывающее, следует ли регистрировать входные данные для сопоставления. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
synonyms |
string[] |
Список синонимов в одном из двух форматов: 1. невероятные, невероятные, сказочные => удивительные - все термины слева от => символ будет заменен всеми условиями на правой стороне; 2. невероятный, невероятный, сказочный, удивительный - запятая разделил список эквивалентных слов. Задайте параметр развертывания, чтобы изменить способ интерпретации этого списка. |
TagScoringFunction
Определяет функцию, которая повышает оценку документов со строковыми значениями, соответствующими заданному списку тегов.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear". |
|
tag |
Значения параметров для функции оценки тегов. |
|
type |
string:
tag |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром. |
TagScoringParameters
Предоставляет значения параметров функции оценки тегов.
Имя | Тип | Описание |
---|---|---|
tagsParameter |
string |
Имя параметра, переданного в поисковых запросах, чтобы указать список тегов для сравнения с целевым полем. |
TextWeights
Определяет весы в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
weights |
object |
Словарь весов по полю для повышения оценки документов. Ключи являются именами полей, а значения — весами для каждого поля. |
TokenCharacterKind
Представляет классы символов, на которых может работать фильтр маркеров.
Имя | Тип | Описание |
---|---|---|
digit |
string |
Сохраняет цифры в токенах. |
letter |
string |
Хранит буквы в маркерах. |
punctuation |
string |
Сохраняет знаки препинания в токенах. |
symbol |
string |
Сохраняет символы в токенах. |
whitespace |
string |
Сохраняет пробелы в маркерах. |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.
TruncateTokenFilter
Усечение терминов до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
length |
integer |
300 |
Длина усечения терминов. Значение по умолчанию и максимальное значение — 300. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
UaxUrlEmailTokenizer
Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип токенизатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
UniqueTokenFilter
Фильтрует маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
onlyOnSamePosition |
boolean |
False |
Значение, указывающее, следует ли удалять дубликаты только в той же позиции. Значение по умолчанию — false. |
VectorEncodingFormat
Формат кодирования для интерпретации содержимого поля вектора.
Имя | Тип | Описание |
---|---|---|
packedBit |
string |
Формат кодирования, представляющий биты, упакованные в более широкий тип данных. |
VectorSearch
Содержит параметры конфигурации, связанные с векторным поиском.
Имя | Тип | Описание |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса. |
compressions | VectorSearchCompressionConfiguration[]: |
Содержит параметры конфигурации, относящиеся к методу сжатия, используемому во время индексирования или запроса. |
profiles |
Определяет сочетания конфигураций для использования с векторным поиском. |
|
vectorizers | VectorSearchVectorizer[]: |
Содержит параметры конфигурации по векторным запросам вектора текста. |
VectorSearchAlgorithmKind
Алгоритм, используемый для индексирования и запроса.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnn |
string |
Исчерпывающий алгоритм KNN, который будет выполнять поиск методом подбора. |
hnsw |
string |
HNSW (иерархический навигации small world), тип приблизительного ближайшего алгоритма соседей. |
VectorSearchAlgorithmMetric
Метрика сходства, используемая для сравнения векторов. Рекомендуется выбрать ту же метрику сходства, что и модель внедрения.
Имя | Тип | Описание |
---|---|---|
cosine |
string |
Измеряет угол между векторами, чтобы квалифицировать их сходство, игнорируя величину. Чем меньше угол, тем ближе сходство. |
dotProduct |
string |
Вычисляет сумму продуктов, мудрых элементами, чтобы оценить выравнивание и сходство величины. Чем больше, тем ближе сходство. |
euclidean |
string |
Вычисляет расстояние прямой линии между векторами в многомерном пространстве. Чем меньше расстояние, тем ближе сходство. |
hamming |
string |
Применимо только к типам двоичных данных с битовой упаковкой. Определяет непохожесть путем подсчета разных позиций в двоичных векторах. Чем меньше различий, тем ближе сходство. |
VectorSearchCompressionKind
Метод сжатия, используемый для индексирования и запроса.
Имя | Тип | Описание |
---|---|---|
binaryQuantization |
string |
Двоичная квантизация— тип метода сжатия. В двоичном квантизации исходные значения векторов сжимаются до более узкого двоичного типа путем дискретизации и представления каждого компонента вектора с использованием двоичных значений, тем самым уменьшая общий размер данных. |
scalarQuantization |
string |
Скалярная квантизация, тип метода сжатия. В скалярной квантизации исходные значения векторов сжимаются до более узкого типа путем дискретизации и представления каждого компонента вектора с помощью сокращенного набора квантизованных значений, тем самым уменьшая общий размер данных. |
VectorSearchCompressionTargetDataType
Квантизованный тип данных сжатых векторных значений.
Имя | Тип | Описание |
---|---|---|
int8 |
string |
VectorSearchProfile
Определяет сочетание конфигураций для использования с векторным поиском.
Имя | Тип | Описание |
---|---|---|
algorithm |
string |
Имя конфигурации алгоритма векторного поиска, указывающее алгоритм и необязательные параметры. |
compression |
string |
Имя конфигурации метода сжатия, указывающей метод сжатия и необязательные параметры. |
name |
string |
Имя, сопоставленное с данным векторным профилем поиска. |
vectorizer |
string |
Имя векторизации, настроенной для использования с векторным поиском. |
VectorSearchVectorizerKind
Метод векторизации, используемый во время запроса.
Имя | Тип | Описание |
---|---|---|
azureOpenAI |
string |
Создайте внедрение с помощью ресурса Azure OpenAI во время запроса. |
customWebApi |
string |
Создание внедрения с помощью пользовательской веб-конечной точки во время запроса. |
WebApiParameters
Задает свойства для подключения к определяемой пользователем векторизаторе.
Имя | Тип | Описание |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. Если указан идентификатор authResourceId и он не указан, используется управляемое удостоверение, назначаемое системой. При обновлении индексатора, если удостоверение не указано, значение остается неизменным. Если задано значение none, то значение этого свойства очищается. |
authResourceId |
string |
Применяется к пользовательским конечным точкам, которые подключаются к внешнему коду в функции Azure или другом приложении, которое предоставляет преобразования. Это значение должно быть идентификатором приложения, созданным для функции или приложения при регистрации в Azure Active Directory. При указании векторизация подключается к функции или приложению с помощью управляемого идентификатора (назначаемого системой или пользователем) службы поиска и маркера доступа функции или приложения, используя это значение в качестве идентификатора ресурса для создания области маркера доступа. |
httpHeaders |
object |
Заголовки, необходимые для выполнения HTTP-запроса. |
httpMethod |
string |
Метод HTTP-запроса. |
timeout |
string |
Требуемое время ожидания запроса. Значение по умолчанию — 30 секунд. |
uri |
string |
Универсальный код ресурса (URI) веб-API, предоставляющий векторизатор. |
WebApiVectorizer
Задает определяемый пользователем векторизатор для создания векторного внедрения строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса веб-API набора навыков.
Имя | Тип | Описание |
---|---|---|
customWebApiParameters |
Задает свойства определяемого пользователем векторизатора. |
|
kind |
string:
custom |
Имя типа метода векторизации, настроенного для использования с векторным поиском. |
name |
string |
Имя, сопоставленное с этим конкретным методом векторизации. |
WordDelimiterTokenFilter
Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
catenateAll |
boolean |
False |
Значение, указывающее, будут ли все части подсловных элементов катенироваться. Например, если задано значение true, "Azure-Search-1" становится "AzureSearch1". Значение по умолчанию — false. |
catenateNumbers |
boolean |
False |
Значение, указывающее, будет ли выполняться максимальное число частей. Например, если задано значение true, значение "1–2" становится "12". Значение по умолчанию — false. |
catenateWords |
boolean |
False |
Значение, указывающее, будет ли выполняться максимальное количество слов. Например, если для этого задано значение true, "Azure-Search" становится "AzureSearch". Значение по умолчанию — false. |
generateNumberParts |
boolean |
True |
Значение, указывающее, следует ли создавать подзадачки чисел. Значение по умолчанию — true. |
generateWordParts |
boolean |
True |
Значение, указывающее, следует ли создавать слова частей. Если задано, создается часть слов; Например, AzureSearch становится "Azure" "Поиск". Значение по умолчанию — true. |
name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
|
preserveOriginal |
boolean |
False |
Значение, указывающее, будут ли сохранены исходные слова и добавлены в список подслугов. Значение по умолчанию — false. |
protectedWords |
string[] |
Список маркеров для защиты от разделителя. |
|
splitOnCaseChange |
boolean |
True |
Значение, указывающее, следует ли разделять слова на caseChange. Например, если задано значение true, AzureSearch становится "Azure" "Поиск". Значение по умолчанию — true. |
splitOnNumerics |
boolean |
True |
Значение, указывающее, следует ли разделять числа. Например, если задано значение true, "Azure1Search" становится "Azure" "1" "Поиск". Значение по умолчанию — true. |
stemEnglishPossessive |
boolean |
True |
Значение, указывающее, следует ли удалять конечные "s" для каждого подсловия. Значение по умолчанию — true. |