Dela via


Indexes - Create

Skapar ett nytt sökindex.

POST {endpoint}/indexes?api-version=2024-07-01

URI-parametrar

Name I Obligatorisk Typ Description
endpoint
path True

string

Slutpunkts-URL:en för söktjänsten.

api-version
query True

string

Klient-API-version.

Begärandehuvud

Name Obligatorisk Typ Description
x-ms-client-request-id

string

uuid

Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning.

Begärandetext

Name Obligatorisk Typ Description
fields True

SearchField[]

Fälten i indexet.

name True

string

Namnet på indexet.

@odata.etag

string

Indexets ETag.

analyzers LexicalAnalyzer[]:

Analysverktygen för indexet.

charFilters CharFilter[]:

Tecknet filtrerar för indexet.

corsOptions

CorsOptions

Alternativ för att styra CORS (Cross-Origin Resource Sharing) för indexet.

defaultScoringProfile

string

Namnet på bedömningsprofilen som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil har angetts i frågan används standardbedömning (tf-idf).

encryptionKey

SearchResourceEncryptionKey

En beskrivning av en krypteringsnyckel som du skapar i Azure Key Vault. Den här nyckeln används för att tillhandahålla ytterligare en nivå av kryptering i vila för dina data när du vill ha fullständig försäkran om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data förblir de alltid krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina data påverkas inte. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare.

scoringProfiles

ScoringProfile[]

Bedömningsprofilerna för indexet.

semantic

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

similarity Similarity:

Typen av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när index skapas och kan inte ändras på befintliga index. Om värdet är null används ClassicSimilarity-algoritmen.

suggesters

Suggester[]

Förslagsgivare för indexet.

tokenFilters TokenFilter[]:

Tokenfiltren för indexet.

tokenizers LexicalTokenizer[]:

Tokenizers för indexet.

vectorSearch

VectorSearch

Innehåller konfigurationsalternativ som rör vektorsökning.

Svar

Name Typ Description
201 Created

SearchIndex

Other Status Codes

ErrorResponse

Felsvar.

Exempel

SearchServiceCreateIndex

Exempelbegäran

POST https://myservice.search.windows.net/indexes?api-version=2024-07-01

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile"
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile"
    },
    {
      "name": "descriptionEmbedding_forBQ",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswBQProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "nameEmbedding",
      "type": "Collection(Edm.Half)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myHnswSQProfile",
        "algorithm": "myHnsw",
        "compression": "mySQ8"
      },
      {
        "name": "myHnswBQProfile",
        "algorithm": "myHnsw",
        "compression": "myBQ"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      },
      {
        "name": "myBQ",
        "kind": "binaryQuantization",
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ]
  }
}

Exempelsvar

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile",
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile"
    },
    {
      "name": "descriptionEmbedding_forBQ",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswBQProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "nameEmbedding",
      "type": "Collection(Edm.Half)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenFilters": [],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myHnswSQProfile",
        "algorithm": "myHnsw",
        "compression": "mySQ8"
      },
      {
        "name": "myHnswBQProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "myBQ"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      },
      {
        "name": "myBQ",
        "kind": "binaryQuantization",
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ]
  }
}

Definitioner

Name Description
AsciiFoldingTokenFilter

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (unicode-blocket basic latin) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Det här tokenfiltret implementeras med Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault.

AzureOpenAIEmbeddingSkill

Gör att du kan generera en vektorinbäddning för en viss textinmatning med hjälp av Azure OpenAI-resursen.

AzureOpenAIModelName

Namnet på Azure Open AI-modellen som ska anropas.

AzureOpenAIParameters

Anger parametrarna för att ansluta till Azure OpenAI-resursen.

AzureOpenAIVectorizer

Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng.

BinaryQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för den binära kvantiseringskomprimeringsmetod som används vid indexering och frågor.

BM25Similarity

Rankningsfunktion baserat på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som innehåller längdnormalisering (styrs av parametern "b" samt termfrekvensmättnad (styrs av parametern k1).

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

CjkBigramTokenFilter

Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med Apache Lucene.

CjkBigramTokenFilterScripts

Skript som kan ignoreras av CjkBigramTokenFilter.

ClassicSimilarity

Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna.

ClassicTokenizer

Grammatikbaserad tokenizer som är lämplig för bearbetning av de flesta europeiska dokument. Den här tokenizern implementeras med Apache Lucene.

CommonGramTokenFilter

Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras också, med bigrams överlagrade. Det här tokenfiltret implementeras med Apache Lucene.

CorsOptions

Definierar alternativ för att styra resursdelning mellan ursprung (CORS) för ett index.

CustomAnalyzer

Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokenizer och ett eller flera filter. Tokenizern ansvarar för att dela upp text i token och filter för att ändra token som genereras av tokenizern.

DictionaryDecompounderTokenFilter

Sönderdelas sammansatta ord som finns på många germanska språk. Det här tokenfiltret implementeras med Apache Lucene.

DistanceScoringFunction

Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats.

DistanceScoringParameters

Ger parametervärden till en funktion för avståndsbedömning.

EdgeNGramTokenFilter

Genererar n-gram av de angivna storlekarna med början framifrån eller på baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene.

EdgeNGramTokenFilterSide

Anger vilken sida av indata som ett n-gram ska genereras från.

EdgeNGramTokenFilterV2

Genererar n-gram av de angivna storlekarna med början framifrån eller på baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene.

EdgeNGramTokenizer

Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Den här tokenizern implementeras med Apache Lucene.

ElisionTokenFilter

Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Det här tokenfiltret implementeras med Apache Lucene.

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

ErrorDetail

Felinformationen.

ErrorResponse

Felsvar

ExhaustiveKnnParameters

Innehåller parametrarna som är specifika för en fullständig KNN-algoritm.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för den fullständiga KNN-algoritmen som används vid frågor, som utför brute-force-sökning i hela vektorindexet.

FreshnessScoringFunction

Definierar en funktion som ökar poängen baserat på värdet för ett datum-tid-fält.

FreshnessScoringParameters

Ger parametervärden till en funktion för färskhetsbedömning.

HnswParameters

Innehåller de parametrar som är specifika för HNSW-algoritmen.

HnswVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för den ungefärliga HNSW-algoritmen för närmaste grannar som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar kompromiss mellan sökhastighet och noggrannhet.

InputFieldMappingEntry

Mappning av indatafält för en färdighet.

KeepTokenFilter

Ett tokenfilter som bara behåller token med text i en angiven lista med ord. Det här tokenfiltret implementeras med Apache Lucene.

KeywordMarkerTokenFilter

Markerar termer som nyckelord. Det här tokenfiltret implementeras med Apache Lucene.

KeywordTokenizer

Genererar hela indata som en enda token. Den här tokenizern implementeras med Apache Lucene.

KeywordTokenizerV2

Genererar hela indata som en enda token. Den här tokenizern implementeras med Apache Lucene.

LengthTokenFilter

Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med Apache Lucene.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

LimitTokenFilter

Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med Apache Lucene.

LuceneStandardAnalyzer

Apache Lucene-analysverktyg av standardstandard; Består av standardtokeniseraren, gemener och stoppfilter.

LuceneStandardTokenizer

Bryter text efter Unicode-reglerna för textsegmentering. Den här tokenizern implementeras med Apache Lucene.

LuceneStandardTokenizerV2

Bryter text efter Unicode-reglerna för textsegmentering. Den här tokenizern implementeras med Apache Lucene.

MagnitudeScoringFunction

Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält.

MagnitudeScoringParameters

Ger parametervärden till en bedömningsfunktion för magnituden.

MappingCharFilter

Ett teckenfilter som tillämpar mappningar som definierats med alternativet mappningar. Matchningen är girig (längst mönstermatchning vid en given poäng vinner). Ersättning tillåts vara den tomma strängen. Det här teckenfiltret implementeras med Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras basformulär.

MicrosoftLanguageTokenizer

Delar upp text med hjälp av språkspecifika regler.

MicrosoftStemmingTokenizerLanguage

Visar en lista över de språk som stöds av Microsofts språk som härrör från tokenizer.

MicrosoftTokenizerLanguage

Visar de språk som stöds av Microsofts språktokeniserare.

NGramTokenFilter

Genererar n-gram av de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene.

NGramTokenFilterV2

Genererar n-gram av de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene.

NGramTokenizer

Tokeniserar indata till n-gram av de angivna storlekarna. Den här tokenizern implementeras med Apache Lucene.

OutputFieldMappingEntry

Mappning av utdatafält för en färdighet.

PathHierarchyTokenizerV2

Tokenizer för sökvägsliknande hierarkier. Den här tokenizern implementeras med Apache Lucene.

PatternAnalyzer

Flexibelt separerar text i termer via ett reguljärt uttrycksmönster. Den här analysatorn implementeras med Apache Lucene.

PatternCaptureTokenFilter

Använder Java-regexer för att generera flera token – en för varje insamlingsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med Apache Lucene.

PatternReplaceCharFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel får indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här teckenfiltret implementeras med Apache Lucene.

PatternReplaceTokenFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel får indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här tokenfiltret implementeras med Apache Lucene.

PatternTokenizer

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokenizern implementeras med Apache Lucene.

PhoneticEncoder

Identifierar vilken typ av fonetikkodare som ska användas med ett PhoneticTokenFilter.

PhoneticTokenFilter

Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med Apache Lucene.

PrioritizedFields

Beskriver fälten rubrik, innehåll och nyckelord som ska användas för semantisk rangordning, undertexter, markeringar och svar.

RegexFlags

Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalysverktyget och mönstertokeniseraren.

ScalarQuantizationParameters

Innehåller de parametrar som är specifika för Scalar Quantization.

ScalarQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för den skalära kvantiseringskomprimeringsmetod som används vid indexering och frågor.

ScoringFunctionAggregation

Definierar den sammansättningsfunktion som används för att kombinera resultatet av alla bedömningsfunktioner i en bedömningsprofil.

ScoringFunctionInterpolation

Definierar den funktion som används för att interpolera poänghöjande i en rad dokument.

ScoringProfile

Definierar parametrar för ett sökindex som påverkar bedömning i sökfrågor.

SearchField

Representerar ett fält i en indexdefinition som beskriver namn, datatyp och sökbeteende för ett fält.

SearchFieldDataType

Definierar datatypen för ett fält i ett sökindex.

SearchIndex

Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index.

SearchIndexerDataNoneIdentity

Rensar identitetsegenskapen för en datakälla.

SearchIndexerDataUserAssignedIdentity

Anger identiteten för en datakälla som ska användas.

SearchResourceEncryptionKey

En kundhanterad krypteringsnyckel i Azure Key Vault. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymkartor.

SemanticConfiguration

Definierar en specifik konfiguration som ska användas i samband med semantiska funktioner.

SemanticField

Ett fält som används som en del av den semantiska konfigurationen.

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

ShingleTokenFilter

Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med Apache Lucene.

SnowballTokenFilter

Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med Apache Lucene.

SnowballTokenFilterLanguage

Språket som ska användas för ett Snowball-tokenfilter.

StemmerOverrideTokenFilter

Ger möjlighet att åsidosätta andra härdningsfilter med anpassad ordlistebaserad härdning. Ordlisteskaftade termer markeras som nyckelord så att de inte kommer att stoppas med stemmers längre ned i kedjan. Måste placeras före eventuella härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene.

StemmerTokenFilter

Språkspecifikt härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene.

StemmerTokenFilterLanguage

Språket som ska användas för ett stemmer-tokenfilter.

StopAnalyzer

Delar upp text med icke-bokstäver; Tillämpar filter för gemener och stoppordstoken. Den här analysatorn implementeras med Apache Lucene.

StopwordsList

Identifierar en fördefinierad lista över språkspecifika stoppord.

StopwordsTokenFilter

Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med Apache Lucene.

Suggester

Definierar hur Api för förslag ska tillämpas på en grupp fält i indexet.

SuggesterSearchMode

Ett värde som anger förslagsverktygets funktioner.

SynonymTokenFilter

Matchar synonymer med en eller flera ord i en tokenström. Det här tokenfiltret implementeras med Apache Lucene.

TagScoringFunction

Definierar en funktion som ökar antalet dokument med strängvärden som matchar en viss lista med taggar.

TagScoringParameters

Ger parametervärden till en taggbedömningsfunktion.

TextWeights

Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor.

TokenCharacterKind

Representerar klasser med tecken som ett tokenfilter kan använda.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

TruncateTokenFilter

Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med Apache Lucene.

UaxUrlEmailTokenizer

Tokeniserar URL:er och e-postmeddelanden som en token. Den här tokenizern implementeras med Apache Lucene.

UniqueTokenFilter

Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med Apache Lucene.

VectorEncodingFormat

Kodningsformatet för tolkning av innehåll i vektorfält.

VectorSearch

Innehåller konfigurationsalternativ som rör vektorsökning.

VectorSearchAlgorithmKind

Algoritmen som används för indexering och frågor.

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser. Vi rekommenderar att du väljer samma likhetsmått som inbäddningsmodellen tränades på.

VectorSearchCompressionKind

Komprimeringsmetoden som används för indexering och frågor.

VectorSearchCompressionTargetDataType

Den kvantiserade datatypen för komprimerade vektorvärden.

VectorSearchProfile

Definierar en kombination av konfigurationer som ska användas med vektorsökning.

VectorSearchVectorizerKind

Den vektoriseringsmetod som ska användas under frågetiden.

WebApiParameters

Anger egenskaperna för att ansluta till en användardefinierad vektoriserare.

WebApiVectorizer

Anger en användardefinierad vektoriserare för att generera vektorbäddning av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning.

WordDelimiterTokenFilter

Delar upp ord i underord och utför valfria transformeringar i underordsgrupper. Det här tokenfiltret implementeras med Apache Lucene.

AsciiFoldingTokenFilter

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (unicode-blocket basic latin) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

preserveOriginal

boolean

False

Ett värde som anger om den ursprungliga token ska behållas. Standardvärdet är falskt.

AzureActiveDirectoryApplicationCredentials

Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault.

Name Typ Description
applicationId

string

Ett AAD-program-ID som har beviljats nödvändiga åtkomstbehörigheter till Azure Key Vault som ska användas när du krypterar dina data i vila. Program-ID:t bör inte förväxlas med objekt-ID:t för ditt AAD-program.

applicationSecret

string

Autentiseringsnyckeln för det angivna AAD-programmet.

AzureOpenAIEmbeddingSkill

Gör att du kan generera en vektorinbäddning för en viss textinmatning med hjälp av Azure OpenAI-resursen.

Name Typ Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Ett URI-fragment som anger typen av kompetens.

apiKey

string

API-nyckeln för den avsedda Azure OpenAI-resursen.

authIdentity SearchIndexerDataIdentity:

Den användartilldelade hanterade identiteten som används för utgående anslutningar.

context

string

Representerar den nivå där åtgärder utförs, till exempel dokumentroten eller dokumentinnehållet (till exempel /document eller /document/content). Standardvärdet är /document.

deploymentId

string

ID för Azure OpenAI-modelldistributionen på den avsedda resursen.

description

string

Beskrivningen av den färdighet som beskriver indata, utdata och användning av färdigheten.

dimensions

integer

Antalet dimensioner som resulterande inbäddningar av utdata ska ha. Stöds endast i text-inbäddning-3 och senare modeller.

inputs

InputFieldMappingEntry[]

Indata för färdigheterna kan vara en kolumn i källdatauppsättningen eller utdata från en överordnad färdighet.

modelName

AzureOpenAIModelName

Namnet på den inbäddningsmodell som distribueras på den angivna deploymentId-sökvägen.

name

string

Namnet på den färdighet som unikt identifierar den inom kompetensuppsättningen. En färdighet utan definierat namn får ett standardnamn för sitt 1-baserade index i kunskapsmatrisen, prefixet med tecknet '#'.

outputs

OutputFieldMappingEntry[]

Utdata från en färdighet är antingen ett fält i ett sökindex eller ett värde som kan användas som indata av en annan färdighet.

resourceUri

string

Resurs-URI för Azure OpenAI-resursen.

AzureOpenAIModelName

Namnet på Azure Open AI-modellen som ska anropas.

Name Typ Description
text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

Anger parametrarna för att ansluta till Azure OpenAI-resursen.

Name Typ Description
apiKey

string

API-nyckeln för den avsedda Azure OpenAI-resursen.

authIdentity SearchIndexerDataIdentity:

Den användartilldelade hanterade identiteten som används för utgående anslutningar.

deploymentId

string

ID för Azure OpenAI-modelldistributionen på den avsedda resursen.

modelName

AzureOpenAIModelName

Namnet på den inbäddningsmodell som distribueras på den angivna deploymentId-sökvägen.

resourceUri

string

Resurs-URI för Azure OpenAI-resursen.

AzureOpenAIVectorizer

Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng.

Name Typ Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Innehåller de parametrar som är specifika för inbäddningsvektorisering i Azure OpenAI.

kind string:

azureOpenAI

Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här specifika vektoriseringsmetoden.

BinaryQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för den binära kvantiseringskomprimeringsmetod som används vid indexering och frågor.

Name Typ Standardvärde Description
defaultOversampling

number

Standardöversamplingsfaktor. Översampling begär internt fler dokument (som anges av den här multiplikatorn) i den första sökningen. Detta ökar den uppsättning resultat som kommer att rangordnas om med omberäknade likhetspoäng från fullprecisionsvektorer. Minimivärdet är 1, vilket innebär att ingen översampling (1x). Den här parametern kan bara anges när rerankWithOriginalVectors är sant. Högre värden förbättrar återkallandet på bekostnad av svarstiden.

kind string:

binaryQuantization

Namnet på den typ av komprimeringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

rerankWithOriginalVectors

boolean

True

Om värdet är true rangordnas de igen när den ordnade uppsättningen resultat som beräknas med komprimerade vektorer har hämtats, genom att beräkna om likhetspoängen med full precision. Detta förbättrar återkallandet på bekostnad av svarstiden.

BM25Similarity

Rankningsfunktion baserat på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som innehåller längdnormalisering (styrs av parametern "b" samt termfrekvensmättnad (styrs av parametern k1).

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Den här egenskapen styr hur längden på ett dokument påverkar relevanspoängen. Som standard används värdet 0,75. Värdet 0,0 innebär att ingen längdnormalisering tillämpas, medan värdet 1,0 innebär att poängen normaliseras helt av dokumentets längd.

k1

number

Den här egenskapen styr skalningsfunktionen mellan termfrekvensen för varje matchande termer och den slutliga relevanspoängen för ett dokumentfrågepar. Som standard används värdet 1.2. Värdet 0,0 innebär att poängen inte skalas med en ökning av termfrekvensen.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

Name Typ Description
html_strip

string

Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skripten som ska ignoreras.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

outputUnigrams

boolean

False

Ett värde som anger om både unigram och bigrams ska matas ut (om de är sanna) eller bara bigrams (om de är falska). Standardvärdet är falskt.

CjkBigramTokenFilterScripts

Skript som kan ignoreras av CjkBigramTokenFilter.

Name Typ Description
han

string

Ignorera Han-skript när du skapar bigrams av CJK-termer.

hangul

string

Ignorera Hangul-skript när du bildar bigrams av CJK-termer.

hiragana

string

Ignorera Hiragana-skript när du skapar bigrams av CJK-termer.

katakana

string

Ignorera Katakana-skript när du bildar bigrams av CJK-termer.

ClassicSimilarity

Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Grammatikbaserad tokenizer som är lämplig för bearbetning av de flesta europeiska dokument. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Ett URI-fragment som anger typen av tokenizer.

maxTokenLength

integer

255

Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

CommonGramTokenFilter

Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras också, med bigrams överlagrade. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

commonWords

string[]

Uppsättningen vanliga ord.

ignoreCase

boolean

False

Ett värde som anger om vanliga ord som matchar är skiftlägesokänsliga. Standardvärdet är falskt.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

queryMode

boolean

False

Ett värde som anger om tokenfiltret är i frågeläge. I frågeläge genererar tokenfiltret bigrams och tar sedan bort vanliga ord och enkla termer följt av ett vanligt ord. Standardvärdet är falskt.

CorsOptions

Definierar alternativ för att styra resursdelning mellan ursprung (CORS) för ett index.

Name Typ Description
allowedOrigins

string[]

Listan över ursprung från vilka JavaScript-kod beviljas åtkomst till ditt index. Kan innehålla en lista över värdar i formuläret {protocol}://{fully-qualified-domain-name}[:{port#}], eller en enda '*' för att tillåta alla ursprung (rekommenderas inte).

maxAgeInSeconds

integer

Varaktigheten för vilken webbläsare ska cachelagrar CORS-förhandssvar. Standardvärdet är 5 minuter.

CustomAnalyzer

Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokenizer och ett eller flera filter. Tokenizern ansvarar för att dela upp text i token och filter för att ändra token som genereras av tokenizern.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Ett URI-fragment som anger typen av analysverktyg.

charFilters

CharFilterName[]

En lista över teckenfilter som används för att förbereda indatatext innan den bearbetas av tokenizern. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning de visas.

name

string

Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

tokenFilters

TokenFilterName[]

En lista över tokenfilter som används för att filtrera bort eller ändra token som genereras av en tokenizer. Du kan till exempel ange ett gemener som konverterar alla tecken till gemener. Filtren körs i den ordning de visas.

tokenizer

LexicalTokenizerName

Namnet på tokenizern som ska användas för att dela upp kontinuerlig text i en sekvens med token, till exempel att dela upp en mening i ord.

DictionaryDecompounderTokenFilter

Sönderdelas sammansatta ord som finns på många germanska språk. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

maxSubwordSize

integer

15

Den maximala underordsstorleken. Endast underord som är kortare än detta matas ut. Standardvärdet är 15. Maxvärdet är 300.

minSubwordSize

integer

2

Minsta underordsstorlek. Endast underord som är längre än detta matas ut. Standardvärdet är 2. Maxvärdet är 300.

minWordSize

integer

5

Minsta ordstorlek. Endast ord som är längre än detta bearbetas. Standardvärdet är 5. Maxvärdet är 300.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

onlyLongestMatch

boolean

False

Ett värde som anger om du bara vill lägga till det längsta matchande underordet i utdata. Standardvärdet är falskt.

wordList

string[]

Listan med ord som ska matchas mot.

DistanceScoringFunction

Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats.

Name Typ Description
boost

number

En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0.

distance

DistanceScoringParameters

Parametervärden för funktionen för avståndsbedömning.

fieldName

string

Namnet på fältet som används som indata till bedömningsfunktionen.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng. standardvärdet "Linjär".

type string:

distance

Anger vilken typ av funktion som ska användas. Giltiga värden inkluderar storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemen.

DistanceScoringParameters

Ger parametervärden till en funktion för avståndsbedömning.

Name Typ Description
boostingDistance

number

Avståndet i kilometer från referensplatsen där ökningsintervallet slutar.

referencePointParameter

string

Namnet på parametern som skickas i sökfrågor för att ange referensplatsen.

EdgeNGramTokenFilter

Genererar n-gram av de angivna storlekarna med början framifrån eller på baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

maxGram

integer

2

Den maximala n-gramlängden. Standardvärdet är 2.

minGram

integer

1

Minsta n-gramlängd. Standardvärdet är 1. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

side

EdgeNGramTokenFilterSide

front

Anger vilken sida av indata som n-gram ska genereras från. Standardvärdet är "front".

EdgeNGramTokenFilterSide

Anger vilken sida av indata som ett n-gram ska genereras från.

Name Typ Description
back

string

Anger att n-gram ska genereras från baksidan av indata.

front

string

Anger att n-gram ska genereras framifrån indata.

EdgeNGramTokenFilterV2

Genererar n-gram av de angivna storlekarna med början framifrån eller på baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Ett URI-fragment som anger typ av tokenfilter.

maxGram

integer

2

Den maximala n-gramlängden. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer

1

Minsta n-gramlängd. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

side

EdgeNGramTokenFilterSide

front

Anger vilken sida av indata som n-gram ska genereras från. Standardvärdet är "front".

EdgeNGramTokenizer

Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Ett URI-fragment som anger typen av tokenizer.

maxGram

integer

2

Den maximala n-gramlängden. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer

1

Minsta n-gramlängd. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

tokenChars

TokenCharacterKind[]

Teckenklasser som ska behållas i token.

ElisionTokenFilter

Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

articles

string[]

Den uppsättning artiklar som ska tas bort.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

Name Typ Description
info

object

Ytterligare information.

type

string

Ytterligare informationstyp.

ErrorDetail

Felinformationen.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Ytterligare information om felet.

code

string

Felkoden.

details

ErrorDetail[]

Felinformationen.

message

string

Felmeddelandet.

target

string

Felmålet.

ErrorResponse

Felsvar

Name Typ Description
error

ErrorDetail

Felobjektet.

ExhaustiveKnnParameters

Innehåller parametrarna som är specifika för en fullständig KNN-algoritm.

Name Typ Description
metric

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för den fullständiga KNN-algoritmen som används vid frågor, som utför brute-force-sökning i hela vektorindexet.

Name Typ Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Innehåller parametrarna som är specifika för en fullständig KNN-algoritm.

kind string:

exhaustiveKnn

Namnet på den typ av algoritm som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

FreshnessScoringFunction

Definierar en funktion som ökar poängen baserat på värdet för ett datum-tid-fält.

Name Typ Description
boost

number

En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0.

fieldName

string

Namnet på fältet som används som indata till bedömningsfunktionen.

freshness

FreshnessScoringParameters

Parametervärden för funktionen för färskhetsbedömning.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng. standardvärdet "Linjär".

type string:

freshness

Anger vilken typ av funktion som ska användas. Giltiga värden inkluderar storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemen.

FreshnessScoringParameters

Ger parametervärden till en funktion för färskhetsbedömning.

Name Typ Description
boostingDuration

string

Förfalloperioden efter vilken en ökning stoppas för ett visst dokument.

HnswParameters

Innehåller de parametrar som är specifika för HNSW-algoritmen.

Name Typ Standardvärde Description
efConstruction

integer

400

Storleken på den dynamiska listan som innehåller närmaste grannar, som används under indextiden. Om du ökar den här parametern kan indexkvaliteten förbättras på bekostnad av ökad indexeringstid. Vid en viss tidpunkt leder en ökning av den här parametern till minskande avkastning.

efSearch

integer

500

Storleken på den dynamiska listan som innehåller närmaste grannar, som används under söktiden. Om du ökar den här parametern kan sökresultaten förbättras på bekostnad av långsammare sökning. Vid en viss tidpunkt leder en ökning av den här parametern till minskande avkastning.

m

integer

4

Antalet dubbelriktade länkar som skapats för varje nytt element under konstruktionen. Om du ökar det här parametervärdet kan du förbättra återkallandet och minska hämtningstiderna för datauppsättningar med hög inbyggd dimension på bekostnad av ökad minnesförbrukning och längre indexeringstid.

metric

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser.

HnswVectorSearchAlgorithmConfiguration

Innehåller konfigurationsalternativ som är specifika för den ungefärliga HNSW-algoritmen för närmaste grannar som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar kompromiss mellan sökhastighet och noggrannhet.

Name Typ Description
hnswParameters

HnswParameters

Innehåller de parametrar som är specifika för HNSW-algoritmen.

kind string:

hnsw

Namnet på den typ av algoritm som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

InputFieldMappingEntry

Mappning av indatafält för en färdighet.

Name Typ Description
inputs

InputFieldMappingEntry[]

De rekursiva indata som används när du skapar en komplex typ.

name

string

Namnet på indata.

source

string

Källan för indata.

sourceContext

string

Källkontexten som används för att välja rekursiva indata.

KeepTokenFilter

Ett tokenfilter som bara behåller token med text i en angiven lista med ord. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

keepWords

string[]

Listan med ord att behålla.

keepWordsCase

boolean

False

Ett värde som anger om alla ord ska sänkas först. Standardvärdet är falskt.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

KeywordMarkerTokenFilter

Markerar termer som nyckelord. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

ignoreCase

boolean

False

Ett värde som anger om skiftläge ska ignoreras. Om sant konverteras alla ord till gemener först. Standardvärdet är falskt.

keywords

string[]

En lista med ord som ska markeras som nyckelord.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

KeywordTokenizer

Genererar hela indata som en enda token. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Ett URI-fragment som anger typen av tokenizer.

bufferSize

integer

256

Läsbuffertstorleken i byte. Standardvärdet är 256.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

KeywordTokenizerV2

Genererar hela indata som en enda token. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Ett URI-fragment som anger typen av tokenizer.

maxTokenLength

integer

256

Maximal tokenlängd. Standardvärdet är 256. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

LengthTokenFilter

Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

max

integer

300

Maximal längd på tecken. Standard och max är 300.

min

integer

0

Minsta längd i tecken. Standardvärdet är 0. Maxvärdet är 300. Måste vara mindre än värdet för max.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

Name Typ Description
ar.lucene

string

Lucene analyzer för arabiska.

ar.microsoft

string

Microsoft Analyzer för arabiska.

bg.lucene

string

Lucene analyzer för bulgariska.

bg.microsoft

string

Microsoft Analyzer för Bulgariska.

bn.microsoft

string

Microsoft Analyzer för Bangla.

ca.lucene

string

Lucene analyzer för katalanska.

ca.microsoft

string

Microsoft Analyzer för Katalanska.

cs.lucene

string

Lucene analyzer för tjeckiska.

cs.microsoft

string

Microsoft Analyzer för Tjeckiska.

da.lucene

string

Lucene analyzer för danska.

da.microsoft

string

Microsoft Analyzer för danska.

de.lucene

string

Lucene analyzer för tyska.

de.microsoft

string

Microsoft Analyzer för tyska.

el.lucene

string

Lucene analyzer för grekiska.

el.microsoft

string

Microsoft Analyzer för grekiska.

en.lucene

string

Lucene analyzer för engelska.

en.microsoft

string

Microsoft Analyzer för engelska.

es.lucene

string

Lucene analyzer för spanska.

es.microsoft

string

Microsoft Analyzer för spanska.

et.microsoft

string

Microsoft Analyzer för estniska.

eu.lucene

string

Lucene analyzer för baskiska.

fa.lucene

string

Lucene analyzer för persiska.

fi.lucene

string

Lucene analyzer för finska.

fi.microsoft

string

Microsoft Analyzer för finska.

fr.lucene

string

Lucene analyzer för franska.

fr.microsoft

string

Microsoft Analyzer för franska.

ga.lucene

string

Lucene analyzer för iriska.

gl.lucene

string

Lucene analyzer för Galician.

gu.microsoft

string

Microsoft Analyzer för Gujarati.

he.microsoft

string

Microsoft Analyzer för hebreiska.

hi.lucene

string

Lucene analyzer för Hindi.

hi.microsoft

string

Microsoft Analyzer för Hindi.

hr.microsoft

string

Microsoft Analyzer för kroatiska.

hu.lucene

string

Lucene analyzer för ungerska.

hu.microsoft

string

Microsoft Analyzer för Ungerska.

hy.lucene

string

Lucene analyzer för armeniska.

id.lucene

string

Lucene analyzer för indonesiska.

id.microsoft

string

Microsoft analyzer for Indonesian (Bahasa).

is.microsoft

string

Microsoft Analyzer för isländska.

it.lucene

string

Lucene analyzer för italienska.

it.microsoft

string

Microsoft Analyzer för italienska.

ja.lucene

string

Lucene analyzer för japanska.

ja.microsoft

string

Microsoft Analyzer för japanska.

keyword

string

Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft Analyzer för Kannada.

ko.lucene

string

Lucene analyzer för koreanska.

ko.microsoft

string

Microsoft Analyzer för Koreanska.

lt.microsoft

string

Microsoft Analyzer för litauiska.

lv.lucene

string

Lucene analyzer för lettiska.

lv.microsoft

string

Microsoft Analyzer för lettiska.

ml.microsoft

string

Microsoft Analyzer för Malayalam.

mr.microsoft

string

Microsoft Analyzer för Marathi.

ms.microsoft

string

Microsoft analyzer for Malay (latinsk).

nb.microsoft

string

Microsoft analyzer for Norwegian (Bokmål).

nl.lucene

string

Lucene analyzer för nederländska.

nl.microsoft

string

Microsoft Analyzer för nederländska.

no.lucene

string

Lucene analyzer för norska.

pa.microsoft

string

Microsoft Analyzer för Punjabi.

pattern

string

Flexibelt separerar text i termer via ett reguljärt uttrycksmönster. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene analyzer för polska.

pl.microsoft

string

Microsoft Analyzer för Polska.

pt-BR.lucene

string

Lucene analyzer för portugisiska (Brasilien).

pt-BR.microsoft

string

Microsoft Analyzer för Portugisiska (Brasilien).

pt-PT.lucene

string

Lucene analyzer för portugisiska (Portugal).

pt-PT.microsoft

string

Microsoft Analyzer för Portugisiska (Portugal).

ro.lucene

string

Lucene analyzer för rumänska.

ro.microsoft

string

Microsoft Analyzer för Rumänska.

ru.lucene

string

Lucene analyzer för ryska.

ru.microsoft

string

Microsoft Analyzer för ryska.

simple

string

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer för slovakiska.

sl.microsoft

string

Microsoft Analyzer för slovenska.

sr-cyrillic.microsoft

string

Microsoft analyzer for Serbiska (kyrillisk).

sr-latin.microsoft

string

Microsoft analyzer för serbiska (latinsk).

standard.lucene

string

Standard Lucene analyzer.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene analyzer. Se https://zcusa.951200.xyz/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Delar upp text med icke-bokstäver; Tillämpar filter för gemener och stoppordstoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer för svenska.

sv.microsoft

string

Microsoft Analyzer för svenska.

ta.microsoft

string

Microsoft analyzer for Tamil.

te.microsoft

string

Microsoft Analyzer för Telugu.

th.lucene

string

Lucene analyzer för Thai.

th.microsoft

string

Microsoft Analyzer för Thai.

tr.lucene

string

Lucene analyzer för turkiska.

tr.microsoft

string

Microsoft Analyzer för turkiska.

uk.microsoft

string

Microsoft Analyzer för Ukrainska.

ur.microsoft

string

Microsoft Analyzer för Urdu.

vi.microsoft

string

Microsoft Analyzer för vietnamesiska.

whitespace

string

En analysator som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Lucene analyzer för kinesiska (förenklad).

zh-Hans.microsoft

string

Microsoft Analyzer för kinesiska (förenklad).

zh-Hant.lucene

string

Lucene analyzer för kinesiska (traditionell).

zh-Hant.microsoft

string

Microsoft Analyzer för kinesiska (traditionell).

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

Name Typ Description
classic

string

Grammatikbaserad tokenizer som är lämplig för bearbetning av de flesta europeiska dokument. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Delar upp text med icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras basformulär.

microsoft_language_tokenizer

string

Delar upp text med hjälp av språkspecifika regler.

nGram

string

Tokeniserar indata till n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standard Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokeniserar URL:er och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Delar upp text i blanksteg. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

consumeAllTokens

boolean

False

Ett värde som anger om alla token från indata måste förbrukas även om maxTokenCount har nåtts. Standardvärdet är falskt.

maxTokenCount

integer

1

Det maximala antalet token som ska skapas. Standardvärdet är 1.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

LuceneStandardAnalyzer

Apache Lucene-analysverktyg av standardstandard; Består av standardtokeniseraren, gemener och stoppfilter.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Ett URI-fragment som anger typen av analysverktyg.

maxTokenLength

integer

255

Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

stopwords

string[]

En lista över stoppord.

LuceneStandardTokenizer

Bryter text efter Unicode-reglerna för textsegmentering. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Ett URI-fragment som anger typen av tokenizer.

maxTokenLength

integer

255

Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

LuceneStandardTokenizerV2

Bryter text efter Unicode-reglerna för textsegmentering. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Ett URI-fragment som anger typen av tokenizer.

maxTokenLength

integer

255

Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

MagnitudeScoringFunction

Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält.

Name Typ Description
boost

number

En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0.

fieldName

string

Namnet på fältet som används som indata till bedömningsfunktionen.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng. standardvärdet "Linjär".

magnitude

MagnitudeScoringParameters

Parametervärden för funktionen för storleksbedömning.

type string:

magnitude

Anger vilken typ av funktion som ska användas. Giltiga värden inkluderar storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemen.

MagnitudeScoringParameters

Ger parametervärden till en bedömningsfunktion för magnituden.

Name Typ Description
boostingRangeEnd

number

Det fältvärde där ökning slutar.

boostingRangeStart

number

Det fältvärde som ökning börjar med.

constantBoostBeyondRange

boolean

Ett värde som anger om du vill använda en konstant ökning för fältvärden utanför intervallets slutvärde. standardvärdet är falskt.

MappingCharFilter

Ett teckenfilter som tillämpar mappningar som definierats med alternativet mappningar. Matchningen är girig (längst mönstermatchning vid en given poäng vinner). Ersättning tillåts vara den tomma strängen. Det här teckenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Ett URI-fragment som anger typ av teckenfilter.

mappings

string[]

En lista över mappningar i följande format: "a=>b" (alla förekomster av tecknet "a" ersätts med tecknet "b").

name

string

Namnet på teckenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

MicrosoftLanguageStemmingTokenizer

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras basformulär.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Ett URI-fragment som anger typen av tokenizer.

isSearchTokenizer

boolean

False

Ett värde som anger hur tokenizern används. Ställ in på sant om det används som söktokeniserare och ange till false om det används som indexeringstokeniserare. Standardvärdet är falskt.

language

MicrosoftStemmingTokenizerLanguage

Språket som ska användas. Standardvärdet är engelska.

maxTokenLength

integer

255

Maximal tokenlängd. Token som är längre än den maximala längden delas upp. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längd 300 och sedan delas var och en av dessa token upp baserat på den maximala tokenlängdsuppsättningen. Standardvärdet är 255.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

MicrosoftLanguageTokenizer

Delar upp text med hjälp av språkspecifika regler.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Ett URI-fragment som anger typen av tokenizer.

isSearchTokenizer

boolean

False

Ett värde som anger hur tokenizern används. Ställ in på sant om det används som söktokeniserare och ange till false om det används som indexeringstokeniserare. Standardvärdet är falskt.

language

MicrosoftTokenizerLanguage

Språket som ska användas. Standardvärdet är engelska.

maxTokenLength

integer

255

Maximal tokenlängd. Token som är längre än den maximala längden delas upp. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längd 300 och sedan delas var och en av dessa token upp baserat på den maximala tokenlängdsuppsättningen. Standardvärdet är 255.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

MicrosoftStemmingTokenizerLanguage

Visar en lista över de språk som stöds av Microsofts språk som härrör från tokenizer.

Name Typ Description
arabic

string

Väljer Microsofts härdningstokeniserare för arabiska.

bangla

string

Väljer Microsofts härdningstokeniserare för Bangla.

bulgarian

string

Väljer Microsofts härdningstokeniserare för bulgariska.

catalan

string

Väljer Microsofts härdningstokeniserare för katalanska.

croatian

string

Väljer Microsofts härdningstokeniserare för kroatiska.

czech

string

Väljer Microsofts härdningstokeniserare för tjeckiska.

danish

string

Väljer Microsofts härdningstokeniserare för danska.

dutch

string

Väljer Microsofts härdningstokeniserare för nederländska.

english

string

Väljer Microsofts härdningstokeniserare för engelska.

estonian

string

Väljer Microsofts härdningstokeniserare för estniska.

finnish

string

Väljer Microsofts härdningstokeniserare för finska.

french

string

Väljer Microsofts härdningstokeniserare för franska.

german

string

Väljer Microsofts härdningstokeniserare för tyska.

greek

string

Väljer Microsofts härdningstokeniserare för grekiska.

gujarati

string

Väljer Microsofts härdningstokeniserare för Gujarati.

hebrew

string

Väljer Microsofts härdningstokeniserare för hebreiska.

hindi

string

Väljer Microsofts härdningstokeniserare för Hindi.

hungarian

string

Väljer Microsofts härdningstokeniserare för ungerska.

icelandic

string

Väljer Microsofts härdningstokeniserare för isländska.

indonesian

string

Väljer Microsofts härdningstokeniserare för indonesiska.

italian

string

Väljer Microsofts härdningstokeniserare för italienska.

kannada

string

Väljer Microsofts härdningstokeniserare för Kannada.

latvian

string

Väljer Microsofts härdningstokeniserare för lettiska.

lithuanian

string

Väljer Microsofts härdningstokeniserare för litauiska.

malay

string

Väljer Microsofts härdningstokeniserare för Malay.

malayalam

string

Väljer Microsofts härdningstokeniserare för Malayalam.

marathi

string

Väljer Microsofts härdningstokeniserare för Marathi.

norwegianBokmaal

string

Väljer Microsofts härdningstokeniserare för norska (Bokmål).

polish

string

Väljer Microsofts härdningstokeniserare för polska.

portuguese

string

Väljer Microsofts härdningstokeniserare för portugisiska.

portugueseBrazilian

string

Väljer Microsofts härdningstokeniserare för portugisiska (Brasilien).

punjabi

string

Väljer Microsofts härdningstokeniserare för Punjabi.

romanian

string

Väljer Microsofts härdningstokeniserare för rumänska.

russian

string

Väljer Microsofts härdningstokeniserare för ryska.

serbianCyrillic

string

Väljer Microsofts härdningstokeniserare för serbiska (kyrillisk).

serbianLatin

string

Väljer Microsofts härdningstokeniserare för serbiska (latinsk).

slovak

string

Väljer Microsofts härdningstokeniserare för slovakiska.

slovenian

string

Väljer Microsofts härdningstokeniserare för slovenska.

spanish

string

Väljer Microsofts härdningstokeniserare för spanska.

swedish

string

Väljer Microsofts härdningstokeniserare för svenska.

tamil

string

Väljer Microsofts härdningstokeniserare för tamil.

telugu

string

Väljer Microsofts härdningstokeniserare för Telugu.

turkish

string

Väljer Microsofts härdningstokeniserare för turkiska.

ukrainian

string

Väljer Microsofts härdningstokeniserare för ukrainska.

urdu

string

Väljer Microsofts härdningstokeniserare för Urdu.

MicrosoftTokenizerLanguage

Visar de språk som stöds av Microsofts språktokeniserare.

Name Typ Description
bangla

string

Väljer Microsoft tokenizer för Bangla.

bulgarian

string

Väljer Microsoft-tokeniseraren för bulgariska.

catalan

string

Väljer Microsoft-tokeniseraren för katalanska.

chineseSimplified

string

Väljer Microsoft-tokeniseraren för kinesiska (förenklad).

chineseTraditional

string

Väljer Microsoft-tokeniseraren för kinesiska (traditionell).

croatian

string

Väljer Microsoft-tokeniseraren för kroatiska.

czech

string

Väljer Microsoft-tokeniseraren för tjeckiska.

danish

string

Väljer Microsoft-tokeniseraren för danska.

dutch

string

Väljer Microsoft-tokeniseraren för nederländska.

english

string

Väljer Microsoft-tokeniseraren för engelska.

french

string

Väljer Microsoft-tokeniseraren för franska.

german

string

Väljer Microsoft-tokeniseraren för tyska.

greek

string

Väljer Microsoft-tokeniseraren för grekiska.

gujarati

string

Väljer Microsoft tokenizer för Gujarati.

hindi

string

Väljer Microsoft-tokenizern för Hindi.

icelandic

string

Väljer Microsoft-tokeniseraren för isländska.

indonesian

string

Väljer Microsoft-tokenizern för indonesiska.

italian

string

Väljer Microsoft tokenizer för italienska.

japanese

string

Väljer Microsoft-tokeniseraren för japanska.

kannada

string

Väljer Microsoft tokenizer för Kannada.

korean

string

Väljer Microsoft-tokeniseraren för koreanska.

malay

string

Väljer Microsoft-tokeniseraren för Malay.

malayalam

string

Väljer Microsoft tokenizer för Malayalam.

marathi

string

Väljer Microsoft-tokeniseraren för Marathi.

norwegianBokmaal

string

Väljer Microsoft tokenizer för Norska (Bokmål).

polish

string

Väljer Microsoft-tokeniseraren för polska.

portuguese

string

Väljer Microsoft-tokeniseraren för portugisiska.

portugueseBrazilian

string

Väljer Microsoft-tokeniseraren för portugisiska (Brasilien).

punjabi

string

Väljer Microsoft tokenizer för Punjabi.

romanian

string

Väljer Microsoft-tokeniseraren för rumänska.

russian

string

Väljer Microsoft-tokeniseraren för ryska.

serbianCyrillic

string

Väljer Microsoft-tokeniseraren för serbiska (kyrillisk).

serbianLatin

string

Väljer Microsoft-tokeniseraren för serbiska (latinsk).

slovenian

string

Väljer Microsoft-tokeniseraren för slovenska.

spanish

string

Väljer Microsoft-tokeniseraren för spanska.

swedish

string

Väljer Microsoft tokenizer för svenska.

tamil

string

Väljer Microsoft-tokeniseraren för tamil.

telugu

string

Väljer Microsoft-tokeniseraren för Telugu.

thai

string

Väljer Microsoft-tokeniseraren för thailändska.

ukrainian

string

Väljer Microsoft-tokeniseraren för ukrainska.

urdu

string

Väljer Microsoft tokenizer för Urdu.

vietnamese

string

Väljer Microsoft-tokeniseraren för vietnamesiska.

NGramTokenFilter

Genererar n-gram av de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

maxGram

integer

2

Den maximala n-gramlängden. Standardvärdet är 2.

minGram

integer

1

Minsta n-gramlängd. Standardvärdet är 1. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

NGramTokenFilterV2

Genererar n-gram av de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Ett URI-fragment som anger typ av tokenfilter.

maxGram

integer

2

Den maximala n-gramlängden. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer

1

Minsta n-gramlängd. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

NGramTokenizer

Tokeniserar indata till n-gram av de angivna storlekarna. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Ett URI-fragment som anger typen av tokenizer.

maxGram

integer

2

Den maximala n-gramlängden. Standardvärdet är 2. Maxvärdet är 300.

minGram

integer

1

Minsta n-gramlängd. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

tokenChars

TokenCharacterKind[]

Teckenklasser som ska behållas i token.

OutputFieldMappingEntry

Mappning av utdatafält för en färdighet.

Name Typ Description
name

string

Namnet på utdata som definieras av färdigheten.

targetName

string

Utdatans målnamn. Det är valfritt och standardnamn.

PathHierarchyTokenizerV2

Tokenizer för sökvägsliknande hierarkier. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Ett URI-fragment som anger typen av tokenizer.

delimiter

string

/

Avgränsartecknet som ska användas. Standardvärdet är "/".

maxTokenLength

integer

300

Maximal tokenlängd. Standard och max är 300.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

replacement

string

/

Ett värde som, om det anges, ersätter avgränsartecknet. Standardvärdet är "/".

reverse

boolean

False

Ett värde som anger om token ska genereras i omvänd ordning. Standardvärdet är falskt.

skip

integer

0

Antalet inledande token som ska hoppa över. Standardvärdet är 0.

PatternAnalyzer

Flexibelt separerar text i termer via ett reguljärt uttrycksmönster. Den här analysatorn implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Ett URI-fragment som anger typen av analysverktyg.

flags

RegexFlags

Flaggor för reguljära uttryck.

lowercase

boolean

True

Ett värde som anger om termerna ska vara gemener. Standardvärdet är sant.

name

string

Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

pattern

string

\W+

Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera icke-ordtecken.

stopwords

string[]

En lista över stoppord.

PatternCaptureTokenFilter

Använder Java-regexer för att generera flera token – en för varje insamlingsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

patterns

string[]

En lista över mönster som ska matchas mot varje token.

preserveOriginal

boolean

True

Ett värde som anger om den ursprungliga token ska returneras även om något av mönstren matchar. Standardvärdet är sant.

PatternReplaceCharFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel får indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här teckenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Ett URI-fragment som anger typ av teckenfilter.

name

string

Namnet på teckenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

pattern

string

Ett mönster för reguljära uttryck.

replacement

string

Ersättningstexten.

PatternReplaceTokenFilter

Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser som ska bevaras och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel får indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

pattern

string

Ett mönster för reguljära uttryck.

replacement

string

Ersättningstexten.

PatternTokenizer

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Ett URI-fragment som anger typen av tokenizer.

flags

RegexFlags

Flaggor för reguljära uttryck.

group

integer

-1

Den nollbaserade ordningstalet för matchande grupp i mönstret för reguljära uttryck för att extrahera till token. Använd -1 om du vill använda hela mönstret för att dela indata i token, oavsett matchande grupper. Standardvärdet är -1.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

pattern

string

\W+

Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera icke-ordtecken.

PhoneticEncoder

Identifierar vilken typ av fonetikkodare som ska användas med ett PhoneticTokenFilter.

Name Typ Description
beiderMorse

string

Kodar en token till ett Beider-Morse värde.

caverphone1

string

Kodar en token till ett Caverphone 1.0-värde.

caverphone2

string

Kodar en token till ett Caverphone 2.0-värde.

cologne

string

Kodar en token till ett fonetikvärde i Köln.

doubleMetaphone

string

Kodar en token till ett dubbelt metafonvärde.

haasePhonetik

string

Kodar en token med haase-förfining av Kölner Phonetik-algoritmen.

koelnerPhonetik

string

Kodar en token med hjälp av Kölner Phonetik-algoritmen.

metaphone

string

Kodar en token till ett metafonvärde.

nysiis

string

Kodar en token till ett NYSIIS-värde.

refinedSoundex

string

Kodar en token till ett Raffinerat Soundex-värde.

soundex

string

Kodar en token till ett Soundex-värde.

PhoneticTokenFilter

Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

encoder

PhoneticEncoder

metaphone

Den fonetiska kodare som ska användas. Standardvärdet är "metafon".

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

replace

boolean

True

Ett värde som anger om kodade token ska ersätta ursprungliga token. Om det är falskt läggs kodade token till som synonymer. Standardvärdet är sant.

PrioritizedFields

Beskriver fälten rubrik, innehåll och nyckelord som ska användas för semantisk rangordning, undertexter, markeringar och svar.

Name Typ Description
prioritizedContentFields

SemanticField[]

Definierar de innehållsfält som ska användas för semantisk rangordning, undertexter, markeringar och svar. För bästa resultat bör de markerade fälten innehålla text i naturligt språk. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt.

prioritizedKeywordsFields

SemanticField[]

Definierar nyckelordsfälten som ska användas för semantisk rangordning, undertexter, markeringar och svar. För bästa resultat bör de markerade fälten innehålla en lista med nyckelord. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt.

titleField

SemanticField

Definierar det rubrikfält som ska användas för semantisk rangordning, undertexter, markeringar och svar. Om du inte har något rubrikfält i indexet lämnar du det tomt.

RegexFlags

Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalysverktyget och mönstertokeniseraren.

Name Typ Description
CANON_EQ

string

Aktiverar kanonisk ekvivalens.

CASE_INSENSITIVE

string

Möjliggör skiftlägesokänslig matchning.

COMMENTS

string

Tillåter blanksteg och kommentarer i mönstret.

DOTALL

string

Aktiverar dotall-läge.

LITERAL

string

Aktiverar literal parsning av mönstret.

MULTILINE

string

Aktiverar flerradsläge.

UNICODE_CASE

string

Aktiverar Unicode-medveten skiftlägesdelegering.

UNIX_LINES

string

Aktiverar Unix-linjeläge.

ScalarQuantizationParameters

Innehåller de parametrar som är specifika för Scalar Quantization.

Name Typ Description
quantizedDataType

VectorSearchCompressionTargetDataType

Den kvantiserade datatypen för komprimerade vektorvärden.

ScalarQuantizationVectorSearchCompressionConfiguration

Innehåller konfigurationsalternativ som är specifika för den skalära kvantiseringskomprimeringsmetod som används vid indexering och frågor.

Name Typ Standardvärde Description
defaultOversampling

number

Standardöversamplingsfaktor. Översampling begär internt fler dokument (som anges av den här multiplikatorn) i den första sökningen. Detta ökar den uppsättning resultat som kommer att rangordnas om med omberäknade likhetspoäng från fullprecisionsvektorer. Minimivärdet är 1, vilket innebär att ingen översampling (1x). Den här parametern kan bara anges när rerankWithOriginalVectors är sant. Högre värden förbättrar återkallandet på bekostnad av svarstiden.

kind string:

scalarQuantization

Namnet på den typ av komprimeringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här konfigurationen.

rerankWithOriginalVectors

boolean

True

Om värdet är true rangordnas de igen när den ordnade uppsättningen resultat som beräknas med komprimerade vektorer har hämtats, genom att beräkna om likhetspoängen med full precision. Detta förbättrar återkallandet på bekostnad av svarstiden.

scalarQuantizationParameters

ScalarQuantizationParameters

Innehåller de parametrar som är specifika för Scalar Quantization.

ScoringFunctionAggregation

Definierar den sammansättningsfunktion som används för att kombinera resultatet av alla bedömningsfunktioner i en bedömningsprofil.

Name Typ Description
average

string

Öka poängen med medelvärdet av alla resultat från bedömningsfunktionen.

firstMatching

string

Öka poäng med hjälp av den första tillämpliga bedömningsfunktionen i bedömningsprofilen.

maximum

string

Öka poängen med maximalt antal resultat för bedömningsfunktionen.

minimum

string

Öka poängen med minst alla resultat från bedömningsfunktionen.

sum

string

Öka poängen med summan av alla resultat från bedömningsfunktionen.

ScoringFunctionInterpolation

Definierar den funktion som används för att interpolera poänghöjande i en rad dokument.

Name Typ Description
constant

string

Ökar poängen med en konstant faktor.

linear

string

Ökar poängen med en linjärt minskande mängd. Detta är standardinterpolationen för bedömningsfunktioner.

logarithmic

string

Ökar poängen med en mängd som minskar logaritmiskt. Ökningar minskar snabbt för högre poäng och långsammare när poängen minskar. Det här interpoleringsalternativet tillåts inte i taggbedömningsfunktioner.

quadratic

string

Ökar poängen med en mängd som minskar kvadratiskt. Ökningarna minskar långsamt för högre poäng och snabbare när poängen minskar. Det här interpoleringsalternativet tillåts inte i taggbedömningsfunktioner.

ScoringProfile

Definierar parametrar för ett sökindex som påverkar bedömning i sökfrågor.

Name Typ Description
functionAggregation

ScoringFunctionAggregation

Ett värde som anger hur resultatet av enskilda bedömningsfunktioner ska kombineras. Standardvärdet är "Summa". Ignoreras om det inte finns några bedömningsfunktioner.

functions ScoringFunction[]:

Samling funktioner som påverkar bedömning av dokument.

name

string

Namnet på bedömningsprofilen.

text

TextWeights

Parametrar som ökar poängsättningen baserat på textmatchningar i vissa indexfält.

SearchField

Representerar ett fält i en indexdefinition som beskriver namn, datatyp och sökbeteende för ett fält.

Name Typ Description
analyzer

LexicalAnalyzerName

Namnet på analysatorn som ska användas för fältet. Det här alternativet kan endast användas med sökbara fält och det kan inte ställas in tillsammans med antingen searchAnalyzer eller indexAnalyzer. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält.

dimensions

integer

Vektorfältets dimensionalitet.

facetable

boolean

Ett värde som anger om fältet ska refereras till i fasetterade frågor. Används vanligtvis i en presentation av sökresultat som inkluderar antal träffar per kategori (till exempel söka efter digitalkameror och se träffar efter varumärke, megapixlar, pris och så vidare). Den här egenskapen måste vara null för komplexa fält. Fält av typen Edm.GeographyPoint eller Collection(Edm.GeographyPoint) kan inte vara fasettbara. Standardvärdet är sant för alla andra enkla fält.

fields

SearchField[]

En lista över underfält om det här är ett fält av typen Edm.ComplexType eller Collection(Edm.ComplexType). Måste vara null eller tomt för enkla fält.

filterable

boolean

Ett värde som anger om fältet ska refereras i $filter frågor. filterable skiljer sig från sökbara i hur strängar hanteras. Fält av typen Edm.String eller Collection(Edm.String) som är filterbara genomgår inte ordbrytning, så jämförelser är endast för exakta matchningar. Om du till exempel anger ett sådant fält f till "solig dag" hittar $filter=f eq "sunny" inga matchningar, men $filter=f eq "solig dag" kommer att göra det. Den här egenskapen måste vara null för komplexa fält. Standardvärdet är sant för enkla fält och null för komplexa fält.

indexAnalyzer

LexicalAnalyzerName

Namnet på analysatorn som användes vid indexeringstiden för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med searchAnalyzer och den kan inte ställas in tillsammans med analysalternativet. Den här egenskapen kan inte anges till namnet på en språkanalysator. använd egenskapen analyzer i stället om du behöver en språkanalysator. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält.

key

boolean

Ett värde som anger om fältet unikt identifierar dokument i indexet. Exakt ett fält på den översta nivån i varje index måste väljas som nyckelfält och det måste vara av typen Edm.String. Nyckelfält kan användas för att söka efter dokument direkt och uppdatera eller ta bort specifika dokument. Standardvärdet är falskt för enkla fält och null för komplexa fält.

name

string

Namnet på fältet, som måste vara unikt i fältsamlingen för indexet eller det överordnade fältet.

retrievable

boolean

Ett värde som anger om fältet kan returneras i ett sökresultat. Du kan inaktivera det här alternativet om du vill använda ett fält (till exempel marginal) som filter, sortering eller bedömningsmekanism men inte vill att fältet ska vara synligt för slutanvändaren. Den här egenskapen måste vara sann för nyckelfält och den måste vara null för komplexa fält. Den här egenskapen kan ändras i befintliga fält. Om du aktiverar den här egenskapen ökar inte kraven på indexlagring. Standardvärdet är sant för enkla fält, falskt för vektorfält och null för komplexa fält.

searchAnalyzer

LexicalAnalyzerName

Namnet på analysatorn som användes vid söktillfället för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste ställas in tillsammans med indexAnalyzer och den kan inte ställas in tillsammans med analysalternativet. Den här egenskapen kan inte anges till namnet på en språkanalysator. använd egenskapen analyzer i stället om du behöver en språkanalysator. Den här analysatorn kan uppdateras i ett befintligt fält. Måste vara null för komplexa fält.

searchable

boolean

Ett värde som anger om fältet kan sökas i fulltext. Det innebär att den kommer att genomgå en analys, till exempel ordbrytning under indexeringen. Om du anger ett sökbart fält till ett värde som "solig dag" delas det internt upp i de enskilda tokensna "sunny" och "day". Detta möjliggör fulltextsökningar för dessa termer. Fält av typen Edm.String eller Collection(Edm.String) kan sökas som standard. Den här egenskapen måste vara false för enkla fält med andra datatyper som inte är strängar och måste vara null för komplexa fält. Obs! Sökbara fält förbrukar extra utrymme i indexet för att hantera ytterligare tokeniserade versioner av fältvärdet för fulltextsökningar. Om du vill spara utrymme i indexet och du inte behöver ett fält som ska inkluderas i sökningar anger du sökbart till false.

sortable

boolean

Ett värde som anger om fältet ska refereras till i $orderby uttryck. Som standard sorterar sökmotorn resultat efter poäng, men i många upplevelser vill användarna sortera efter fält i dokumenten. Ett enkelt fält kan bara sorteras om det är envärdesvärde (det har ett enda värde i omfånget för det överordnade dokumentet). Enkla samlingsfält kan inte sorteras eftersom de är flervärdesfält. Enkla underfält i komplexa samlingar är också flervärdesfält och kan därför inte sorteras. Detta gäller oavsett om det är ett omedelbart överordnat fält eller ett överordnat fält, som är den komplexa samlingen. Komplexa fält kan inte sorteras och den sorterbara egenskapen måste vara null för sådana fält. Standardvärdet för sorterbar är sant för enkla fält med enkelvärde, falskt för enkla fält med flera värden och null för komplexa fält.

stored

boolean

Ett oföränderligt värde som anger om fältet ska sparas separat på disken som ska returneras i ett sökresultat. Du kan inaktivera det här alternativet om du inte planerar att returnera fältinnehållet i ett söksvar för att spara på lagringskostnaderna. Detta kan bara anges när index skapas och endast för vektorfält. Det går inte att ändra den här egenskapen för befintliga fält eller anges som false för nya fält. Om den här egenskapen anges som false måste egenskapen "hämtningsbar" också anges till false. Den här egenskapen måste vara true eller unset för nyckelfält, för nya fält och för icke-vektorfält, och den måste vara null för komplexa fält. Om du inaktiverar den här egenskapen minskar kraven på indexlagring. Standardvärdet gäller för vektorfält.

synonymMaps

string[]

En lista över namnen på synonymkartor som ska associeras med det här fältet. Det här alternativet kan endast användas med sökbara fält. För närvarande stöds endast en synonymkarta per fält. Om du tilldelar en synonymkarta till ett fält ser du till att frågetermer som riktar sig mot det fältet expanderas vid frågetillfället med hjälp av reglerna i synonymkartan. Det här attributet kan ändras i befintliga fält. Måste vara null eller en tom samling för komplexa fält.

type

SearchFieldDataType

Datatypen för fältet.

vectorEncoding

VectorEncodingFormat

Kodningsformatet för att tolka fältinnehållet.

vectorSearchProfile

string

Namnet på vektorsökningsprofilen som anger algoritmen och vektoriseraren som ska användas vid sökning i vektorfältet.

SearchFieldDataType

Definierar datatypen för ett fält i ett sökindex.

Name Typ Description
Edm.Boolean

string

Anger att ett fält innehåller ett booleskt värde (sant eller falskt).

Edm.Byte

string

Anger att ett fält innehåller ett 8-bitars osignerat heltal. Detta är endast giltigt när det används med Collection(Edm.Byte).

Edm.ComplexType

string

Anger att ett fält innehåller ett eller flera komplexa objekt som i sin tur har underfält av andra typer.

Edm.DateTimeOffset

string

Anger att ett fält innehåller ett datum-/tidsvärde, inklusive tidszonsinformation.

Edm.Double

string

Anger att ett fält innehåller ett IEEE-flyttal med dubbel precision.

Edm.GeographyPoint

string

Anger att ett fält innehåller en geo-plats när det gäller longitud och latitud.

Edm.Half

string

Anger att ett fält innehåller ett flyttal med halv precision. Detta är endast giltigt när det används med Collection(Edm.Half).

Edm.Int16

string

Anger att ett fält innehåller ett 16-bitars signerat heltal. Detta är endast giltigt när det används med Collection(Edm.Int16).

Edm.Int32

string

Anger att ett fält innehåller ett 32-bitars signerat heltal.

Edm.Int64

string

Anger att ett fält innehåller ett 64-bitars signerat heltal.

Edm.SByte

string

Anger att ett fält innehåller ett 8-bitars signerat heltal. Detta är endast giltigt när det används med Collection(Edm.SByte).

Edm.Single

string

Anger att ett fält innehåller ett flyttal med enkel precision. Detta är endast giltigt när det används med Collection(Edm.Single).

Edm.String

string

Anger att ett fält innehåller en sträng.

SearchIndex

Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index.

Name Typ Description
@odata.etag

string

Indexets ETag.

analyzers LexicalAnalyzer[]:

Analysverktygen för indexet.

charFilters CharFilter[]:

Tecknet filtrerar för indexet.

corsOptions

CorsOptions

Alternativ för att styra CORS (Cross-Origin Resource Sharing) för indexet.

defaultScoringProfile

string

Namnet på bedömningsprofilen som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil har angetts i frågan används standardbedömning (tf-idf).

encryptionKey

SearchResourceEncryptionKey

En beskrivning av en krypteringsnyckel som du skapar i Azure Key Vault. Den här nyckeln används för att tillhandahålla ytterligare en nivå av kryptering i vila för dina data när du vill ha fullständig försäkran om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data förblir de alltid krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina data påverkas inte. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare.

fields

SearchField[]

Fälten i indexet.

name

string

Namnet på indexet.

scoringProfiles

ScoringProfile[]

Bedömningsprofilerna för indexet.

semantic

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

similarity Similarity:

Typen av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när index skapas och kan inte ändras på befintliga index. Om värdet är null används ClassicSimilarity-algoritmen.

suggesters

Suggester[]

Förslagsgivare för indexet.

tokenFilters TokenFilter[]:

Tokenfiltren för indexet.

tokenizers LexicalTokenizer[]:

Tokenizers för indexet.

vectorSearch

VectorSearch

Innehåller konfigurationsalternativ som rör vektorsökning.

SearchIndexerDataNoneIdentity

Rensar identitetsegenskapen för en datakälla.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Ett URI-fragment som anger typen av identitet.

SearchIndexerDataUserAssignedIdentity

Anger identiteten för en datakälla som ska användas.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Ett URI-fragment som anger typen av identitet.

userAssignedIdentity

string

Det fullständigt kvalificerade Azure-resurs-ID:t för en användartilldelad hanterad identitet, vanligtvis i formuläret "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" som borde ha tilldelats söktjänsten.

SearchResourceEncryptionKey

En kundhanterad krypteringsnyckel i Azure Key Vault. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymkartor.

Name Typ Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Valfria Azure Active Directory-autentiseringsuppgifter som används för att komma åt ditt Azure Key Vault. Krävs inte om du använder hanterad identitet i stället.

keyVaultKeyName

string

Namnet på din Azure Key Vault-nyckel som ska användas för att kryptera dina vilande data.

keyVaultKeyVersion

string

Den version av Azure Key Vault-nyckeln som ska användas för att kryptera dina vilande data.

keyVaultUri

string

URI:n för ditt Azure Key Vault, även kallat DNS-namn, som innehåller nyckeln som ska användas för att kryptera dina data i vila. Ett exempel på en URI kan vara https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definierar en specifik konfiguration som ska användas i samband med semantiska funktioner.

Name Typ Description
name

string

Namnet på den semantiska konfigurationen.

prioritizedFields

PrioritizedFields

Beskriver de rubrik-, innehålls- och nyckelordsfält som ska användas för semantisk rangordning, undertexter, markeringar och svar. Minst en av de tre underegenskaperna (titleField, prioritizedKeywordsFields och prioritizedContentFields) måste anges.

SemanticField

Ett fält som används som en del av den semantiska konfigurationen.

Name Typ Description
fieldName

string

SemanticSettings

Definierar parametrar för ett sökindex som påverkar semantiska funktioner.

Name Typ Description
configurations

SemanticConfiguration[]

Semantiska konfigurationer för indexet.

defaultConfiguration

string

Gör att du kan ange namnet på en standard semantisk konfiguration i ditt index, vilket gör det valfritt att skicka det vidare som en frågeparameter varje gång.

ShingleTokenFilter

Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

filterToken

string

_

Strängen som ska infogas för varje position där det inte finns någon token. Standardvärdet är ett understreck ("_").

maxShingleSize

integer

2

Den maximala bältrosstorleken. Standardvärdet och minimivärdet är 2.

minShingleSize

integer

2

Minsta bältrosstorlek. Standardvärdet och minimivärdet är 2. Måste vara mindre än värdet för maxShingleSize.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

outputUnigrams

boolean

True

Ett värde som anger om utdataströmmen ska innehålla indatatoken (unigram) samt bältros. Standardvärdet är sant.

outputUnigramsIfNoShingles

boolean

False

Ett värde som anger om unigram ska matas ut för de tider då inga bältros är tillgängliga. Den här egenskapen har företräde när outputUnigrams är inställt på false. Standardvärdet är falskt.

tokenSeparator

string

Strängen som ska användas när du ansluter intilliggande token för att bilda en bältros. Standardvärdet är ett enda blanksteg (" ").

SnowballTokenFilter

Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

language

SnowballTokenFilterLanguage

Språket som ska användas.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

SnowballTokenFilterLanguage

Språket som ska användas för ett Snowball-tokenfilter.

Name Typ Description
armenian

string

Väljer Lucene Snowball-tokenizern för armeniska.

basque

string

Väljer Lucene Snowball-tokenizern för baskiska.

catalan

string

Väljer Lucene Snowball-tokenizern för katalanska.

danish

string

Väljer Lucene Snowball-tokenizer för danska.

dutch

string

Väljer Lucene Snowball-tokenizer för nederländska.

english

string

Väljer Lucene Snowball-tokenizer för engelska.

finnish

string

Väljer Lucene Snowball-tokenizer för finska.

french

string

Väljer Lucene Snowball-tokenizern för franska.

german

string

Väljer Lucene Snowball-tokenizer för tyska.

german2

string

Väljer lucene snowball-tokenizern som använder den tyska variantalgoritmen.

hungarian

string

Väljer Lucene Snowball-tokenizer för ungerska.

italian

string

Väljer Lucene Snowball-tokenizer för italienska.

kp

string

Väljer Lucene Snowball-tokenizern för nederländska som använder algoritmen Kraaij-Pohlmann som härrör.

lovins

string

Väljer Lucene Snowball-tokenizern för engelska som använder Lovins-algoritmen.

norwegian

string

Väljer Lucene Snowball-tokenizer för norska.

porter

string

Väljer Lucene Snowball-tokenizern för engelska som använder Porter-algoritmen.

portuguese

string

Väljer Lucene Snowball-tokenizer för portugisiska.

romanian

string

Väljer Lucene Snowball-tokenizer för rumänska.

russian

string

Väljer Lucene Snowball-tokenizer för ryska.

spanish

string

Väljer Lucene Snowball-tokenizer för spanska.

swedish

string

Väljer Lucene Snowball-tokenizer för svenska.

turkish

string

Väljer Lucene Snowball-tokenizer för turkiska.

StemmerOverrideTokenFilter

Ger möjlighet att åsidosätta andra härdningsfilter med anpassad ordlistebaserad härdning. Ordlisteskaftade termer markeras som nyckelord så att de inte kommer att stoppas med stemmers längre ned i kedjan. Måste placeras före eventuella härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

rules

string[]

En lista över härstamningsregler i följande format: "word => stem", till exempel: "ran => run".

StemmerTokenFilter

Språkspecifikt härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

language

StemmerTokenFilterLanguage

Språket som ska användas.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

StemmerTokenFilterLanguage

Språket som ska användas för ett stemmer-tokenfilter.

Name Typ Description
arabic

string

Väljer lucene-tokeniseraren för arabiska.

armenian

string

Väljer lucene-tokeniseraren för armeniska.

basque

string

Väljer Lucene-härdningstokeniseraren för baskiska.

brazilian

string

Väljer lucene-tokenizer för portugisiska (Brasilien).

bulgarian

string

Väljer Lucene-tokeniseraren för härstamning för bulgariska.

catalan

string

Väljer Lucene-tokeniseraren för härstamning för katalanska.

czech

string

Väljer Lucene-tokeniseraren för härstamning för tjeckiska.

danish

string

Väljer Lucene-tokeniseraren för härstamning för danska.

dutch

string

Väljer Lucene-härdningstokeniseraren för nederländska.

dutchKp

string

Väljer Lucene-härdningstokeniseraren för nederländska som använder algoritmen Kraaij-Pohlmann som härrör.

english

string

Väljer Lucene-härdningstokeniseraren för engelska.

finnish

string

Väljer Lucene-härdningstokeniseraren för finska.

french

string

Väljer Lucene-härdningstokeniseraren för franska.

galician

string

Väljer Lucene-härdningstokeniseraren för galiciska.

german

string

Väljer Lucene-härdningstokeniseraren för tyska.

german2

string

Väljer lucene-härdningstokeniseraren som använder den tyska variantalgoritmen.

greek

string

Väljer Lucene-härstamningstokeniseraren för grekiska.

hindi

string

Väljer Lucene-härdningstokeniseraren för Hindi.

hungarian

string

Väljer Lucene-tokeniseraren för härstamning för ungerska.

indonesian

string

Väljer Lucene-härdningstokeniseraren för indonesiska.

irish

string

Väljer Lucene-härdningstokeniseraren för iriska.

italian

string

Väljer Lucene-tokeniseraren för härstamning för italienska.

latvian

string

Väljer Lucene-härdningstokeniseraren för lettiska.

lightEnglish

string

Väljer Lucene-härdningstokeniseraren för engelska som utför lätt härstamning.

lightFinnish

string

Väljer Lucene-härdningstokeniseraren för finska som utför lätt härstamning.

lightFrench

string

Väljer Lucene-härdningstokeniseraren för franska som utför lätt härstamning.

lightGerman

string

Väljer Lucene-härdningstokeniseraren för tyska som utför lätt härstamning.

lightHungarian

string

Väljer Lucene-härdningstokeniseraren för ungerska som utför lätt härstamning.

lightItalian

string

Väljer Lucene-härdningstokeniseraren för italienska som utför lätt härstamning.

lightNorwegian

string

Väljer Lucene-tokeniseraren för norska (Bokmål) som utför ljusstamning.

lightNynorsk

string

Väljer Lucene-härdningstokeniseraren för norska (Nynorsk) som utför lätt härstamning.

lightPortuguese

string

Väljer Lucene-härdningstokeniseraren för portugisiska som utför lätt härstamning.

lightRussian

string

Väljer Lucene-härdningstokeniseraren för ryska som utför lätt härstamning.

lightSpanish

string

Väljer Lucene-härdningstokeniseraren för spanska som utför lätt härstamning.

lightSwedish

string

Väljer Lucene-härdningstokeniseraren för svenska som utför lätt härstamning.

lovins

string

Väljer Lucene-härdningstokeniseraren för engelska som använder Lovins-algoritmen.

minimalEnglish

string

Väljer Lucene-härdningstokeniseraren för engelska som gör minimalt med härstamning.

minimalFrench

string

Väljer Lucene-härdningstokeniseraren för franska som gör minimalt med härstamning.

minimalGalician

string

Väljer Lucene-härdningstokeniseraren för galiciska som gör minimalt med härdning.

minimalGerman

string

Väljer Lucene-härdningstokeniseraren för tyska som gör minimalt med härstamning.

minimalNorwegian

string

Väljer Lucene-härdningstokeniseraren för norska (Bokmål) som gör minimalt med härdning.

minimalNynorsk

string

Väljer Lucene-härdningstokeniseraren för norska (Nynorsk) som gör minimalt med härdning.

minimalPortuguese

string

Väljer Lucene-härdningstokeniseraren för portugisiska som gör minimalt med härstamning.

norwegian

string

Väljer Lucene-härstamningstokeniseraren för norska (Bokmål).

porter2

string

Väljer Lucene-härdningstokeniseraren för engelska som använder porter2-algoritmen.

portuguese

string

Väljer Lucene-härdningstokeniseraren för portugisiska.

portugueseRslp

string

Väljer Lucene-härdningstokeniseraren för portugisiska som använder RSLP-algoritmen.

possessiveEnglish

string

Väljer Lucene-härdningstokeniseraren för engelska som tar bort avslutande possessiva från ord.

romanian

string

Väljer Lucene-tokeniseraren för härstamning för rumänska.

russian

string

Väljer Lucene-härstamningstokeniseraren för ryska.

sorani

string

Väljer Lucene-härdningstokeniseraren för Sorani.

spanish

string

Väljer Lucene-tokeniseraren för härstamning för spanska.

swedish

string

Väljer Lucene-härdningstokeniseraren för svenska.

turkish

string

Väljer Lucene-härdningstokeniseraren för turkiska.

StopAnalyzer

Delar upp text med icke-bokstäver; Tillämpar filter för gemener och stoppordstoken. Den här analysatorn implementeras med Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Ett URI-fragment som anger typen av analysverktyg.

name

string

Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

stopwords

string[]

En lista över stoppord.

StopwordsList

Identifierar en fördefinierad lista över språkspecifika stoppord.

Name Typ Description
arabic

string

Väljer stopword-listan för arabiska.

armenian

string

Väljer stopword-listan för armeniska.

basque

string

Väljer stoppordslistan för baskiska.

brazilian

string

Väljer stoppordslistan för portugisiska (Brasilien).

bulgarian

string

Väljer stoppordslistan för bulgariska.

catalan

string

Väljer stopword-listan för katalanska.

czech

string

Väljer stoppordslistan för tjeckiska.

danish

string

Väljer stopword-listan för danska.

dutch

string

Väljer stopword-listan för nederländska.

english

string

Väljer stopword-listan för engelska.

finnish

string

Väljer stoppordslistan för finska.

french

string

Väljer stoppordslistan för franska.

galician

string

Väljer stopword-listan för galiciska.

german

string

Väljer stoppordslistan för tyska.

greek

string

Väljer stoppordslistan för grekiska.

hindi

string

Väljer stoppordslistan för Hindi.

hungarian

string

Väljer stoppordslistan för ungerska.

indonesian

string

Väljer stoppordslistan för indonesiska.

irish

string

Väljer stoppordslistan för iriska.

italian

string

Väljer stoppordslistan för italienska.

latvian

string

Väljer stopword-listan för lettiska.

norwegian

string

Väljer stoppordslistan för Norska.

persian

string

Väljer stoppordslistan för persiska.

portuguese

string

Väljer stopword-listan för portugisiska.

romanian

string

Väljer stopword-listan för rumänska.

russian

string

Väljer stoppordslistan för ryska.

sorani

string

Väljer stopword-listan för Sorani.

spanish

string

Väljer stopword-listan för spanska.

swedish

string

Väljer stoppordslistan för svenska.

thai

string

Väljer stopword-listan för thailändska.

turkish

string

Väljer stoppordslistan för turkiska.

StopwordsTokenFilter

Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

ignoreCase

boolean

False

Ett värde som anger om skiftläge ska ignoreras. Om sant konverteras alla ord till gemener först. Standardvärdet är falskt.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

removeTrailing

boolean

True

Ett värde som anger om den sista söktermen ska ignoreras om det är ett stoppord. Standardvärdet är sant.

stopwords

string[]

Listan över stoppord. Både den här egenskapen och stopwords-listegenskapen kan inte anges.

stopwordsList

StopwordsList

english

En fördefinierad lista över stoppord som ska användas. Både den här egenskapen och stopwords-egenskapen kan inte anges. Standardvärdet är engelska.

Suggester

Definierar hur Api för förslag ska tillämpas på en grupp fält i indexet.

Name Typ Description
name

string

Namnet på förslagsverktyget.

searchMode

SuggesterSearchMode

Ett värde som anger förslagsverktygets funktioner.

sourceFields

string[]

Listan över fältnamn som förslagsverktyget gäller för. Varje fält måste vara sökbart.

SuggesterSearchMode

Ett värde som anger förslagsverktygets funktioner.

Name Typ Description
analyzingInfixMatching

string

Matchar hela termer och prefix i ett fält i följd. För fältet "Den snabbaste bruna räven" matchar frågorna "snabb" och "snabbaste panna".

SynonymTokenFilter

Matchar synonymer med en eller flera ord i en tokenström. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

expand

boolean

True

Ett värde som anger om alla ord i listan med synonymer (om => notation inte används) mappas till varandra. Om sant mappas alla ord i listan med synonymer (om => notation inte används) till varandra. Följande lista: otroligt, otroligt, fantastiskt, fantastiskt motsvarar: otroligt, otroligt, fantastiskt, fantastiskt => otroligt, otroligt, fantastiskt, fantastiskt. Om det är falskt, kommer följande lista: otrolig, otrolig, fantastisk, fantastisk att motsvara: otrolig, otrolig, fantastisk, fantastisk => otrolig. Standardvärdet är sant.

ignoreCase

boolean

False

Ett värde som anger om indata för skiftläge ska vikas för matchning. Standardvärdet är falskt.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

synonyms

string[]

En lista över synonymer i följande två format: 1. otroligt, otroligt, fantastiskt => fantastiskt - alla termer på vänster sida av => symbolen kommer att ersättas med alla termer på höger sida; 2. otroligt, otroligt, fantastiskt, fantastiskt - kommaavgränsad lista över motsvarande ord. Ange alternativet expandera för att ändra hur den här listan tolkas.

TagScoringFunction

Definierar en funktion som ökar antalet dokument med strängvärden som matchar en viss lista med taggar.

Name Typ Description
boost

number

En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0.

fieldName

string

Namnet på fältet som används som indata till bedömningsfunktionen.

interpolation

ScoringFunctionInterpolation

Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng. standardvärdet "Linjär".

tag

TagScoringParameters

Parametervärden för taggbedömningsfunktionen.

type string:

tag

Anger vilken typ av funktion som ska användas. Giltiga värden inkluderar storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemen.

TagScoringParameters

Ger parametervärden till en taggbedömningsfunktion.

Name Typ Description
tagsParameter

string

Namnet på parametern som skickas i sökfrågor för att ange listan med taggar som ska jämföras med målfältet.

TextWeights

Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor.

Name Typ Description
weights

object

Ordlistan med vikter per fält för att öka dokumentbedömningen. Nycklarna är fältnamn och värdena är vikterna för varje fält.

TokenCharacterKind

Representerar klasser med tecken som ett tokenfilter kan använda.

Name Typ Description
digit

string

Behåller siffror i token.

letter

string

Behåller bokstäver i token.

punctuation

string

Behåller skiljetecken i token.

symbol

string

Behåller symboler i token.

whitespace

string

Behåller blanksteg i token.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

Name Typ Description
apostrophe

string

Tar bort alla tecken efter en apostrofer (inklusive själva apostrofen). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Ett tokenfilter som tillämpar den arabiska normaliseraren för att normalisera ortografin. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (unicode-blocket basic latin) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliserar skillnader i CJK-bredd. Viker fullwidth ASCII-varianter till motsvarande grundläggande latinska och katakanavarianter med halv bredd i motsvarande Kana. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Tar bort engelska possessives och punkter från förkortningar. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras också, med bigrams överlagrade. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Genererar n-gram av de angivna storlekarna med början framifrån eller på baksidan av en indatatoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliserar tyska tecken enligt heuristiken i den tyska algoritmen för snöboll. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliserar text på hindi för att ta bort vissa skillnader i stavningsvariationer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliserar Unicode-representationen av text på indiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Genererar varje inkommande token två gånger, en gång som nyckelord och en gång som icke-nyckelord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Ett högpresterande kstem-filter för engelska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Tar bort ord som är för långa eller för korta. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Begränsar antalet token vid indexering. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Genererar n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Tillämpar normalisering för persiska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Skapa token för fonetiska matchningar. Se https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Använder Porter-algoritmen för att transformera tokenströmmen. Se http://tartarus.org/~martin/PorterStemmer

reverse

string

Återställer tokensträngen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Viker skandinaviska karaktärer åÅäæÄÆ->a och öÖøØ->o. Det diskriminerar också användningen av dubbla vokaler aa, ae, ao, oe och oo, vilket bara lämnar den första. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliserar användningen av utbytbara skandinaviska tecken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Skapar kombinationer av token som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliserar Unicode-representationen av Sorani-text. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Språkspecifikt härdningsfilter. Se https://zcusa.951200.xyz/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Tar bort stoppord från en tokenström. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Trimmar inledande och avslutande blanksteg från token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunkerar termerna till en viss längd. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtrerar bort token med samma text som föregående token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Delar upp ord i underord och utför valfria transformeringar i underordsgrupper.

TruncateTokenFilter

Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

length

integer

300

Längden som termerna ska trunkeras med. Standard och max är 300.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

UaxUrlEmailTokenizer

Tokeniserar URL:er och e-postmeddelanden som en token. Den här tokenizern implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Ett URI-fragment som anger typen av tokenizer.

maxTokenLength

integer

255

Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken.

name

string

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

UniqueTokenFilter

Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

onlyOnSamePosition

boolean

False

Ett värde som anger om du bara vill ta bort dubbletter på samma position. Standardvärdet är falskt.

VectorEncodingFormat

Kodningsformatet för tolkning av innehåll i vektorfält.

Name Typ Description
packedBit

string

Kodningsformat som representerar bitar som är packade i en bredare datatyp.

VectorSearch

Innehåller konfigurationsalternativ som rör vektorsökning.

Name Typ Description
algorithms VectorSearchAlgorithmConfiguration[]:

Innehåller konfigurationsalternativ som är specifika för den algoritm som används vid indexering eller frågor.

compressions VectorSearchCompressionConfiguration[]:

Innehåller konfigurationsalternativ som är specifika för komprimeringsmetoden som används vid indexering eller frågor.

profiles

VectorSearchProfile[]

Definierar kombinationer av konfigurationer som ska användas med vektorsökning.

vectorizers VectorSearchVectorizer[]:

Innehåller konfigurationsalternativ för hur du vektoriserar textvektorfrågor.

VectorSearchAlgorithmKind

Algoritmen som används för indexering och frågor.

Name Typ Description
exhaustiveKnn

string

Fullständig KNN-algoritm som utför brute-force-sökning.

hnsw

string

HNSW (Hierarchical Navigable Small World), en typ av ungefärlig närmaste grannalgoritm.

VectorSearchAlgorithmMetric

Likhetsmåttet som ska användas för vektorjämförelser. Vi rekommenderar att du väljer samma likhetsmått som inbäddningsmodellen tränades på.

Name Typ Description
cosine

string

Mäter vinkeln mellan vektorer för att kvantifiera deras likhet och bortse från omfattningen. Ju mindre vinkel, desto närmare likhet.

dotProduct

string

Beräknar summan av elementbaserade produkter för att mäta justering och storlekslikhet. Ju större och mer positiv, desto närmare likhet.

euclidean

string

Beräknar det raka avståndet mellan vektorer i ett flerdimensionellt utrymme. Ju mindre avstånd, desto närmare likhet.

hamming

string

Gäller endast för bitpackade binära datatyper. Avgör olikhet genom att räkna olika positioner i binära vektorer. Ju färre skillnader, desto närmare likhet.

VectorSearchCompressionKind

Komprimeringsmetoden som används för indexering och frågor.

Name Typ Description
binaryQuantization

string

Binär kvantisering, en typ av komprimeringsmetod. I binär kvantisering komprimeras de ursprungliga vektorvärdena till den smalare binära typen genom att diskretisera och representera varje komponent i en vektor med binära värden, vilket minskar den totala datastorleken.

scalarQuantization

string

Scalar Quantization, en typ av komprimeringsmetod. I skalär kvantisering komprimeras de ursprungliga vektorvärdena till en smalare typ genom att diskretisera och representera varje komponent i en vektor med hjälp av en reducerad uppsättning kvantiserade värden, vilket minskar den totala datastorleken.

VectorSearchCompressionTargetDataType

Den kvantiserade datatypen för komprimerade vektorvärden.

Name Typ Description
int8

string

VectorSearchProfile

Definierar en kombination av konfigurationer som ska användas med vektorsökning.

Name Typ Description
algorithm

string

Namnet på algoritmkonfigurationen för vektorsökningsalgoritmen som anger algoritmen och valfria parametrar.

compression

string

Namnet på konfigurationen för komprimeringsmetoden som anger komprimeringsmetoden och valfria parametrar.

name

string

Namnet som ska associeras med den här specifika vektorsökningsprofilen.

vectorizer

string

Namnet på vektoriseringen som konfigureras för användning med vektorsökning.

VectorSearchVectorizerKind

Den vektoriseringsmetod som ska användas under frågetiden.

Name Typ Description
azureOpenAI

string

Generera inbäddningar med hjälp av en Azure OpenAI-resurs vid frågetillfället.

customWebApi

string

Generera inbäddningar med hjälp av en anpassad webbslutpunkt vid frågetillfället.

WebApiParameters

Anger egenskaperna för att ansluta till en användardefinierad vektoriserare.

Name Typ Description
authIdentity SearchIndexerDataIdentity:

Den användartilldelade hanterade identiteten som används för utgående anslutningar. Om ett authResourceId har angetts och det inte har angetts används den systemtilldelade hanterade identiteten. Vid uppdateringar av indexeraren, om identiteten är ospecificerad, förblir värdet oförändrat. Om värdet är "none" rensas värdet för den här egenskapen.

authResourceId

string

Gäller för anpassade slutpunkter som ansluter till extern kod i en Azure-funktion eller något annat program som tillhandahåller transformeringarna. Det här värdet ska vara det program-ID som skapades för funktionen eller appen när den registrerades med Azure Active Directory. När den anges ansluter vektoriseringen till funktionen eller appen med hjälp av ett hanterat ID (antingen system eller användartilldelat) för söktjänsten och åtkomsttoken för funktionen eller appen, med det här värdet som resurs-ID för att skapa åtkomsttokens omfång.

httpHeaders

object

De rubriker som krävs för att göra HTTP-begäran.

httpMethod

string

Metoden för HTTP-begäran.

timeout

string

Önskad timeout för begäran. Standardvärdet är 30 sekunder.

uri

string

URI:n för webb-API:et som tillhandahåller vektoriseraren.

WebApiVectorizer

Anger en användardefinierad vektoriserare för att generera vektorbäddning av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning.

Name Typ Description
customWebApiParameters

WebApiParameters

Anger egenskaperna för den användardefinierade vektoriseraren.

kind string:

customWebApi

Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning.

name

string

Namnet som ska associeras med den här specifika vektoriseringsmetoden.

WordDelimiterTokenFilter

Delar upp ord i underord och utför valfria transformeringar i underordsgrupper. Det här tokenfiltret implementeras med Apache Lucene.

Name Typ Standardvärde Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Ett URI-fragment som anger typ av tokenfilter.

catenateAll

boolean

False

Ett värde som anger om alla underordsdelar ska kategoriseras. Om detta till exempel är inställt på sant blir "Azure-Search-1" "AzureSearch1". Standardvärdet är falskt.

catenateNumbers

boolean

False

Ett värde som anger om maximala körningar av antal delar ska kategoriseras. Om detta till exempel är inställt på sant blir "1–2" "12". Standardvärdet är falskt.

catenateWords

boolean

False

Ett värde som anger om maximala körningar av orddelar ska kategoriseras. Om detta till exempel är inställt på sant blir "Azure-Search" "AzureSearch". Standardvärdet är falskt.

generateNumberParts

boolean

True

Ett värde som anger om nummerunderord ska genereras. Standardvärdet är sant.

generateWordParts

boolean

True

Ett värde som anger om delord ska genereras. Om det anges genereras delar av ord. till exempel "AzureSearch" blir "Azure" "Search". Standardvärdet är sant.

name

string

Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

preserveOriginal

boolean

False

Ett värde som anger om ursprungliga ord ska bevaras och läggas till i underordslistan. Standardvärdet är falskt.

protectedWords

string[]

En lista över token som ska skyddas från att avgränsas.

splitOnCaseChange

boolean

True

Ett värde som anger om ord ska delas i caseChange. Om detta till exempel är inställt på sant blir "AzureSearch" "Azure" "Search". Standardvärdet är sant.

splitOnNumerics

boolean

True

Ett värde som anger om du vill dela på tal. Om detta till exempel är inställt på sant blir "Azure1Search" "Azure" "1" "Search". Standardvärdet är sant.

stemEnglishPossessive

boolean

True

Ett värde som anger om du vill ta bort avslutande "'s" för varje underord. Standardvärdet är sant.