Поделиться через


Обновление или перестроение индекса в службе "Поиск ИИ Azure"

В этой статье объясняется, как обновить существующий индекс в службе "Поиск ИИ Azure" с изменениями схемы или изменениями содержимого путем добавочного индексирования. В нем объясняются обстоятельства, при которых требуются перестроения, и приведены рекомендации по устранению последствий перестроения в текущих запросах.

Во время активной разработки обычно происходит удаление и перестроение индексов при итерации по проектированию индексов. Большинство разработчиков работают с небольшим репрезентативным образцом данных, чтобы переиндексирование было быстрее.

Для изменений схемы в приложениях, уже имеющихся в рабочей среде, рекомендуется создавать и тестировать новый индекс, который выполняется параллельно с существующим индексом. Используйте псевдоним индекса для замены нового индекса, чтобы избежать изменений кода приложения.

Обновление содержимого

Добавочное индексирование и синхронизация индекса с изменениями исходных данных является фундаментальным для большинства приложений поиска. В этом разделе описывается рабочий процесс обновления содержимого поля в индексе поиска с помощью REST API, но пакеты SDK Azure предоставляют эквивалентные функциональные возможности.

Тело запроса содержит один или несколько индексируемых документов. Документы определяются уникальным ключом с учетом регистра. Каждый документ связан с действием: "upload", "delete", "merge" или "mergeOrUpload". Запросы на добавление должны содержать данные документа в виде набора пар "ключ/значение".

{  
  "value": [  
    {  
      "@search.action": "upload (default) | merge | mergeOrUpload | delete",  
      "key_field_name": "unique_key_of_document", (key/value pair for key field from index schema)  
      "field_name": field_value (key/value pairs matching index schema)  
        ...  
    },  
    ...  
  ]  
}
  • Во-первых, используйте API-интерфейсы для загрузки документов, таких как документы — индекс (REST) или эквивалентный API в пакетах SDK Azure. Дополнительные сведения о методах индексирования см. в разделе "Загрузка документов".

  • Для большого обновления рекомендуется пакетирование (до 1000 документов на пакет или около 16 МБ на пакет, в зависимости от того, какой предел приходится первым) и значительно повышает производительность индексирования.

  • @search.action Задайте параметр в API, чтобы определить влияние на существующие документы.

    Действие Действие
    удалить Удаляет весь документ из индекса. Если вы хотите удалить отдельное поле, используйте слияние, задав поле под вопросом значение NULL. Удаленные документы и поля не сразу освобождают место в индексе. Каждые несколько минут фоновый процесс выполняет физическое удаление. Независимо от того, используете ли вы портал Azure или API для возврата статистики индекса, можно ожидать небольшую задержку, прежде чем удаление будет отражено в портал Azure и через API.
    merge Обновляет документ, который уже существует, и не удается найти документ. Слияние заменяет существующие значения. По этой причине обязательно проверьте поля коллекции, содержащие несколько значений, таких как поля типа Collection(Edm.String). Например, если tags поле начинается со значения ["budget"] и выполняется слияние с ["economy", "pool"], конечное значение tags поля равно ["economy", "pool"]. Это не будет ["budget", "economy", "pool"].

    Такое же поведение применяется к сложным коллекциям. Если документ содержит сложное поле коллекции с именем "Комнаты" со значением [{ "Type": "Budget Room", "BaseRate": 75.0 }], и выполняется слияние со значением [{ "Type": "Standard Room" }, { "Type": "Budget Room", "BaseRate": 60.5 }], окончательное значение поля "Комнаты" будет [{ "Type": "Standard Room" }, { "Type": "Budget Room", "BaseRate": 60.5 }]. Он не будет добавлять или объединять новые и существующие значения.
    mergeOrUpload Ведет себя как слияние, если документ существует, и отправляется, если документ является новым. Это наиболее распространенное действие для добавочных обновлений.
    отправить Аналогично "upsert", где документ вставляется, если он новый, и обновлен или заменен, если он существует. Если документ отсутствует значения, необходимые индексу, значение поля документа имеет значение NULL.

Запросы продолжают выполняться во время индексирования, но при обновлении или удалении существующих полей можно ожидать смешанных результатов и более высокой частоты регулирования.

Примечание.

Нет гарантий заказа, для которого сначала выполняется действие в тексте запроса. Не рекомендуется использовать несколько действий слияния, связанных с одним документом в одном тексте запроса. Если для одного документа требуется несколько действий слияния, выполните слияние на стороне клиента перед обновлением документа в индексе поиска.

Отклики

Код состояния 200 возвращается для успешного ответа, т. е. все элементы хранятся в дурном виде и начинают индексироваться. Индексирование выполняется в фоновом режиме и делает новые документы доступными (т. е. запрашиваемыми и доступными для поиска) через несколько секунд после завершения операции индексирования. Конкретная задержка зависит от нагрузки на службу.

Успешное индексирование указывается свойством состояния, для которых задано значение true для всех элементов, а также statusCode свойство, задающее значение 201 (для только что отправленных документов) или 200 (для объединенных или удаленных документов):

{
  "value": [
    {
      "key": "unique_key_of_new_document",
      "status": true,
      "errorMessage": null,
      "statusCode": 201
    },
    {
      "key": "unique_key_of_merged_document",
      "status": true,
      "errorMessage": null,
      "statusCode": 200
    },
    {
      "key": "unique_key_of_deleted_document",
      "status": true,
      "errorMessage": null,
      "statusCode": 200
    }
  ]
}

Код состояния 207 возвращается, когда по крайней мере один элемент не был успешно индексирован. Элементы, которые не были индексированы, имеют поле состояния, равное false. statusCode Свойства errorMessage указывают причину ошибки индексирования:

{
  "value": [
    {
      "key": "unique_key_of_document_1",
      "status": false,
      "errorMessage": "The search service is too busy to process this document. Please try again later.",
      "statusCode": 503
    },
    {
      "key": "unique_key_of_document_2",
      "status": false,
      "errorMessage": "Document not found.",
      "statusCode": 404
    },
    {
      "key": "unique_key_of_document_3",
      "status": false,
      "errorMessage": "Index is temporarily unavailable because it was updated with the 'allowIndexDowntime' flag set to 'true'. Please try again later.",
      "statusCode": 422
    }
  ]
}  

Свойство errorMessage указывает причину ошибки индексирования, если это возможно.

В следующей таблице описаны различные коды состояния документов, которые могут быть возвращены в ответе. Некоторые коды состояния указывают на проблемы с самим запросом, а другие указывают на временные условия ошибки. Во втором случае нужно повторить попытку подключения через некоторое время.

Код состояния Значение Возможность повторной попытки Примечания
200 Документ был успешно изменен или удален. Н/Д Операции удаления являются идемпотентными. То есть, даже если ключ документа не существует в индексе, попытка удаления с этим ключом приводит к коду состояния 200.
201 Документ создан. Н/Д
400 Ошибка в документе, препятствующая индексированию. No Сообщение об ошибке в ответе указывает, что неправильно с документом.
404 Документ не удалось объединить, так как заданный ключ не существует в индексе. No Эта ошибка не возникает для отправки, так как они создают новые документы, и она не возникает для удаления, так как они идемпотентны.
409 Обнаружен конфликт версий при попытке индексирования документа. Да Это может произойти при нескольких одновременных попытках индексирования одного документа.
422 Индекс временно недоступен, так как для флага allowIndexDowntime было установлено значение true. Да
503 Служба поиска временно недоступна, возможно, из-за высокой нагрузки. Да Следует подождать, прежде чем предпринимать повторную попытку. В противном случае вы можете только увеличить время недоступности службы.

Если клиентский код часто встречает ответ 207, одна из возможных причин заключается в том, что система находится под нагрузкой. Это можно подтвердить, проверив свойство statusCode для 503. Если код состояния равен 503, рекомендуется регулировать запросы индексирования. В противном случае если поток запросов на индексирование не уменьшится, система может начать отклонять их все с кодом ошибки 503.

Код состояния: если превышена квота на количество документов в индексе, система возвращает код ошибки 429. В этом случае нужно создать новый индекс или повысить предельную емкость.

Примечание.

При отправке DateTimeOffset значений с данными часового пояса в индекс поиск Azure AI нормализует эти значения в формате UTC. Например, 2024-01-13T14:03:00-08:00 хранится как 2024-01-13T22:03:00Z. Если необходимо сохранить сведения часового пояса, добавьте дополнительный столбец в индекс для этой точки данных.

Советы по добавочному индексации

  • Индексаторы автоматизируют добавочное индексирование. Если вы можете использовать индексатор, а если источник данных поддерживает отслеживание изменений, можно запустить индексатор в повторяющееся расписание для добавления, обновления или перезаписи содержимого для поиска, чтобы он синхронизировался с внешними данными.

  • Если вы выполняете вызовы индекса непосредственно через API push-уведомлений, используйте mergeOrUpload его в качестве действия поиска.

  • Полезные данные должны содержать ключи или идентификаторы каждого документа, который требуется добавить, обновить или удалить.

  • Если индекс содержит векторные поля и присвоить stored свойству значение false, убедитесь, что он указан в частичном обновлении документа, даже если значение не изменилось. Побочный эффект параметра stored false заключается в том, что векторы удаляются при повторной дендексации операции. Предоставление вектора полезных данных документов предотвращает это.

  • Чтобы обновить содержимое простых полей и подполей в сложных типах, укажите только поля, которые нужно изменить. Например, если нужно обновить поле описания, полезные данные должны состоять из ключа документа и измененного описания. Опущение других полей сохраняет существующие значения.

  • Чтобы объединить встроенные изменения в коллекцию строк, укажите все значение. tags Помните пример поля из предыдущего раздела. Новые значения перезаписывают старые значения для всего поля и не объединяются в содержимое поля.

Ниже приведен пример REST API, демонстрирующий следующие советы:

### Get Stay-Kay City Hotel by ID
GET  {{baseUrl}}/indexes/hotels-vector-quickstart/docs('1')?api-version=2024-07-01  HTTP/1.1
    Content-Type: application/json
    api-key: {{apiKey}}

### Change the description, city, and tags for Stay-Kay City Hotel
POST {{baseUrl}}/indexes/hotels-vector-quickstart/docs/search.index?api-version=2024-07-01  HTTP/1.1
  Content-Type: application/json
  api-key: {{apiKey}}

    {
        "value": [
            {
            "@search.action": "mergeOrUpload",
            "HotelId": "1",
            "Description": "I'm overwriting the description for Stay-Kay City Hotel.",
            "Tags": ["my old item", "my new item"],
            "Address": {
                "City": "Gotham City"
                }
            }
        ]
    }
       
### Retrieve the same document, confirm the overwrites and retention of all other values
GET  {{baseUrl}}/indexes/hotels-vector-quickstart/docs('1')?api-version=2024-07-01  HTTP/1.1
    Content-Type: application/json
    api-key: {{apiKey}}

Обновление схемы индекса

Схема индекса определяет структуры физических данных, созданные в службе поиска, поэтому нет большого количества изменений схемы, которые можно внести без полного перестроения.

Обновления без перестроения

В следующем списке перечислены изменения схемы, которые можно легко ввести в существующий индекс. Как правило, список включает новые поля и функциональные возможности, используемые во время выполнения запроса.

  • Добавление нового поля
  • Установка атрибута retrievable в существующем поле
  • Обновление searchAnalyzer поля с существующим indexAnalyzer
  • Добавьте новое определение анализатора в индекс (который можно применить к новым полям)
  • Добавление, обновление или удаление профилей оценки
  • Добавление, обновление или удаление синонимовMaps
  • Добавление, обновление или удаление семантических конфигураций
  • Добавление, обновление или удаление параметров CORS

Порядок операций:

  1. Получите определение индекса.

  2. Изменение схемы с обновлениями из предыдущего списка.

  3. Обновите схему индекса в службе поиска.

  4. Обновите содержимое индекса, чтобы соответствовать измененной схеме, если вы добавили новое поле. Для всех остальных изменений существующий индексированные содержимое используется как есть.

При обновлении схемы индекса для включения нового поля существующие документы в индексе получают значение NULL для этого поля. В следующем задании индексирования значения из внешних исходных данных заменяют значения NULL, добавленные поиском ИИ Azure.

Во время обновлений не должно быть нарушений запросов, но результаты запроса будут отличаться по мере того, как обновления вступают в силу.

Обновления, требующие перестроения

Для некоторых изменений требуется удаление и перестроение индекса, заменив текущий индекс новым.

Действие Description
Удаление поля Чтобы физически удалить все следы поля, необходимо перестроить индекс. Если немедленное перестроение не является практическим, вы можете изменить код приложения для перенаправления доступа из устаревшего поля или использовать searchFields и выбрать параметры запроса, чтобы выбрать, какие поля выполняются и возвращаются. Физически определение и содержимое поля сохраняются в индексе до следующей перестройки с использованием схемы, в которой это поле отсутствует.
Изменение определения поля Для изменения имени поля, типа данных или определенных атрибутов индекса (доступных для поиска, фильтруемых, сортируемых, аспектируемых) требуется полная перестроение.
Присвоение полю анализатора Анализаторы определяются в индексе, назначены полям, а затем вызываются во время индексирования, чтобы сообщить, как создаются маркеры. Вы можете добавить новое определение анализатора в индекс в любое время, но присвоить анализатор можно только при создании поля. Это касается обоих свойств: analyzer и indexAnalyzer. Свойство searchAnalyzer является исключением (его можно присвоить уже существующему полю).
Обновление или удаление определения анализатора в индексе Вы не можете удалить или изменить существующую конфигурацию анализатора (анализатор, токенизатор, фильтр маркеров или фильтр символов) в индексе, если вы не перестроите весь индекс.
Добавление поля в средство подбора Если поле уже существует и вы хотите добавить его в конструкцию предложения , перестройте индекс.
Смена уровня Обновления на месте не поддерживаются. Если требуется дополнительная емкость, создайте новую службу и перестроите индексы с нуля. Чтобы автоматизировать этот процесс, можно использовать пример кода для восстановления индексов в этом примере репозитория .NET для поиска ИИ Azure. Это приложение создает резервную копию индекса в ряде JSON-файлов, а затем повторно создает индекс в указанной службе поиска.

Порядок операций:

  1. Получите определение индекса в случае, если он необходим для последующей ссылки, или использовать в качестве основы для новой версии.

  2. Рекомендуется использовать решение резервного копирования и восстановления для сохранения копии содержимого индекса. В C# и Python существуют решения. Рекомендуется использовать версию Python, так как она обновлена.

    Если у вас есть емкость в службе поиска, сохраните существующий индекс при создании и тестировании нового.

  3. Удалите существующий индекс. Запросы, предназначенные для индекса, немедленно удаляются. Помните, что удаление индекса является необратимой операцией, при которой уничтожается физическое хранилище для коллекции полей и другие конструкции.

  4. После изменения индекса, в котором текст запроса включает измененные или измененные определения полей и конфигурации.

  5. Загрузите индекс с документами из внешнего источника. Документы индексируются с помощью определений полей и конфигураций новой схемы.

При создании индекса физическое хранилище выделяется для каждого поля в схеме индекса с инвертируемым индексом, созданным для каждого поля поиска, и векторным индексом, созданным для каждого векторного поля. Поля, которые недоступны для поиска, могут использоваться в фильтрах или выражениях, но не имеют инвертированных индексов и не являются полнотекстовых или нечеткими для поиска. При перестроении индекса эти инвертированные индексы и векторные индексы удаляются и повторно создаются на основе предоставленной схемы индекса.

Чтобы свести к минимуму нарушение кода приложения, рекомендуется создать псевдоним индекса. Код приложения ссылается на псевдоним, но можно обновить имя индекса, на который указывает псевдоним.

Балансировка рабочих нагрузок

Индексирование не выполняется в фоновом режиме, но служба поиска будет балансировать все задания индексирования по текущим запросам. Во время индексирования можно отслеживать запросы в портал Azure, чтобы обеспечить своевременное выполнение запросов.

Если индексирование рабочих нагрузок вводит неприемлемые уровни задержки запросов, проводите анализ производительности и просмотрите эти советы по устранению рисков .

Проверить наличие обновлений

Вы можете отправлять запросы к индексу сразу после загрузки первого документа. Если вы знаете идентификатор документа, API REST поиска по документу возвращает определенный документ. Для более подробного тестирования подождите полной загрузки индекса, а затем используйте запросы, чтобы проверить контекст, который вы ожидаете увидеть.

Обозреватель поиска или клиент REST можно использовать для проверки обновленного содержимого.

Если вы добавили или переименовали поле, используйте команду , чтобы вернуть это поле:

"search": "*",
"select": "document-id, my-new-field, some-old-field",
"count": true

Портал Azure предоставляет размер индекса и размер векторного индекса. Эти значения можно проверить после обновления индекса, но не забудьте ожидать небольшую задержку, так как служба обрабатывает изменение и учетную запись частоты обновления портала, что может занять несколько минут.

Удаление потерянных документов

Служба "Поиск ИИ Azure" поддерживает операции на уровне документа, чтобы вы могли искать, обновлять и удалять определенный документ в изоляции. В следующем примере показано, как удалить документ.

Удаление документа не сразу освобождает место в индексе. Каждые несколько минут фоновый процесс выполняет физическое удаление. Независимо от того, используется ли портал Azure или API для возврата статистики индекса, вы можете ожидать небольшую задержку перед удалением в метриках портал Azure и API.

  1. Определите, какое поле является ключом документа. В портал Azure можно просмотреть поля каждого индекса. Ключи документа — это строковые поля и обозначены значком ключа, чтобы упростить их место.

  2. Проверьте значения поля ключа документа: search=*&$select=HotelId Простая строка проста, но если индекс использует поле в кодировке Base-64 или если документы поиска были созданы из parsingMode параметра, возможно, вы работаете со значениями, с которыми вы не знакомы.

  3. Просмотрите документ, чтобы проверить значение идентификатора документа и просмотреть его содержимое перед удалением. Укажите ключ или идентификатор документа в запросе. В следующих примерах показана простая строка для примера индекса Hotels и строка в кодировке Base-64 для ключа metadata_storage_path индекса cog-search-demo.

    GET https://[service name].search.windows.net/indexes/hotel-sample-index/docs/1111?api-version=2024-07-01
    
    GET https://[service name].search.windows.net/indexes/cog-search-demo/docs/aHR0cHM6Ly9oZWlkaWJsb2JzdG9yYWdlMi5ibG9iLmNvcmUud2luZG93cy5uZXQvY29nLXNlYXJjaC1kZW1vL2d1dGhyaWUuanBn0?api-version=2024-07-01
    
  4. Удалите документ с помощью удаления @search.action из индекса поиска.

    POST https://[service name].search.windows.net/indexes/hotels-sample-index/docs/index?api-version=2024-07-01
    Content-Type: application/json   
    api-key: [admin key] 
    {  
      "value": [  
        {  
          "@search.action": "delete",  
          "id": "1111"  
        }  
      ]  
    }
    

См. также