Habilidade cognitiva de deteção de linguagem

Artigo
09/01/2024

A habilidade Deteção de idioma deteta o idioma do texto de entrada e relata um único código de idioma para cada documento enviado na solicitação. O código do idioma é emparelhado com uma pontuação que indica a força da análise. Essa habilidade usa os modelos de aprendizado de máquina fornecidos na Linguagem de IA do Azure.

Esse recurso é especialmente útil quando você precisa fornecer o idioma do texto como entrada para outras habilidades (por exemplo, a habilidade Análise de Sentimento ou Divisão de Texto).

Consulte os idiomas suportados para Deteção de Idioma. Se você tiver conteúdo expresso em um idioma não suportado, a resposta será (Unknown).

Nota

Essa habilidade está vinculada aos serviços de IA do Azure e requer um recurso faturável para transações que excedam 20 documentos por indexador por dia. A execução de habilidades internas é cobrada pelo preço pré-pago dos serviços de IA do Azure existentes.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Limites de dados

O tamanho máximo de um registo deve ser de 50 000 carateres, medido por String.Length. Se você precisar dividir seus dados antes de enviá-los para a habilidade de deteção de idioma, você pode usar a habilidade Divisão de texto.

Parâmetros de habilidade

Os parâmetros diferenciam maiúsculas de minúsculas.

Entradas	Description
`defaultCountryHint`	(Opcional) Um código de país ISO 3166-1 alpha-2 de duas letras pode ser fornecido para usar como uma dica para o modelo de deteção de idioma se ele não puder desambiguar o idioma. Especificamente, o `defaultCountryHint` parâmetro é usado com documentos que não especificam a `countryHint` entrada explicitamente.
`modelVersion`	(Opcional) Especifica a versão do modelo a ser usada ao chamar a deteção de idioma. O padrão é o mais recente disponível quando não especificado. Recomendamos que você não especifique esse valor, a menos que seja necessário.

Contributos para as competências

Os parâmetros diferenciam maiúsculas de minúsculas.

Entradas	Description
`text`	O texto a ser analisado.
`countryHint`	Um código de país ISO 3166-1 alpha-2 de duas letras para usar como uma dica para o modelo de deteção de idioma se ele não puder desambiguar o idioma.

Resultados em termos de competências

Nome da saída	Description
`languageCode`	O código linguístico ISO 6391 para a língua identificada. Por exemplo, "en".
`languageName`	O nome da língua. Por exemplo, "Inglês".
`score`	Um valor entre 0 e 1. A probabilidade de a língua ser corretamente identificada. A pontuação pode ser inferior a 1 se a frase tiver línguas mistas.

Definição da amostra

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Entrada de exemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Saída de exemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Partilhar via