Função ai_similarity
Aplica-se a: SQL do Databricks Runtime do Databricks
Importante
Esse recurso está em uma versão prévia.
Na versão preliminar:
- O modelo de idioma subjacente pode lidar com vários idiomas; no entanto, essas funções são ajustadas para inglês.
- Há limitação de fluxo para as APIs subjacentes do modelo de base. Confira Limites de APIs do modelo de base para atualizar esses limites.
A função ai_similarity()
invoca um modelo de IA generativa de última geração das APIs do Databricks Foundation Model para comparar duas cadeias de caracteres e calcula a pontuação de similaridade semântica usando SQL.
Requisitos
Importante
Os modelos subjacentes que podem ser usados neste momento são licenciados sob a Licença Apache 2.0, Copyright © The Apache Software Foundation ou a Licença da Comunidade LLAMA 3.1 Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
O Databricks recomenda revisar essas licenças para garantir a conformidade com quaisquer termos aplicáveis. Se surgirem modelos no futuro com melhor desempenho de acordo com os parâmetros de comparação internos da Databricks, a Databricks poderá alterar o modelo (e a lista de licenças aplicáveis fornecida nesta página).
Atualmente, GTE Large (inglês) é o modelo subjacente que alimenta essa função de IA.
- Essa função só está disponível em workspaces em Funções de IA usando regiões compatíveis com APIs do Foundation Model.
- Essa função não está disponível no SQL Clássico do Azure Databricks.
- Confira a página de preços do SQL do Databricks.
Observação
No Databricks Runtime 15.1 e superior, essa função tem suporte nos notebooks do Databricks, incluindo notebooks que são executados como uma tarefa em um fluxo de trabalho do Databricks.
Sintaxe
ai_similarity(expr1, expr2)
Argumentos
expr1
: uma expressãoSTRING
.expr2
: uma expressãoSTRING
.
Retornos
Um valor FLOAT
que representa a similaridade semântica entre as duas cadeias de caracteres de entrada. A pontuação de saída é relativa e só deve ser usada para classificação. A pontuação de 1 significa que os dois textos são iguais.
Exemplos
> SELECT ai_similarity('Apache Spark', 'Apache Spark');
1.0
> SELECT
company_name
FROM
customers
ORDER BY ai_similarity(company_name, 'Databricks') DESC
LIMIT 1
Databricks Inc.