Valores de cluster
Os valores de cluster criam automaticamente grupos com valores semelhantes usando um algoritmo de correspondência difusa e, em seguida, mapeiam o valor de cada coluna para o grupo com melhor correspondência. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.
Considere uma tabela de exemplo com uma coluna id que contém um conjunto de IDs e uma coluna Person contendo um conjunto de versões com várias letras escritas e maiúsculas dos nomes Miguel, Mike, William e Bill.
Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Pessoa e não todas as diferentes variações das mesmas palavras.
Nota
A funcionalidade Valores de cluster está disponível apenas para o Power Query Online.
Criar uma coluna de cluster
Para agrupar valores, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e selecione a opção Valores de cluster.
Na caixa de diálogo Valores de cluster, confirme a coluna a partir da qual pretende utilizar para criar os clusters e introduza o novo nome da coluna. Nesse caso, nomeie essa nova coluna como Cluster.
O resultado dessa operação é mostrado na imagem a seguir.
Nota
Para cada cluster de valores, o Power Query seleciona a instância mais frequente da coluna selecionada como a instância "canónica". Se ocorrerem várias instâncias com a mesma frequência, o Power Query selecionará a primeira.
Usando as opções de cluster difuso
As seguintes opções estão disponíveis para valores de agrupamento em uma nova coluna:
- Limiar de semelhança (opcional): Esta opção indica como dois valores semelhantes devem ser agrupados. A configuração mínima de zero (0) faz com que todos os valores sejam agrupados. A configuração máxima de 1 só permite que os valores que correspondem exatamente sejam agrupados. O padrão é 0.8.
- Ignorar maiúsculas e minúsculas: Quando as cadeias de texto são comparadas, maiúsculas e minúsculas são ignoradas. Por predefinição, esta opção encontra-se ativada.
- Agrupar combinando partes de texto: o algoritmo tenta combinar partes de texto (como combinar Micro e soft na Microsoft) para agrupar valores.
- Mostrar pontuações de similaridade: Mostra pontuações de semelhança entre os valores de entrada e os valores representativos calculados após o agrupamento difuso.
- Tabela de transformação (opcional): você pode selecionar uma tabela de transformação que mapeie valores (como mapeamento de MSFT para a Microsoft) para agrupá-los.
Neste exemplo, uma nova tabela de transformação com o nome My transform table é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:
- De: A cadeia de texto a procurar na tabela.
- Para: A cadeia de caracteres de texto a ser usada para substituir a cadeia de texto na coluna De .
Importante
É importante que a tabela de transformação tenha as mesmas colunas e nomes de coluna mostrados na imagem anterior (têm de ser denominados "De" e "Para"), caso contrário o Power Query não reconhecerá esta tabela como uma tabela de transformação e não ocorrerá qualquer transformação.
Usando a consulta criada anteriormente, clique duas vezes na etapa Valores agrupados e, em seguida, na caixa de diálogo Valores de cluster, expanda Opções de cluster difuso. Em Opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade. Para Tabela de transformação (opcional), selecione a consulta que tem a tabela de transformação.
Depois de selecionar a tabela de transformação e ativar a opção Mostrar pontuações de semelhança, selecione OK. O resultado dessa operação fornece uma tabela que contém as mesmas colunas id e Person que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões corretamente escritas e em maiúsculas dos nomes Miguel para as versões de Miguel e Mike, e William para as versões de Bill, Billy e William. A coluna Person_Cluster_Similarity contém as pontuações de semelhança para cada um dos nomes.
Preceitos da tabela de transformação
Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike são alteradas para Miguel e as instâncias de William são alteradas para Bill. No entanto, na tabela resultante, as instâncias de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para , a tabela de transformação é simétrica durante o agrupamento, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes indicados no quadro de transformação depende das seguintes regras:
- Se houver uma maioria de valores idênticos, esses valores terão precedência sobre valores não idênticos.
- Se não houver a maioria dos valores, o valor que aparece primeiro tem precedência.
Por exemplo, na tabela original usada neste artigo, as versões de Miguel (tanto "miguel" quanto Miguel) na coluna Pessoa compõem a maioria das ocorrências do nome Miguel e Mike. Além disso, o nome Miguel com maiúsculas iniciais compõe a maioria do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster .
No entanto, para os nomes William, Bill e "billy", não há maioria de valores, uma vez que todos os três são únicos. Como William aparece primeiro, William é usado na coluna Cluster . Se "billy" tivesse aparecido primeiro na tabela, então "billy" seria usado na coluna Cluster . Além disso, como não há maioria de valores, o caso usado pelos nomes individuais é usado. Ou seja, se William é o primeiro, William com um "W" maiúsculo é usado como valor de resultado; Se "billy" for o primeiro, "billy" com um "b" minúsculo é usado.