Limpar componente Dados Ausentes

Artigo
09/01/2024

Este artigo descreve um componente no designer do Azure Machine Learning.

Use este componente para remover, substituir ou inferir valores ausentes.

Os cientistas de dados geralmente verificam os dados em busca de valores ausentes e, em seguida, executam várias operações para corrigir os dados ou inserir novos valores. O objetivo dessas operações de limpeza é evitar problemas causados pela falta de dados que podem surgir ao treinar um modelo.

Este componente suporta vários tipos de operações para "limpar" valores em falta, incluindo:

Substituindo valores ausentes por um espaço reservado, média ou outro valor
Remoção completa de linhas e colunas com valores ausentes
Inferir valores com base em métodos estatísticos

O uso desse componente não altera o conjunto de dados de origem. Em vez disso, ele cria um novo conjunto de dados em seu espaço de trabalho que você pode usar no fluxo de trabalho subsequente. Você também pode salvar o novo conjunto de dados limpo para reutilização.

Este componente também produz uma definição da transformação usada para limpar os valores ausentes. Você pode reutilizar essa transformação em outros conjuntos de dados que tenham o mesmo esquema, usando o componente Aplicar transformação .

Como usar Limpar dados ausentes

Este componente permite definir uma operação de limpeza. Você também pode salvar a operação de limpeza para aplicá-la posteriormente a novos dados. Consulte as seguintes seções de como criar e salvar um processo de limpeza:

Para substituir valores em falta
Para aplicar uma transformação de limpeza a novos dados

Importante

O método de limpeza que você usa para lidar com valores ausentes pode afetar drasticamente seus resultados. Recomendamos que você experimente métodos diferentes. Considere tanto a justificação para a utilização de um determinado método como a qualidade dos resultados.

Substituir valores em falta

Sempre que você aplica o componente Limpar dados ausentes a um conjunto de dados, a mesma operação de limpeza é aplicada a todas as colunas selecionadas. Portanto, se você precisar limpar colunas diferentes usando métodos diferentes, use instâncias separadas do componente.

Adicione o componente Limpar dados ausentes ao pipeline e conecte o conjunto de dados com valores ausentes.
Para Colunas a serem limpas, escolha as colunas que contêm os valores ausentes que você deseja alterar. Você pode escolher várias colunas, mas deve usar o mesmo método de substituição em todas as colunas selecionadas. Portanto, normalmente você precisa limpar colunas de cadeia de caracteres e colunas numéricas separadamente.

Por exemplo, para verificar se há valores ausentes em todas as colunas numéricas:
1. Selecione o componente Limpar dados ausentes e clique na coluna Editar no painel direito do componente.
2. Em Incluir, selecione Tipos de coluna na lista suspensa e, em seguida, selecione Numérico.
Qualquer método de limpeza ou substituição escolhido deve ser aplicável a todas as colunas da seleção. Se os dados em qualquer coluna forem incompatíveis com a operação especificada, o componente retornará um erro e interromperá o pipeline.
Em Razão mínima de valor ausente, especifique o número mínimo de valores ausentes necessários para que a operação seja executada.

Use essa opção em combinação com a relação de valor máximo ausente para definir as condições sob as quais uma operação de limpeza é executada no conjunto de dados. Se houver muitas ou poucas linhas que estão faltando valores, a operação não pode ser executada.

O número inserido representa a proporção de valores ausentes para todos os valores na coluna. Por padrão, a propriedade Minimum missing value ratio é definida como 0. Isso significa que os valores ausentes são limpos mesmo se houver apenas um valor ausente.

Aviso

Esta condição deve ser cumprida por todas as colunas para que a operação especificada se aplique. Por exemplo, suponha que você selecionou três colunas e, em seguida, defina a proporção mínima de valores ausentes como .2 (20%), mas apenas uma coluna realmente tem 20% de valores ausentes. Neste caso, a operação de limpeza aplicar-se-ia apenas à coluna com mais de 20% de valores em falta. Portanto, as outras colunas permaneceriam inalteradas.

Se você tiver alguma dúvida sobre se os valores ausentes foram alterados, selecione a opção Gerar coluna do indicador de valor ausente. Uma coluna é acrescentada ao conjunto de dados para indicar se cada coluna atendeu ou não aos critérios especificados para os intervalos mínimo e máximo.
Em Razão máxima de valor ausente, especifique o número máximo de valores ausentes que podem estar presentes para a operação a ser executada.

Por exemplo, talvez você queira executar a substituição de valores ausentes somente se 30% ou menos das linhas contiverem valores ausentes, mas deixe os valores como estão se mais de 30% das linhas tiverem valores ausentes.

Você define o número como a proporção de valores ausentes para todos os valores na coluna. Por padrão, a relação Valor máximo ausente é definida como 1. Isso significa que os valores ausentes são limpos mesmo se 100% dos valores na coluna estiverem ausentes.
Para Modo de Limpeza, selecione uma das seguintes opções para substituir ou remover valores ausentes:
- Valor de substituição personalizado: use esta opção para especificar um valor de espaço reservado (como 0 ou NA) que se aplique a todos os valores ausentes. O valor especificado como substituição deve ser compatível com o tipo de dados da coluna.
- Substituir por média: calcula a média da coluna e usa a média como o valor de substituição para cada valor ausente na coluna.
  
  Aplica-se apenas a colunas com tipos de dados Inteiro, Duplo ou Booleano.
- Substituir por mediana: calcula o valor mediano da coluna e usa o valor mediano como substituto para qualquer valor ausente na coluna.
  
  Aplica-se apenas a colunas com tipos de dados Inteiro ou Duplo.
- Substituir por modo: calcula o modo para a coluna e usa o modo como o valor de substituição para cada valor ausente na coluna.
  
  Aplica-se a colunas com tipos de dados Inteiro, Duplo, Booleano ou Categórico.
- Remover linha inteira: Remove completamente qualquer linha no conjunto de dados que tenha um ou mais valores ausentes. Isso é útil se o valor ausente puder ser considerado aleatoriamente ausente.
- Remover coluna inteira: Remove completamente qualquer coluna no conjunto de dados que tenha um ou mais valores ausentes.
A opção Valor de substituição estará disponível se você tiver selecionado a opção Valor de substituição personalizado. Digite um novo valor para usar como o valor de substituição para todos os valores ausentes na coluna.

Observe que você pode usar essa opção somente em colunas que tenham o Inteiro, Duplo, Booleano ou String.
Gerar coluna indicador de valor ausente: selecione esta opção se quiser gerar alguma indicação de se os valores na coluna atenderam aos critérios de limpeza de valor ausente. Esta opção é particularmente útil quando está a configurar uma nova operação de limpeza e pretende certificar-se de que funciona como previsto.
Envie o pipeline.

Resultados

O componente retorna duas saídas:

Conjunto de dados limpo: um conjunto de dados composto pelas colunas selecionadas, com valores ausentes tratados conforme especificado, juntamente com uma coluna indicadora, se você selecionou essa opção.

As colunas não selecionadas para limpeza também são "passadas".
Transformação de limpeza: uma transformação de dados usada para limpeza, que pode ser salva em seu espaço de trabalho e aplicada a novos dados posteriormente.

Aplicar uma operação de limpeza salva a novos dados

Se você precisar repetir as operações de limpeza com frequência, recomendamos que salve sua receita de limpeza de dados como uma transformação, para reutilizar com o mesmo conjunto de dados. Salvar uma transformação de limpeza é particularmente útil se você precisar reimportar com frequência e, em seguida, limpar dados que tenham o mesmo esquema.

Adicione o componente Aplicar transformação ao seu pipeline.
Adicione o conjunto de dados que deseja limpar e conecte o conjunto de dados à porta de entrada direita.
Expanda o grupo Transformações no painel esquerdo do designer. Localize a transformação salva e arraste-a para o pipeline.
Conecte a transformação salva à porta de entrada esquerda de Apply Transformation.

Ao aplicar uma transformação salva, não é possível selecionar as colunas às quais a transformação é aplicada. Isso ocorre porque a transformação já foi definida e se aplica automaticamente às colunas especificadas na operação original.

No entanto, suponha que você criou uma transformação em um subconjunto de colunas numéricas. Você pode aplicar essa transformação a um conjunto de dados de tipos de colunas mistas sem gerar um erro, porque os valores ausentes são alterados somente nas colunas numéricas correspondentes.
Envie o pipeline.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.

Partilhar via