Dividir dados usando uma expressão regular
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
este artigo descreve como usar a opção de divisão expressão Regular no módulo dividir dados do Machine Learning Studio (clássico). Essa opção é útil quando você precisa aplicar um critério de filtro a uma coluna de texto. Por exemplo, você pode dividir seu conjunto de dado se um produto específico for mencionado.
Observação
aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Você pode usar uma divisão de expressão regular em uma única coluna de texto. Você define uma expressão regular que inclui o nome da coluna de texto e, em seguida, define as condições que se aplicam à coluna, como "começa com", "Contains" ou "não contém".
Para obter informações gerais sobre o particionamento de dados para experimentos de aprendizado de máquina, consulte dividir dados e particionar e dividir.
Tarefas relacionadas
Outras opções no módulo dividir dados :
Dividir dados usando expressões relativas: aplicar uma expressão a dados numéricos.
Dividir os conjuntos de valoresde recomendação: divida os conjuntos de os que são usados em modelos de recomendações. O conjunto de valores deve ter três colunas: itens, usuários e classificações
Usar uma expressão regular para dividir um conjunto de um DataSet
Adicione o módulo dividir dados ao seu experimento e conecte-o como entrada para o conjunto que você deseja dividir.
Para o Modo de divisão, selecione Dividir expressão regular.
Na caixa expressão regular , digite uma expressão regular válida. Alguns exemplos são fornecidos aqui.
A expressão regular é aplicada somente à coluna especificada, que deve ser um tipo de dados de cadeia de caracteres.
Para obter ajuda para compor expressões regulares, consulte a linguagem de expressão regular-referência rápida.
Execute o experimento ou clique com o botão direito do mouse no módulo e selecione executar selecionado.
Com base na expressão regular que você fornece, o conjunto de registros é dividido em dois conjuntos de linhas: linhas com valores que correspondem à expressão e todas as linhas restantes.
Exemplos
Os exemplos a seguir demonstram como dividir um conjunto de um DataSet usando a opção de expressão regular .
Palavra inteira única
Este exemplo coloca no primeiro conjunto de dados todas as linhas que contêm o texto Gryphon
na coluna Text
, e coloca outras linhas na segunda saída de Split data:
\"Text" Gryphon
Subcadeia de caracteres
Este exemplo procura a cadeia de caracteres especificada em qualquer posição dentro da segunda coluna do conjunto de valores, indicado aqui pelo valor de índice de 1. A correspondência diferencia maiúsculas e minúsculas.
(\1) ^[a-f]
O primeiro conjunto de dados resultantes contém todas as linhas nas quais a coluna de índice começa com um destes caracteres: a
, b
, c
, d
, e
, f
. Todas as outras linhas são direcionadas para a segunda saída.
Correspondência de cadeia de caracteres em endereços IP
Este exemplo divide alguns dados de log do servidor em duas categorias para análise: conexões por trás do firewall e conexões com endereços IP fora do firewall. A expressão regular é aplicada ao IP_Address
campo (um tipo de dados de cadeia de caracteres ).
(\IP_Address) ^[10]
A primeira saída contém todos os endereços que começam com 10
.