Otimização de hiperparâmetros
Bibliotecas Python como Optuna, Ray Tune e Hyperopt simplificam e automatizam o ajuste de hiperparâmetros para encontrar com eficiência um conjunto ideal de hiperparâmetros para modelos de aprendizado de máquina. Essas bibliotecas são dimensionadas em vários cálculos para encontrar rapidamente hiperparâmetros com requisitos mínimos de orquestração manual e configuração.
Optuna
O Optuna é uma estrutura leve que facilita a definição de um espaço de pesquisa dinâmico para ajuste de hiperparâmetros e seleção de modelos. O Optuna inclui alguns dos mais recentes algoritmos de otimização e aprendizagem automática.
O Optuna pode ser facilmente paralelizado com o Joblib para dimensionar cargas de trabalho e integrado ao Mlflow para rastrear hiperparâmetros e métricas em todas as avaliações.
Para começar a usar o Optuna, consulte Ajuste de hiperparâmetros com o Optuna.
Sintonia Ray
O Databricks Runtime ML inclui o Ray, uma estrutura de código aberto usada para processamento de computação paralela. Ray Tune é uma biblioteca de ajuste de hiperparâmetros que vem com o Ray e usa o Ray como backend para computação distribuída.
Para obter detalhes sobre como executar o Ray no Databricks, consulte O que é o Ray no Azure Databricks?. Para obter exemplos de Ray Tune, consulte a documentação do Ray Tune.
Hiperoptia
Nota
A versão de código aberto do Hyperopt não está mais sendo mantida.
O Hyperopt será removido na próxima versão principal do DBR ML. O Azure Databricks recomenda usar o Optuna para otimização de nó único ou o RayTune para uma experiência semelhante à funcionalidade de ajuste de hiperparâmetros distribuído do Hyperopt, que foi preterida. Saiba mais sobre como usar RayTune no Azure Databricks.
Hyperopt é uma biblioteca Python usada para ajuste de hiperparâmetros distribuídos e seleção de modelos. O Hyperopt funciona com ambos os algoritmos de ML distribuídos, como o Apache Spark MLlib e o Horovod, bem como com modelos de ML de máquina individual, como scikit-learn e TensorFlow.
Para começar a usar o Hyperopt, consulte Usar algoritmos de treinamento distribuído com o Hyperopt.
Rastreamento automatizado de MLlib MLflow
Nota
O rastreamento automatizado de MLflow MLlib é preterido e desabilitado por padrão em clusters que executam o Databricks Runtime 10.4 LTS ML e superior.
Em vez disso, use o registro automático MLflow PySpark ML chamando mlflow.pyspark.ml.autolog()
, que é habilitado por padrão com o Databricks Autologging.
Com o rastreamento MLflow automatizado MLlib, quando você executa o código de ajuste que usa CrossValidator ou TrainValidationSplit. Hiperparâmetros e métricas de avaliação são registrados automaticamente no MLflow.