Databricks Runtime 12.2 LTS para Aprendizado de Máquina
O Databricks Runtime 12.2 LTS for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 12.2 LTS. O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinar automaticamente pipelines de aprendizado de máquina. O Databricks Runtime ML também suporta treinamento distribuído de aprendizado profundo usando o Horovod.
Nota
LTS significa que esta versão está sob suporte a longo prazo. Consulte Ciclo de vida da versão do Databricks Runtime LTS.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Gorjeta
Para ver as notas de versão das versões do Databricks Runtime que atingiram o fim do suporte (EoS), consulte Notas de versão do End-of-support Databricks Runtime. As versões do EoS Databricks Runtime foram desativadas e podem não ser atualizadas.
Novos recursos e melhorias
O Databricks Runtime 12.2 LTS ML é construído sobre o Databricks Runtime 12.2 LTS. Para obter informações sobre o que há de novo no Databricks Runtime 12.2 LTS, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 12.2 LTS .
AutoML
Você pode usar tabelas de recursos existentes no Feature Store para aumentar o conjunto de dados de entrada original para problemas de previsão de AutoML. Para obter detalhes, consulte Integração do AutoML Feature Store.
Para obter mais informações sobre AutoML, consulte O que é AutoML?.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 12.2 LTS ML difere do Databricks Runtime 12.2 LTS da seguinte forma:
- DBUtils: Databricks Runtime ML não inclui o utilitário Biblioteca (dbutils.library) (legado).
Em vez disso, use
%pip
comandos. Veja Bibliotecas em Python com âmbito de bloco de notas. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11,3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
O Databricks Runtime 12.2 LTS ML inclui o XGBoost 1.7.2, que não suporta clusters de GPU com capacidade de computação 5.2 e inferior.
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 12.2 LTS ML que diferem daquelas incluídas no Databricks Runtime 12.2 LTS.
Nesta secção:
- Bibliotecas de nível superior
- Bibliotecas Python
- Bibliotecas R
- Bibliotecas Java e Scala (cluster Scala 2.12)
Bibliotecas de nível superior
O Databricks Runtime 12.2 LTS ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- conector spark-tensorflow;
- TensorFlow
- TensorBoard
- Scikit-learn
Bibliotecas Python
O Databricks Runtime 12.2 LTS ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 12.2 LTS ML também inclui os seguintes pacotes:
- hiperopt 0.2.7+db3
- Faísca 2.3.0-DB3
- AutoML 1.16.0 |
Para reproduzir o ambiente Python do Databricks Runtime ML em seu ambiente virtual Python local, baixe o arquivo requirements-12.2.txt e execute pip install -r requirements-12.2.txt
. Este comando instala todas as bibliotecas de código aberto que o Databricks Runtime ML usa, mas não instala bibliotecas desenvolvidas pelo Databricks, como databricks-automl
, databricks-feature-store
ou a bifurcação Databricks do hyperopt
.
Bibliotecas Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 1.0.0 | Argônio2-CFFI | 21.3.0 | argon2-cffi-ligações | 21.2.0 |
Astor | 0.8.1 | AstTokens | 2.0.5 | Astunparse | 1.6.3 |
ATRs | 21.4.0 | azure-core | 1.26.3 | Azure-Cosmos | 4.2.0 |
Backcall | 0.2.0 | backports.pontos de entrada-selecionáveis | 1.2.0 | Cripta | 3.2.0 |
sopa bonita4 | 4.11.1 | preto | 22.3.0 | lixívia | 4.1.0 |
Blis | 0.7.9 | boto3 | 1.21.32 | botocore | 1.24.32 |
Ferramentas de cache | 4.2.2 | catálogo | 2.0.8 | categoria-codificadores | 2.5.1.post0 |
certifi | 2021.10.8 | cffi | 1.15.0 | chardet | 4.0.0 |
Normalizador de Charset | 2.0.4 | clicar | 8.0.4 | Cloudpickle | 2.0.0 |
CMDSTANPY | 1.1.0 | Confeção | 0.0.4 | ConfigParser | 5.2.0 |
convertdate | 2.4.0 | criptografia | 3.4.8 | cycler | 0.11.0 |
cymem | 2.0.7 | Quisto | 0.29.28 | databricks-automl-runtime | 0.2.15 |
databricks-cli | 0.17.4 | databricks-feature-store | 0.10.0 | DBL-TEMPO | 0.1.12 |
dbus-python | 1.2.16 | depuração | 1.5.1 | decorador | 5.1.1 |
DeUsedXML | 0.7.1 | endro | 0.3.4 | cache de disco | 5.4.0 |
Distlib | 0.3.6 | docstring-para-markdown | 0,11 | pontos de entrada | 0.4 |
Ephem | 4.1.4 | execução | 0.8.3 | facetas-visão geral | 1.0.0 |
fastjsonschema | 2.16.2 | texto rápido | 0.9.2 | filelock | 3.6.0 |
Flask | 1.1.2 | flatbuffers | 23.1.21 | Fonttools | 4.25.0 |
FSspec | 2022.2.0 | Futuro | 0.18.2 | gast | 0.4.0 |
GitDB | 4.0.10 | GitPython | 3.1.27 | Google-Auth | 1.33.0 |
google-auth-oauthlib | 0.4.6 | google-massas | 0.2.0 | Grpcio | 1.42.0 |
Gunicorn | 20.1.0 | GVIZ-API | 1.10.0 | H5PY | 3.6.0 |
Hijri-Conversor | 2.2.4 | feriados | 0,18 | Horovod | 0.27.0 |
htmlmin | 0.1.12 | abraçar-face-hub | 0.12.0 | idna | 3.3 |
ImagemHash | 4.3.1 | aprendizagem desequilibrada | 0.10.1 | importlib-metadados | 4.11.3 |
Ipykernel | 6.15.3 | ipython | 8.5.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.7.2 | Isodato | 0.6.1 | é perigoso | 2.0.1 |
Jedi | 0.18.1 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
Joblib | 1.1.1 | Joblibspark | 0.5.1 | jsonschema | 4.4.0 |
jupyter-cliente | 6.1.12 | jupyter_core | 4.11.2 | Jupyterlab-Pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.11.0 | Kiwisolver | 1.3.2 |
Coreano-Lunar-Calendário | 0.3.1 | códigos de lang | 3.3.0 | libclang | 15.0.6.1 |
LightGBM | 3.3.4 | llvmlite | 0.38.0 | LunarCalendário | 0.0.9 |
Mako | 1.2.0 | Markdown | 3.3.4 | MarkupSafe | 2.0.1 |
matplotlib | 3.5.1 | matplotlib-em linha | 0.1.2 | Mccabe | 0.7.0 |
Mistune | 0.8.4 | PEAML | 0.20.0 | mlflow-magro | 2.1.1 |
multimétodo | 1.9.1 | Murmurhash | 1.0.9 | mypy-extensões | 0.4.3 |
nbclient | 0.5.13 | nbconvert | 6.4.4 | nbformat | 5.3.0 |
Ninho-Asyncio | 1.5.5 | redex | 2.7.1 | NLTK | 3.7 |
nodeenv | 1.7.0 | bloco de notas | 6.4.8 | numba | 0.55.1 |
numpy | 1.21.5 | OAuthlib | 3.2.0 | opt-einsum | 3.3.0 |
embalagem | 21,3 | pandas | 1.4.2 | criação de perfis de pandas | 3.6.2 |
PandocFilters | 1.5.0 | Paramiko | 2.9.2 | Parso | 0.8.3 |
PathSpec | 0.9.0 | Patia | 0.10.1 | patsy | 0.5.2 |
petastorm | 0.12.1 | pexpect | 4.8.0 | Phik | 0.12.3 |
pickleshare | 0.7.5 | Travesseiro | 9.0.1 | pip | 21.2.4 |
plataformadirs | 2.6.2 | enredo | 5.6.0 | pluggy | 1.0.0 |
PMDARIMA | 2.0.2 | Preshed | 3.0.8 | Prometheus-cliente | 0.13.1 |
prompt-toolkit | 3.0.20 | profeta | 1.1.1 | protobuf | 3.19.4 |
PSUTIL | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
puro-eval | 0.2.2 | pyarrow | 7.0.0 | pyasn1 | 0.4.8 |
pyasn1-módulos | 0.2.8 | Pybind11 | 2.10.3 | pycparser | 2.21 |
Pidântico | 1.10.2 | Pyflakes | 2.5.0 | Pygments | 2.11.2 |
PyGObject | 3.36.0 | PyJWT | 2.6.0 | PyMeeus | 0.5.12 |
PyNaCl | 1.5.0 | Pyodbc | 4.0.32 | pyparsing | 3.0.4 |
Pyright | 1.1.283 | pirsistent | 0.18.0 | python-dateutil | 2.8.2 |
python-editor | 1.0.4 | python-lsp-jsonrpc | 1.0.0 | python-lsp-servidor | 1.6.0 |
pytz | 2021.3 | PyWavelets | 1.3.0 | PyYAML | 6,0 |
Pyzmq | 22.3.0 | regex | 2022.3.15 | pedidos | 2.27.1 |
pedidos-oauthlib | 1.3.1 | pedidos-unixsocket | 0.2.0 | corda | 0.22.0 |
RSA | 4.7.2 | s3transferir | 0.5.0 | scikit-learn | 1.0.2 |
scipy | 1.7.3 | seaborn | 0.11.2 | Enviar2Lixo | 1.8.0 |
setuptools | 61.2.0 | setuptools-git | 1.2 | PASP | 0.41.0 |
simplejson | 3.17.6 | seis | 1.16.0 | segmentação de dados | 0.0.7 |
inteligente-aberto | 5.2.1 | smmap | 5.0.0 | Soupsieve | 2.3.1 |
espaçado | 3.4.4 | Spacy-legado | 3.0.12 | spacy-loggers | 1.0.4 |
spark-tensorflow-distributor | 1.0.0 | SQLPARSE | 0.4.2 | SRSLY | 2.4.5 |
ssh-import-id | 5.10 | dados de pilha | 0.2.0 | statsmodels | 0.13.2 |
tabular | 0.8.9 | emaranhado em unicode | 0.2.0 | tenacidade | 8.0.1 |
TensorBoard | 2.11.2 | Tensorboard-Data-Server | 0.6.1 | Tensorboard-plugin-profile | 2.11.1 |
Tensorboard-plugin-wit | 1.8.1 | TensorFlow-CPU | 2.11.0 | TensorFlow-Estimador | 2.11.0 |
TensorFlow-IO-GCS-FileSystem | 0.30.0 | Termcolor | 2.2.0 | terminado | 0.13.1 |
caminho de teste | 0.5.0 | fino | 8.1.7 | ThreadPoolCtl | 2.2.0 |
tokenize-rt | 4.2.1 | tokenizadores | 0.13.2 | Tomli | 1.2.2 |
tocha | 1.13.1+CPU | Torchvision | 0.14.1+CPU | tornado | 6.1 |
TQDM | 4.64.0 | traços | 5.1.1 | transformadores | 4.25.1 |
Protetor de Tipografia | 2.13.3 | datilógrafo | 0.7.0 | typing_extensions | 4.1.1 |
Ujson | 5.1.0 | Upgrades autônomos | 0.1 | urllib3 | 1.26.9 |
virtualenv | 20.8.0 | visões | 0.7.5 | Wasabi | 0.10.1 |
largura de wc | 0.2.5 | WebEncodings | 0.5.1 | Websocket-cliente | 0.58.0 |
Werkzeug | 2.0.3 | whatthepatch | 1.0.4 | roda | 0.37.1 |
widgetsnbextension | 3.6.1 | embrulhado | 1.12.1 | xgboost | 1.7.2 |
Yapf | 0.31.0 | zipp | | 3.7.0 |
Bibliotecas Python em clusters GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 1.0.0 | Argônio2-CFFI | 21.3.0 | argon2-cffi-ligações | 21.2.0 |
Astor | 0.8.1 | AstTokens | 2.0.5 | Astunparse | 1.6.3 |
ATRs | 21.4.0 | azure-core | 1.26.3 | Azure-Cosmos | 4.2.0 |
Backcall | 0.2.0 | backports.pontos de entrada-selecionáveis | 1.2.0 | Cripta | 3.2.0 |
sopa bonita4 | 4.11.1 | preto | 22.3.0 | lixívia | 4.1.0 |
Blis | 0.7.9 | boto3 | 1.21.32 | botocore | 1.24.32 |
Ferramentas de cache | 4.2.2 | catálogo | 2.0.8 | categoria-codificadores | 2.5.1.post0 |
certifi | 2021.10.8 | cffi | 1.15.0 | chardet | 4.0.0 |
Normalizador de Charset | 2.0.4 | clicar | 8.0.4 | Cloudpickle | 2.0.0 |
CMDSTANPY | 1.1.0 | Confeção | 0.0.4 | ConfigParser | 5.2.0 |
convertdate | 2.4.0 | criptografia | 3.4.8 | cycler | 0.11.0 |
cymem | 2.0.7 | Quisto | 0.29.28 | databricks-automl-runtime | 0.2.15 |
databricks-cli | 0.17.4 | databricks-feature-store | 0.10.0 | DBL-TEMPO | 0.1.12 |
dbus-python | 1.2.16 | depuração | 1.5.1 | decorador | 5.1.1 |
DeUsedXML | 0.7.1 | endro | 0.3.4 | cache de disco | 5.4.0 |
Distlib | 0.3.6 | docstring-para-markdown | 0,11 | pontos de entrada | 0.4 |
Ephem | 4.1.4 | execução | 0.8.3 | facetas-visão geral | 1.0.0 |
fastjsonschema | 2.16.2 | texto rápido | 0.9.2 | filelock | 3.6.0 |
Flask | 1.1.2 | flatbuffers | 23.1.21 | Fonttools | 4.25.0 |
FSspec | 2022.2.0 | Futuro | 0.18.2 | gast | 0.4.0 |
GitDB | 4.0.10 | GitPython | 3.1.27 | Google-Auth | 1.33.0 |
google-auth-oauthlib | 0.4.6 | google-massas | 0.2.0 | Grpcio | 1.42.0 |
Gunicorn | 20.1.0 | GVIZ-API | 1.10.0 | H5PY | 3.6.0 |
Hijri-Conversor | 2.2.4 | feriados | 0,18 | Horovod | 0.27.0 |
htmlmin | 0.1.12 | abraçar-face-hub | 0.12.0 | idna | 3.3 |
ImagemHash | 4.3.1 | aprendizagem desequilibrada | 0.10.1 | importlib-metadados | 4.11.3 |
Ipykernel | 6.15.3 | ipython | 8.5.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.7.2 | Isodato | 0.6.1 | é perigoso | 2.0.1 |
Jedi | 0.18.1 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
Joblib | 1.1.1 | Joblibspark | 0.5.1 | jsonschema | 4.4.0 |
jupyter-cliente | 6.1.12 | jupyter_core | 4.11.2 | Jupyterlab-Pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.11.0 | Kiwisolver | 1.3.2 |
Coreano-Lunar-Calendário | 0.3.1 | códigos de lang | 3.3.0 | libclang | 15.0.6.1 |
LightGBM | 3.3.4 | llvmlite | 0.38.0 | LunarCalendário | 0.0.9 |
Mako | 1.2.0 | Markdown | 3.3.4 | MarkupSafe | 2.0.1 |
matplotlib | 3.5.1 | matplotlib-em linha | 0.1.2 | Mccabe | 0.7.0 |
Mistune | 0.8.4 | PEAML | 0.20.0 | mlflow-magro | 2.1.1 |
multimétodo | 1.9.1 | Murmurhash | 1.0.9 | mypy-extensões | 0.4.3 |
nbclient | 0.5.13 | nbconvert | 6.4.4 | nbformat | 5.3.0 |
Ninho-Asyncio | 1.5.5 | redex | 2.7.1 | NLTK | 3.7 |
nodeenv | 1.7.0 | bloco de notas | 6.4.8 | numba | 0.55.1 |
numpy | 1.21.5 | OAuthlib | 3.2.0 | opt-einsum | 3.3.0 |
embalagem | 21,3 | pandas | 1.4.2 | criação de perfis de pandas | 3.6.2 |
PandocFilters | 1.5.0 | Paramiko | 2.9.2 | Parso | 0.8.3 |
PathSpec | 0.9.0 | Patia | 0.10.1 | patsy | 0.5.2 |
petastorm | 0.12.1 | pexpect | 4.8.0 | Phik | 0.12.3 |
pickleshare | 0.7.5 | Travesseiro | 9.0.1 | pip | 21.2.4 |
plataformadirs | 2.6.2 | enredo | 5.6.0 | pluggy | 1.0.0 |
PMDARIMA | 2.0.2 | Preshed | 3.0.8 | prompt-toolkit | 3.0.20 |
profeta | 1.1.1 | protobuf | 3.19.4 | PSUTIL | 5.8.0 |
psycopg2 | 2.9.3 | ptyprocess | 0.7.0 | puro-eval | 0.2.2 |
pyarrow | 7.0.0 | pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 |
Pybind11 | 2.10.3 | pycparser | 2.21 | Pidântico | 1.10.2 |
Pyflakes | 2.5.0 | Pygments | 2.11.2 | PyGObject | 3.36.0 |
PyJWT | 2.6.0 | PyMeeus | 0.5.12 | PyNaCl | 1.5.0 |
Pyodbc | 4.0.32 | pyparsing | 3.0.4 | Pyright | 1.1.283 |
pirsistent | 0.18.0 | python-dateutil | 2.8.2 | python-editor | 1.0.4 |
python-lsp-jsonrpc | 1.0.0 | python-lsp-servidor | 1.6.0 | pytz | 2021.3 |
PyWavelets | 1.3.0 | PyYAML | 6,0 | Pyzmq | 22.3.0 |
regex | 2022.3.15 | pedidos | 2.27.1 | pedidos-oauthlib | 1.3.1 |
pedidos-unixsocket | 0.2.0 | corda | 0.22.0 | RSA | 4.7.2 |
s3transferir | 0.5.0 | scikit-learn | 1.0.2 | scipy | 1.7.3 |
seaborn | 0.11.2 | Enviar2Lixo | 1.8.0 | setuptools | 61.2.0 |
setuptools-git | 1.2 | PASP | 0.41.0 | simplejson | 3.17.6 |
seis | 1.16.0 | segmentação de dados | 0.0.7 | inteligente-aberto | 5.2.1 |
smmap | 5.0.0 | Soupsieve | 2.3.1 | espaçado | 3.4.4 |
Spacy-legado | 3.0.12 | spacy-loggers | 1.0.4 | spark-tensorflow-distributor | 1.0.0 |
SQLPARSE | 0.4.2 | SRSLY | 2.4.5 | ssh-import-id | 5.10 |
dados de pilha | 0.2.0 | statsmodels | 0.13.2 | tabular | 0.8.9 |
emaranhado em unicode | 0.2.0 | tenacidade | 8.0.1 | TensorBoard | 2.11.2 |
Tensorboard-Data-Server | 0.6.1 | Tensorboard-plugin-profile | 2.11.1 | Tensorboard-plugin-wit | 1.8.1 |
TensorFlow | 2.11.0 | TensorFlow-Estimador | 2.11.0 | TensorFlow-IO-GCS-FileSystem | 0.30.0 |
Termcolor | 2.2.0 | terminado | 0.13.1 | caminho de teste | 0.5.0 |
fino | 8.1.7 | ThreadPoolCtl | 2.2.0 | tokenize-rt | 4.2.1 |
tokenizadores | 0.13.2 | Tomli | 1.2.2 | tocha | 1.13.1+CU117 |
Torchvision | 0.14.1+CU117 | tornado | 6.1 | TQDM | 4.64.0 |
traços | 5.1.1 | transformadores | 4.25.1 | Protetor de Tipografia | 2.13.3 |
datilógrafo | 0.7.0 | typing_extensions | 4.1.1 | Ujson | 5.1.0 |
Upgrades autônomos | 0.1 | urllib3 | 1.26.9 | virtualenv | 20.8.0 |
visões | 0.7.5 | Wasabi | 0.10.1 | largura de wc | 0.2.5 |
WebEncodings | 0.5.1 | Websocket-cliente | 0.58.0 | Werkzeug | 2.0.3 |
whatthepatch | 1.0.4 | roda | 0.37.1 | widgetsnbextension | 3.6.1 |
embrulhado | 1.12.1 | xgboost | 1.7.2 | Yapf | 0.31.0 |
zipp | | 3.7.0 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 12.2 LTS.
Bibliotecas Java e Scala (cluster Scala 2.12)
Além das bibliotecas Java e Scala no Databricks Runtime 12.2 LTS, o Databricks Runtime 12.2 LTS ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | V0.20.0-DB1 |
ml.dmlc | xgboost4j-spark_2,12 | 1.7.3 |
ml.dmlc | xgboost4j_2.12 | 1.7.3 |
org.graphframes | graphframes_2.12 | 0.8.2-DB1-Faísca3.2 |
org.mlflow | mlflow-cliente | 2.1.1 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters GPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | V0.20.0-DB1 |
ml.dmlc | xgboost4j-gpu_2,12 | 1.7.3 |
ml.dmlc | xgboost4j-faísca-gpu_2.12 | 1.7.3 |
org.graphframes | graphframes_2.12 | 0.8.2-DB1-Faísca3.2 |
org.mlflow | mlflow-cliente | 2.1.1 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |