Databricks Runtime 5.4 per ML (EoS)
Nota
Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, vedere Versioni e compatibilità delle note sulla versione di Databricks Runtime.
Databricks ha rilasciato questa versione nel giugno 2019.
Databricks Runtime 5.4 per Machine Learning fornisce un ambiente immediatamente disponibile ottimizzato per l'esecuzione di processi di apprendimento automatico e data science basato su Databricks Runtime 5.4 (EoS). Databricks Runtime per Machine Learning contiene molte di queste librerie, tra cui TensorFlow, PyTorch, Keras e XGBoost. È inoltre supportato il training distribuito con Horovod.
Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Machine Learning di Databricks Runtime, vedere Intelligenza artificiale e Machine Learning in Databricks.
Nuove funzionalità
Databricks Runtime 5.4 ML è basato su Databricks Runtime 5.4. Per informazioni sulle novità di Databricks Runtime 5.4, vedere le note sulla versione di Databricks Runtime 5.4 (EoS).
Oltre agli aggiornamenti della libreria, Databricks Runtime 5.4 ML introduce le nuove funzionalità seguenti:
Hyperopt distribuito e monitoraggio automatizzato di MLflow
Databricks Runtime 5.4 ML introduce una nuova implementazione di Hyperopt basata su Apache Spark per ridimensionare e semplificare l'ottimizzazione degli iperparametri. Viene implementata una nuova Trials
classe SparkTrials
per distribuire le esecuzioni di valutazione di Hyperopt tra più computer e nodi usando Apache Spark. Inoltre, tutti gli esperimenti di ottimizzazione, insieme agli iperparametri ottimizzati e alle metriche di destinazione, vengono registrati automaticamente nelle esecuzioni MLflow. Vedere Parallelizzare l'ottimizzazione degli iperparametri Hyperopt.
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Apache Spark MLlib e Rilevamento automatizzato di MLflow
Databricks Runtime 5.4 ML supporta la registrazione automatica delle esecuzioni MLflow per i modelli adatti all'uso di algoritmi CrossValidator
di ottimizzazione PySpark e TrainValidationSplit
. Vedi Apache Spark MLlib e rilevamento automatizzato di MLflow. Questa funzionalità è attivata per impostazione predefinita in Databricks Runtime 5.4 ML, ma è disattivata per impostazione predefinita in Databricks Runtime 5.3 ML.
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Miglioramento di HorovodRunner
L'output inviato da Horovod al nodo driver Spark è ora visibile nelle celle del notebook.
Aggiornamento del pacchetto Python XGBoost
È installato il pacchetto XGBoost Python 0.80.
Ambiente di sistema
L'ambiente di sistema in Databricks Runtime 5.4 ML differisce da Databricks Runtime 5.4 come indicato di seguito:
- Python: 2.7.15 per cluster Python 2 e 3.6.5 per cluster Python 3.
- DBUtils: Databricks Runtime 5.4 ML non contiene l'utilità libreria (dbutils.library) (legacy).
- Per i cluster GPU, le librerie GPU NVIDIA seguenti:
- Driver Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Librerie
Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 5.4 ML diverse da quelle incluse in Databricks Runtime 5.4.
Librerie di livello superiore
Databricks Runtime 5.4 ML include le librerie di livello superiore seguenti:
Librerie Python
Databricks Runtime 5.4 ML usa Conda per la gestione dei pacchetti Python. Di conseguenza, esistono differenze principali nelle librerie Python installate rispetto a Databricks Runtime. Di seguito è riportato un elenco completo dei pacchetti e delle versioni Python forniti installati con Gestione pacchetti Conda.
Library | Versione | Library | Versione | Library | Versione |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
cryptography | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsig | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | future | 0.17.1 |
Ritardi | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | Horovod | 0.16.0 | html5lib | 1.0.1 |
Hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
keras-applications | 1.0.7 | keras-preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
nose | 1.3.7 | nose-exclude | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Pillow | 5.1.0 |
pip | 10.0.1 | filo | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | Psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
six | 1.11.0 | statsmodels | 0.9.0 | subprocesso32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | Torch | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | wheel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
I pacchetti Spark seguenti includono anche i moduli Python:
Pacchetti Spark | Modulo Python | Versione |
---|---|---|
GraphFrames | GraphFrames | 0.7.0-db1-spark2.4 |
Deep Learning Spark | sparkdl | 1.5.0-db3-spark2.4 |
tensorframe | tensorframe | 0.6.0-s_2.11 |
Librerie R
Le librerie R sono identiche alle librerie R in Databricks Runtime 5.4.
Librerie Java e Scala (cluster Scala 2.11)
Oltre alle librerie Java e Scala in Databricks Runtime 5.4, Databricks Runtime 5.4 ML contiene i file JAR seguenti:
ID gruppo | ID artefatto | Versione |
---|---|---|
com.databricks | Deep Learning Spark | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframe | 0.6.0-s_2.11 |