Partager via


Databricks Runtime 5.0 ML (EoS)

Remarque

La prise en charge de cette version databricks Runtime a pris fin. Pour connaître la date de fin de support, consultez l’historique de fin de support. Pour toutes les versions prises en charge de Databricks Runtime, consultez Notes de publication sur les versions et la compatibilité de Databricks Runtime.

Databricks a publié cette version en novembre 2018.

Databricks Runtime 5.0 ML fournit un environnement prêt à l’emploi pour le Machine Learning et la science des données. Il contient de nombreuses bibliothèques populaires, notamment TensorFlow, Keras et XGBoost. Il prend également en charge l’entraînement TensorFlow distribué avec Horovod.

Pour plus d’informations, y compris les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez IA et machine learning sur Databricks.

Nouvelles fonctionnalités

Databricks Runtime 5.0 ML est basé sur Databricks Runtime 5.0. Pour plus d’informations sur les nouveautés de Databricks Runtime 5.0, consultez les notes de publication sur Databricks Runtime 5.0 (EoS). Outre les nouvelles fonctionnalités de Databricks Runtime 5.0, Databricks Runtime 5.0 ML comprend les nouvelles fonctionnalités suivantes :

  • HorovodRunner pour l’exécution de travaux d’entraînement de Deep Learning distribué à l’aide de Horovod.
  • Prise en charge de Conda pour la gestion des packages.
  • Intégration de MLeap.
  • Intégration de GraphFrames.

Notes

Les versions de Databricks Runtime ML récupèrent toutes les mises à jour de maintenance de la version de base de Databricks Runtime. Pour obtenir la liste de toutes les mises à jour de maintenance, consultez Mises à jour de maintenance pour Databricks Runtime (archivées).

Environnement du système

La différence entre l’environnement système de Databricks Runtime 5.0 et celui de Databricks Runtime 5.0 ML est la suivante :

  • Python : 2.7.15 pour les clusters Python 2 et 3.6.5 pour les clusters Python 3.
  • Pour des clusters GPU, les bibliothèques GPU NVIDIA suivantes :
    • Pilote Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliothèques

Les différences entre les bibliothèques incluses dans Databricks Runtime 5.0 et celles incluses dans Databricks Runtime 5.0 ML sont listées dans cette section.

Bibliothèques Python

Databricks Runtime 5.0 ML utilise Conda pour la gestion des packages Python. Voici la liste complète des packages Python fournis et des versions installées à l’aide du gestionnaire de packages Conda.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.4 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
cryptography 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futures 3.2.0
gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.0 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3,12 pyzmq 17.0.0 requêtes 2.18.4
s3transfer 0.1.13 scandir 1.7 scikit-learn 0.19.1
scipy 1.1.0 seaborn 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 six 1.11.0
statsmodels 0.9.0 subprocess32 3.5.3 tensorboard 1.10.0
tensorflow 1.10.0 termcolor 1.1.0 testpath 0.3.1
tornado 5.0.2 traceback2 1.4.0 traitlets 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
wheel 0.31.1 wrapt 1.10.11 wsgiref 0.1.2

En outre, les packages Spark suivants incluent des modules Python :

Package Spark Module Python Version
tensorframes tensorframes 0.5.0-s_2.11
graphframes graphframes 0.6.0-db3-spark2.4
spark-deep-learning sparkdl 1.3.0-db2-spark2.4

Bibliothèques R

Les bibliothèques R sont identiques aux bibliothèques R sur Databricks Runtime 5.0.

Bibliothèques Java et Scala (cluster Scala 2.11)

En plus des bibliothèques Java et Scala de Databricks Runtime 5.0, Databricks Runtime 5.0 ML contient les fichiers JAR suivants :

ID de groupe ID d’artefact Version
com.databricks spark-deep-learning 1.3.0-db2-spark2.4
org.tensorframes tensorframes 0.5.0-s_2.11
org.graphframes graphframes_2.11 0.6.0-db3-spark2.4
org.tensorflow libtensorflow 1.10.0
org.tensorflow libtensorflow_jni 1.10.0
org.tensorflow spark-tensorflow-connector_2.11 1.10.0-spark2.4-001
org.tensorflow tensorflow 1.10.0
ml.dmlc xgboost4j 0.80
ml.dmlc xgboost4j-spark 0.80
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0-SNAPSHOT