Поделиться через


Databricks Runtime 5.2 ML

Databricks выпустила эту версию в январе 2019 года.

Databricks Runtime 5.2 ML предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 5.2 (EoS). Databricks Runtime для Машинного обучения содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Она также поддерживает распределенное обучение TensorFlow с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Новые возможности

В основе Databricks Runtime 5.2 ML лежит Databricks Runtime 5.2. Дополнительные сведения о новых возможностях Databricks Runtime 5.2 см. в заметках о выпуске Databricks Runtime 5.2 (EoS). Помимо обновлений библиотек, Databricks Runtime 5.2 ML включает следующие новые функции:

  • GraphFrames теперь поддерживает Pregel API (Python) с оптимизациями производительности Databricks.
  • HorovodRunner добавляет:
    • В кластере GPU процессы обучения сопоставляются с GPU, а не с рабочими узлами, что упрощает поддержку типов экземпляров с несколькими GPU. Эта встроенная поддержка позволяет распределять нагрузку по всем GPU на компьютере с несколькими GPU без добавления собственного кода.
    • HorovodRunner.run() теперь возвращает возвращаемое значение из первого процесса обучения.

Примечание.

Выпуски Databricks Runtime ML получают все сервисные обновления базового выпуска Databricks Runtime. Список всех обновлений обслуживания см. в разделе "Обновления обслуживания" для среды выполнения Databricks (архивировано).

Системная среда

Ниже описаны отличия системной среды в Databricks Runtime 5.2 ML от Databricks Runtime 5.2.

Библиотеки

В следующих разделах перечислены библиотеки, входящие в состав Databricks Runtime 5.2 ML и отличающиеся от тех, что входят в состав Databricks Runtime 5.2.

Библиотеки Python

Для управления пакетами Python Databricks Runtime 5.2 ML использует Conda. В результате существуют значительные различия в предустановленных библиотеках Python по сравнению с Databricks Runtime. Ниже приведен полный список пакетов и версий Python, установленных с помощью диспетчера пакетов Conda.

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.5 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
криптография 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0,14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 фьючерсы 3.2.0
gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.2 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 pyzmq 17.0.0 requests 2.18.4
s3transfer 0.1.13 scandir 1,7 scikit-learn 0.19.1
scipy 1.1.0 мореборн 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 six 1.11.0
statsmodels 0.9.0 subprocess32 3.5.3 tensorboard 1.12.2
tensorboardX 1.4 tensorflow 1.12.0 termcolor 1.1.0
testpath 0.3.1 torch 0.4.1 torchvision 0.2.1
tornado 5.0.2 traceback2 1.4.0 traitlets 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
wheel 0.31.1 wrapt 1.10.11 wsgiref 0.1.2

Кроме того, модули Python включены в следующие пакеты Spark:

Пакет Spark Модуль Python Версия
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 5.2.

Библиотеки Java и Scala (кластер Scala 2.11)

Помимо библиотек Java и Scala в Databricks Runtime 5.2, среда Databricks Runtime 5.2 ML также включает следующие пакеты JAR:

ИД группы Идентификатор артефакта Версия
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0,81
ml.dmlc xgboost4j-spark 0,81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11