Databricks Runtime 5.2 ML
Databricks выпустила эту версию в январе 2019 года.
Databricks Runtime 5.2 ML предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 5.2 (EoS). Databricks Runtime для Машинного обучения содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Она также поддерживает распределенное обучение TensorFlow с использованием Horovod.
Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.
Новые возможности
В основе Databricks Runtime 5.2 ML лежит Databricks Runtime 5.2. Дополнительные сведения о новых возможностях Databricks Runtime 5.2 см. в заметках о выпуске Databricks Runtime 5.2 (EoS). Помимо обновлений библиотек, Databricks Runtime 5.2 ML включает следующие новые функции:
- GraphFrames теперь поддерживает Pregel API (Python) с оптимизациями производительности Databricks.
- HorovodRunner добавляет:
- В кластере GPU процессы обучения сопоставляются с GPU, а не с рабочими узлами, что упрощает поддержку типов экземпляров с несколькими GPU. Эта встроенная поддержка позволяет распределять нагрузку по всем GPU на компьютере с несколькими GPU без добавления собственного кода.
HorovodRunner.run()
теперь возвращает возвращаемое значение из первого процесса обучения.
Примечание.
Выпуски Databricks Runtime ML получают все сервисные обновления базового выпуска Databricks Runtime. Список всех обновлений обслуживания см. в разделе "Обновления обслуживания" для среды выполнения Databricks (архивировано).
Системная среда
Ниже описаны отличия системной среды в Databricks Runtime 5.2 ML от Databricks Runtime 5.2.
- Python: 2.7.15 для кластеров Python 2 и 3.6.5 для кластеров Python 3.
- DBUtils: Databricks Runtime 5.2 ML не содержит служебной программы библиотеки (dbutils.library) (устаревшая версия).
- Для кластеров GPU следующие библиотеки GPU NVIDIA:
- Драйвер Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Библиотеки
В следующих разделах перечислены библиотеки, входящие в состав Databricks Runtime 5.2 ML и отличающиеся от тех, что входят в состав Databricks Runtime 5.2.
Библиотеки Python
Для управления пакетами Python Databricks Runtime 5.2 ML использует Conda. В результате существуют значительные различия в предустановленных библиотеках Python по сравнению с Databricks Runtime. Ниже приведен полный список пакетов и версий Python, установленных с помощью диспетчера пакетов Conda.
Библиотека | Версия | Библиотека | Версия | Библиотека | Версия |
---|---|---|---|---|---|
absl-py | 0.6.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.5 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
криптография | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0,14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | фьючерсы | 3.2.0 |
gast | 0.2.0 | grpcio | 1.12.1 | h5py | 2.8.0 |
horovod | 0.15.2 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2,10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-client | 5.2.3 | jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Applications | 1.0.6 | Keras-Preprocessing | 1.0.5 |
kiwisolver | 1.0.1 | linecache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Markdown | 3.0.1 | MarkupSafe | 1.0 |
matplotlib | 2.2.2 | mistune | 0.8.3 | mleap | 0.8.1 |
mock | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nose | 1.3.7 | nose-exclude | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.dirty | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | pandas | 0.23.0 | pandocfilters | 1.4.2 |
paramiko | 2.4.1 | pathlib2 | 2.3.2 | patsy | 0.5.0 |
pbr | 5.1.1 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Pillow | 5.1.0 | pip | 10.0.1 | ply | 3.11 |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.8.0 | pyasn1 | 0.4.4 |
pycparser | 2.18 | Pygments | 2.2.0 | PyNaCl | 1.3.0 |
pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 | PySocks | 1.6.8 |
Python | 2.7.15 | python-dateutil | 2.7.3 | pytz | 2018.4 |
PyYAML | 3.12 | pyzmq | 17.0.0 | requests | 2.18.4 |
s3transfer | 0.1.13 | scandir | 1,7 | scikit-learn | 0.19.1 |
scipy | 1.1.0 | мореборн | 0.8.1 | setuptools | 39.1.0 |
simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 | six | 1.11.0 |
statsmodels | 0.9.0 | subprocess32 | 3.5.3 | tensorboard | 1.12.2 |
tensorboardX | 1.4 | tensorflow | 1.12.0 | termcolor | 1.1.0 |
testpath | 0.3.1 | torch | 0.4.1 | torchvision | 0.2.1 |
tornado | 5.0.2 | traceback2 | 1.4.0 | traitlets | 4.3.2 |
unittest2 | 1.1.0 | urllib3 | 1.22 | virtualenv | 16.0.0 |
wcwidth | 0.1.7 | webencodings | 0.5.1 | Werkzeug | 0.14.1 |
wheel | 0.31.1 | wrapt | 1.10.11 | wsgiref | 0.1.2 |
Кроме того, модули Python включены в следующие пакеты Spark:
Пакет Spark | Модуль Python | Версия |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db1-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Библиотеки R
Библиотеки R идентичны библиотекам R в Databricks Runtime 5.2.
Библиотеки Java и Scala (кластер Scala 2.11)
Помимо библиотек Java и Scala в Databricks Runtime 5.2, среда Databricks Runtime 5.2 ML также включает следующие пакеты JAR:
ИД группы | Идентификатор артефакта | Версия |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db1-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-spark | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |