Databricks Runtime 7.0(EoS)
참고 항목
이 Databricks Runtime 버전에 대한 지원이 종료되었습니다. 지원 종료 날짜는 지원 종료 기록을 참조하세요. 지원되는 모든 Databricks Runtime 버전은 Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.
Databricks는 2020년 6월에 이 버전을 릴리스했습니다.
다음 릴리스 정보는 Apache Spark 3.0에서 제공하는 Databricks Runtime 7.0에 대한 정보를 제공합니다.
새로운 기능
Databricks Runtime 7.0에는 다음과 같은 새로운 기능이 포함되어 있습니다.
Scala 2.12
Databricks Runtime 7.0은 Scala를 2.11.12에서 2.12.10으로 업그레이드합니다. Scala 2.12와 2.11 사이의 변경 목록은 Scala 2.12.0 릴리스 정보에 있습니다.
Databricks Runtime 6.4에서 릴리스된 자동 로더(공개 미리 보기)가 Databricks Runtime 7.0에서 개선되었습니다.
자동 로더는 ETL 동안 클라우드 Blob 저장소에 도착하는 새 데이터 파일을 증분 방식으로 처리하는 보다 효율적인 방법을 제공합니다. 이는 클라우드 디렉터리를 반복적으로 나열하고 본 파일을 추적하여 새 파일을 식별하는 파일 기반 구조적 스트리밍에 비해 개선되었으며 디렉터리가 커질수록 매우 비효율적일 수 있습니다. 또한 자동 로더는 파일 알림 기반 구조화된 스트리밍보다 더 편리하고 효과적입니다. 이렇게 하려면 클라우드에서 파일 알림 서비스를 수동으로 구성해야 하며 기존 파일을 백필할 수 없습니다. 자세한 내용은 자동 로더란?을 참조하세요.
Databricks Runtime 7.0에서는 자동 로더를 사용하기 위해 더 이상 사용자 지정 Databricks Runtime 이미지를 요청할 필요가 없습니다.
Idempotent 재시도를 사용하여 Delta Lake에 데이터를 로드할 수 있는
COPY INTO
(공개 미리 보기)가 Databricks Runtime 7.0에서 개선되었습니다.Databricks Runtime 6.4에서 공개 미리 보기로 릴리스된
COPY INTO
SQL 명령을 사용하면 idempotent 다시 시도를 통해 Delta Lake에 데이터를 로드할 수 있습니다. 현재 Delta Lake에 데이터를 로드하려면 Apache Spark DataFrame API를 사용해야 합니다. 로드 중 오류가 발생하면 이를 효과적으로 처리해야 합니다. 새로운COPY INTO
명령은 SQL에서 데이터를 로드하기 위한 친숙한 선언적 인터페이스를 제공합니다. 이 명령은 이전에 로드된 파일을 추적하고 실패할 경우 안전하게 다시 실행할 수 있습니다. 자세한 내용은 COPY INTO를 참조하세요.
향상된 기능
Azure Synapse(이전의 SQL Data Warehouse) 커넥터는
COPY
문을 지원합니다.COPY
의 주요 이점은 권한이 낮은 사용자가 Azure Synapse에 대한 엄격한CONTROL
권한이 없어도 Azure Synapse에 데이터를 쓸 수 있다는 것입니다.%matplotlib inline
매직 명령은 더 이상 Notebook 셀에 인라인으로 Matplolib 개체를 표시하는 데 필요하지 않습니다. 기본적으로 항상 인라인으로 표시됩니다.Matplolib 그림이 이제
transparent=False
로 렌더링되므로 사용자 지정 배경이 손실되지 않습니다. 이 동작은 Spark 구성spark.databricks.workspace.matplotlib.transparent true
를 설정하여 재정의할 수 있습니다.높은 동시성 모드 클러스터에서 구조적 스트리밍 프로덕션 작업을 실행할 때 이전에 실행 중인 작업이 제대로 종료되지 않았기 때문에 작업 다시 시작이 경우에 따라 실패했습니다. Databricks Runtime 6.3에는 이전 실행이 중지되도록 클러스터에서 SQL 구성
spark.sql.streaming.stopActiveRunOnRestart true
를 설정하는 기능이 도입되었습니다. 이 구성은 Databricks Runtime 7.0에서 기본적으로 설정됩니다.
주요 라이브러리 변경 내용
Python 패키지
업그레이드된 주요 Python 패키지:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
제거된 Python 패키지:
- boto(boto3 사용)
- pycurl
참고 항목
Databricks Runtime 7.0의 Python 환경은 설치된 Ubuntu 시스템 Python과 다른 Python 3.7을 사용합니다. /usr/bin/python
및 /usr/bin/python2
는 Python 2.7에 연결되고 /usr/bin/python3
은 Python 3.6에 연결됩니다.
R 패키지
추가된 R 패키지:
- broom
- highr
- isoband
- knitr
- markdown
- modelr
- reprex
- rmarkdown
- rvest
- selectr
- tidyverse
- tinytex
- xfun
제거된 R 패키지:
- abind
- bitops
- 차량
- carData
- doMC
- gbm
- h2o
- littler
- lme4
- mapproj
- 맵
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- rio
- sp
- SparseM
- statmod
- zip
Java와 Scala 라이브러리
- Hive 사용자 정의 함수 및 Hive SerDes를 처리하는 데 사용되는 Apache Hive 버전이 2.3으로 업그레이드되었습니다.
- 이전에는 Azure Storage 및 Key Vault jar가 Databricks Runtime의 일부로 패키지되었으므로 클러스터에 연결된 해당 라이브러리의 다른 버전을 사용할 수 없습니다.
com.microsoft.azure.storage
및com.microsoft.azure.keyvault
아래의 클래스는 더 이상 Databricks Runtime의 클래스 경로에 없습니다. 이러한 클래스 경로 중 하나에 의존하는 경우 이제 Azure Storage SDK 또는 Azure Key Vault SDK를 클러스터에 연결해야 합니다.
동작 변경
이 섹션에서는 Databricks Runtime 6.6에서 Databricks Runtime 7.0으로의 동작 변경 내용을 나열합니다. 낮은 Databricks Runtime 릴리스에서 Databricks Runtime 7.0 이상으로 워크로드를 마이그레이션할 때 이러한 점을 알고 있어야 합니다.
Spark 동작 변경 내용
Databricks Runtime 7.0은 Spark 3.0에서 빌드된 첫 번째 Databricks Runtime이므로 Spark 2.4에서 빌드된 Databricks Runtime 5.5 LTS 또는 6.x에서 워크로드를 마이그레이션할 때 알아야 할 변경 내용이 많이 있습니다. 이러한 변경 내용은 이 릴리스 정보 문서의 Apache Spark 섹션에 있는 각 기능 영역의 "동작 변경 내용" 섹션에 나열되어 있습니다.
기타 동작 변경
Scala 2.12로의 업그레이드에 포함된 변경 내용은 다음과 같습니다.
패키지 셀 직렬화가 다르게 처리됩니다. 다음 예제에서는 동작 변경과 이를 처리하는 방법을 보여 줍니다.
다음 패키지 셀에서 정의한 대로
foo.bar.MyObjectInPackageCell.run()
을 실행하면java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
오류가 트리거됩니다.package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
이 오류를 해결하기 위해
MyObjectInPackageCell
을 직렬화 가능한 클래스 내에서 래핑할 수 있습니다.DataStreamWriter.foreachBatch
를 사용하는 특정 경우에는 소스 코드 업데이트가 필요합니다. 이 변경은 Scala 2.12에 람다 식에서 SAM 형식으로의 자동 변환이 있고 모호성을 유발할 수 있기 때문입니다.예를 들어 다음 Scala 코드는 컴파일할 수 없습니다.
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
컴파일 오류를 수정하려면
foreachBatch { (df, id) => myFunc(df, id) }
를foreachBatch(myFunc _)
로 변경하거나 Java API를 명시적으로 사용합니다(foreachBatch(new VoidFunction2 ...)
).
Hive 사용자 정의 함수 및 Hive SerDe를 처리하는 데 사용되는 Apache Hive 버전이 2.3으로 업그레이드되었으므로 두 가지 변경이 필요합니다.
- Hive의
SerDe
인터페이스가AbstractSerDe
추상 클래스로 바뀌었습니다. 사용자 지정 HiveSerDe
구현의 경우AbstractSerDe
로 마이그레이션해야 합니다. spark.sql.hive.metastore.jars
를builtin
으로 설정하면 Hive 2.3 메타스토어 클라이언트가 Databricks Runtime 7.0용 메타스토어에 액세스하는 데 사용됩니다. Hive 1.2 기반 외부 메타스토어에 액세스해야 하는 경우spark.sql.hive.metastore.jars
를 Hive 1.2 jar가 포함된 폴더로 설정합니다.
- Hive의
사용 중단 및 제거
- 데이터 건너뛰기 인덱스는 Databricks Runtime 4.3에서 더 이상 사용되지 않으며 Databricks Runtime 7.0에서 제거되었습니다. 대신 향상된 데이터 건너뛰기 기능을 제공하는 델타 테이블을 사용하는 것이 좋습니다.
- Databricks Runtime 7.0에서 Apache Spark의 기본 버전은 Scala 2.12를 사용합니다. Scala 2.11에 대해 컴파일된 라이브러리는 예기치 않은 방식으로 Databricks Runtime 7.0 클러스터를 사용하지 않도록 설정할 수 있으므로 Databricks Runtime 7.0 이상을 실행하는 클러스터는 모든 클러스터에 설치되도록 구성된 라이브러리를 설치하지 않습니다. 클러스터 라이브러리 탭에는 상태
Skipped
와 라이브러리 처리 변경 내용을 설명하는 사용 중단 메시지가 표시됩니다. 그러나 Azure Databricks 플랫폼 버전 3.20이 작업 영역에 릴리스되기 전 이전 버전의 Databricks Runtime에서 만들어진 클러스터가 있고 이제 Databricks Runtime 7.0을 사용하도록 해당 클러스터를 편집하는 경우, 모든 클러스터에 설치되도록 구성되어 있으면 해당 클러스터에 설치됩니다. 이 경우 설치된 라이브러리의 호환되지 않는 JAR로 인해 클러스터가 사용하지 않도록 설정될 수 있습니다. 해결 방법은 클러스터를 복제하거나 새 클러스터를 만드는 것입니다.
Apache Spark
Databricks Runtime 7.0에는 Apache Spark 3.0이 포함되어 있습니다.
이 구역의 내용:
Core, Spark SQL, 구조적 스트리밍
중요 사항
- (Project Hydrogen) 가속기 인식 스케줄러(SPARK-24615)
- 적응형 쿼리 실행(SPARK-31412)
- 동적 파티션 정리(SPARK-11150)
- 형식 힌트가 포함된 재설계된 pandas UDF API(SPARK-28264)
- 구조화된 스트리밍 UI(SPARK-29543)
- 카탈로그 플러그 인 API(SPARK-31121)
- 더 나은 ANSI SQL 호환성
성능 향상
- 적응 쿼리 실행(SPARK-31412)
- 기본 프레임워크(SPARK-23128)
- 사후 순서 섞기 파티션 번호 조정(SPARK-28177)
- 동적 하위 쿼리 재사용(SPARK-28753)
- 로컬 순서 섞기 판독기(SPARK-28560)
- 기울이기 조인 최적화(SPARK-29544)
- 연속 순서 섞기 블록 읽기 최적화(SPARK-9853)
- 동적 파티션 정리(SPARK-11150)
- 기타 최적화 프로그램 규칙
- 규칙 ReuseSubquery(SPARK-27279)
- 규칙 PushDownLeftSemiAntiJoin(SPARK-19712)
- 규칙 PushLeftSemiLeftAntiThroughJoin(SPARK-19712)
- 규칙 ReplaceNullWithFalse(SPARK-25860)
- 규칙 조인/집계의 하위 쿼리에서 제한 없이 정렬 제거(SPARK-29343).
- 규칙 PruneHiveTablePartitions(SPARK-15616)
- 생성에서 불필요한 중첩 필드 정리(SPARK-27707)
- 규칙 RewriteNonCorrelatedExists(SPARK-29800)
- 테이블 캐시 동기화 비용 최소화(SPARK-26917), (SPARK-26617), (SPARK-26548)
- 집계 코드를 작은 함수로 분할(SPARK-21870)
- INSERT 및 ALTER TABLE ADD PARTITION 명령에 일괄 처리 추가(SPARK-29938)
확장성 향상
- 카탈로그 플러그 인 API(SPARK-31121)
- 데이터 원본 V2 API 리팩터링(SPARK-25390)
- Hive 3.0 및 3.1 메타스토어 지원(SPARK-27970),(SPARK-24360)
- Spark 플러그 인 인터페이스를 드라이버로 확장(SPARK-29396)
- 실행기 플러그 인을 사용하여 사용자 정의 메트릭으로 Spark 메트릭 시스템 확장(SPARK-28091)
- 확장된 열 형식 처리 지원을 위한 개발자 API(SPARK-27396)
- DSV2를 사용한 기본 제공 원본 마이그레이션: parquet, ORC, CSV, JSON, Kafka, Text, Avro(SPARK-27589)
- SparkExtensions에서 FunctionInjection 허용(SPARK-25560)
- 집계를 UDAF로 등록 허용(SPARK-27296).
커넥터 개선 사항
- 비결정적 식을 통한 열 정리(SPARK-29768)
- 데이터 원본 테이블에서
spark.sql.statistics.fallBackToHdfs
지원(SPARK-25474) - 파일 원본에서 하위 쿼리 필터로 파티션 정리 허용(SPARK-26893)
- 데이터 원본 필터에서 하위 쿼리 푸시다운 방지(SPARK-25482)
- 파일 원본에서 재귀 데이터 로드(SPARK-27990)
- Parquet/ORC
- 분리 조건자 푸시다운(SPARK-27699)
- 중첩 열 정리 일반화(SPARK-25603) 및 기본적으로 켜져 있음(SPARK-29805)
- Parquet만
- 중첩 필드에 대한 Parquet 조건자 푸시다운(SPARK-17636)
- ORC만
- ORC에 대한 병합 스키마 지원(SPARK-11412)
- ORC용 중첩 스키마 정리(SPARK-27034)
- ORC에 대한 조건자 변환 복잡성 감소(SPARK-27105, SPARK-28108)
- Apache ORC를 1.5.9로 업그레이드(SPARK-30695)
- CSV
- CSV 데이터 원본에서 필터 푸시다운 지원(SPARK-30323)
- Hive SerDe
- 네이티브 데이터 원본을 사용하여 Hive serde 테이블을 읽을 때 스키마 유추 없음(SPARK-27119)
- Hive CTAS 명령은 변환 가능한 데이터 원본을 사용해야 함(SPARK-25271)
- 네이티브 데이터 원본을 사용하여 분할된 Hive 테이블 삽입 최적화(SPARK-28573)
- Apache Kafka
- Kafka 헤더 지원 추가(SPARK-23539)
- Kafka 위임 토큰 지원 추가(SPARK-25501)
- Kafka 원본에 새로운 옵션 도입: 타임스탬프로 오프셋(시작/종료)(SPARK-26848)
- Kafka 일괄 처리 원본 및 스트리밍 원본 v1에서
minPartitions
옵션 지원(SPARK-30656) - Kafka를 2.4.1로 업그레이드(SPARK-31126)
- 새 기본 제공 데이터 원본
- 새로운 기본 제공 이진 파일 데이터 원본(SPARK-25348)
- 새로운 no-op 일괄 처리 데이터 원본(SPARK-26550) 및 no-op 스트리밍 싱크(SPARK-26649)
향상된 기능
- [Hydrogen] 가속기 인식 스케줄러(SPARK-24615)
- 전체 조인 힌트 집합 소개(SPARK-27225)
- SQL 쿼리에 대한
PARTITION BY
힌트 추가(SPARK-28746) - Thrift 서버의 메타데이터 처리(SPARK-28426)
- scala API에 고차 함수 추가(SPARK-27297)
- 장벽 작업 컨텍스트에서 단순 모두 수집 지원(SPARK-30667)
- Hive UDF에서 UDT 형식 지원(SPARK-28158)
- Catalyst에서 DELETE/UPDATE/MERGE 연산자 지원(SPARK-28351, SPARK-28892, SPARK-28893)
- DataFrame.tail 구현(SPARK-30185)
- 새로운 기본 제공 함수
- sinh, cosh, tanh, asinh, acosh, atanh(SPARK-28133)
- any, every, some(SPARK-19851)
- bit_and, bit_or(SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if(SPARK-27425)
- date_part (SPARK-28690)
- extract(SPARK-23903)
- forall(SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by(SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys(SPARK-23939)
- transform_values(SPARK-23940)
- typeof(SPARK-29961)
- version(SPARK-29554)
- xxhash64 (SPARK-27099)
- 기존 기본 제공 함수의 향상된 기능
- 기본 제공 날짜-시간 함수/작업 개선(SPARK-31415)
from_json
에 대한FAILFAST
모드 지원(SPARK-25243)array_sort
가 새 비교기 매개 변수 추가(SPARK-29020)- 필터는 이제 요소와 함께 인덱스를 사용할 수 있음(SPARK-28962).
SQL 호환성 향상
- 그레고리력으로 전환(SPARK-26651)
- Spark의 자체 날짜/시간 패턴 정의 빌드(SPARK-31408)
- 테이블 삽입을 위한 ANSI 저장소 할당 정책 도입(SPARK-28495)
- 기본적으로 테이블 삽입에서 ANSI 저장소 할당 규칙 수행(SPARK-28885).
- SQLConf
spark.sql.ansi.enabled
추가(SPARK-28989) - 집계 식에 대한 ANSI SQL 필터 절 지원(SPARK-27986)
- ANSI SQL
OVERLAY
함수 지원(SPARK-28077) - ANSI 중첩 괄호 주석 지원(SPARK-28880)
- 정수에 대한 오버플로에 예외 throw(SPARK-26218)
- 간격 산술 연산에 대한 오버플로 검사(SPARK-30341)
- 잘못된 문자열이 숫자 형식으로 캐스팅되면 예외 throw(SPARK-30292)
- 간격 곱하기 및 나누기의 오버플로 동작이 다른 작업과 일치하도록 함(SPARK-30919).
- char 및 decimal에 대한 ANSI 형식 별칭 추가(SPARK-29941)
- SQL 파서는 ANSI 호환 예약 키워드를 정의함(SPARK-26215)
- ANSI 모드가 켜져 있을 때 예약어를 식별자로 사용 금지(SPARK-26976)
- ANSI SQL
LIKE ... ESCAPE
구문 지원(SPARK-28083) - ANSI SQL Boolean-Predicate 구문 지원(SPARK-27924)
- 상호 관련된 하위 쿼리 처리 지원 향상(SPARK-18455)
모니터링 및 디버그 가능성 향상
- 새로운 구조적 스트리밍 UI(SPARK-29543)
- SHS: 실행 중인 스트리밍 앱에 대한 이벤트 로그가 롤오버되도록 허용(SPARK-28594)
- 사용자가 일괄 처리 및 스트리밍 쿼리에서 임의의 메트릭을 정의하고 관찰할 수 있는 API 추가(SPARK-29345)
- 쿼리별 계획 시간 추적을 위한 계측(SPARK-26129)
- SQL 교환 연산자에 기본 순서 섞기 메트릭 넣기(SPARK-26139).
- SQL 문이 callsite 대신 SQL 탭에 표시됨(SPARK-27045)
- SparkUI에 도구 설명 추가(SPARK-29449)
- 기록 서버의 동시 성능 향상(SPARK-29043)
EXPLAIN FORMATTED
명령(SPARK-27395)- 잘린 계획 및 생성 코드를 파일로 덤핑 지원(SPARK-26023)
- 쿼리 출력을 설명하는 설명 프레임워크 향상(SPARK-26982)
SHOW VIEWS
명령 추가(SPARK-31113)- SQL 파서의 오류 메시지 개선(SPARK-27901)
- 기본적으로 Prometheus 모니터링 지원(SPARK-29429)
PySpark 개선 사항
- 형식 힌트가 있는 재설계된 pandas UDF(SPARK-28264)
- Pandas UDF 파이프라인(SPARK-26412)
- StructType을 Scalar Pandas UDF에 대한 인수 및 반환 형식으로 지원(SPARK-27240)
- Pandas UDF를 통한 데이터 프레임 공동 그룹 지원(SPARK-27463)
- DataFrames의 반복기를 허용하려면
mapInPandas
추가(SPARK-28198) - 특정 SQL 함수는 열 이름도 사용해야 함(SPARK-26979)
- PySpark SQL 예외를 Python 형식으로 만들기(SPARK-31849)
설명서 및 테스트 적용 범위 향상
- SQL 참조 빌드(SPARK-28588)
- WebUI용 사용자 가이드 빌드(SPARK-28372)
- SQL 구성 설명서용 페이지 빌드(SPARK-30510)
- Spark 구성에 대한 버전 정보 추가(SPARK-30839)
- PostgreSQL의 포트 회귀 테스트(SPARK-27763)
- Thrift 서버 테스트 적용 범위(SPARK-28608)
- UDF의 테스트 적용 범위(python UDF, pandas UDF, scala UDF)(SPARK-27921)
기타 주목할 만한 변경 내용
- 1.2.1에서 2.3.6으로 기본 제공 Hive 실행 업그레이드(SPARK-23710, SPARK-28723, SPARK-31381)
- 기본적으로 Apache Hive 2.3 종속성 사용(SPARK-30034)
- GA Scala 2.12 및 2.11 제거(SPARK-26132)
- 동적 할당에서 실행기 시간 초과에 대한 논리 개선(SPARK-20286)
- 순서 섞기 서비스에서 제공하고 동적 할당에 대해 무시되는 디스크 지속형 RDD 블록(SPARK-27677)
- 차단 목록으로 인한 중단을 방지하기 위해 새 실행기 확보(SPARK-22148)
- Netty의 메모리 풀 할당자 공유 허용(SPARK-24920)
TaskMemoryManager
와UnsafeExternalSorter$SpillableIterator
사이의 교착 상태 수정(SPARK-27338)- StructuredStreaming용
AdmissionControl
API 도입(SPARK-30669) - Spark 기록 기본 페이지 성능 개선(SPARK-25973)
- SQL 수신기의 메트릭 집계 속도 향상 및 축소(SPARK-29562)
- 동일한 호스트에서 순서 섞기 블록을 가져올 때 네트워크 방지(SPARK-27651)
DistributedFileSystem
에 대한 파일 목록 개선(SPARK-27801)
Spark core, Spark SQL 및 구조적 스트리밍에 대한 동작 변경 내용
다음 마이그레이션 가이드는 Apache Spark 2.4와 3.0 간의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.
- 마이그레이션 가이드: Spark Core
- 마이그레이션 가이드: SQL, 데이터 집합 및 DataFrame
- 마이그레이션 가이드: 구조화된 스트리밍
- 마이그레이션 가이드: PySpark(Python on Spark)
다음 동작 변경 내용은 이 마이그레이션 가이드에서 다루지 않습니다.
- Spark 3.0에서는 더 이상 사용되지 않는 클래스
org.apache.spark.sql.streaming.ProcessingTime
이 제거되었습니다. 대신org.apache.spark.sql.streaming.Trigger.ProcessingTime
를 사용하세요. 마찬가지로org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
가Trigger.Continuous
를 위해 제거되고org.apache.spark.sql.execution.streaming.OneTimeTrigger
가Trigger.Once
를 위해 숨겨졌습니다. (SPARK-28199) - Databricks Runtime 7.0에서 Hive SerDe 테이블을 읽을 때 기본적으로 Spark는 테이블 파티션이 아닌 하위 디렉터리에 있는 파일 읽기를 허용하지 않습니다. 사용하도록 설정하려면
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
구성을true
로 설정합니다. 이렇게 하면 Spark 네이티브 테이블 판독기 및 파일 판독기에 영향을 주지 않습니다.
MLlib
중요 사항
- 이진 변환기(SPARK-23578), StringIndexer(SPARK-11215), StopWordsRemover(SPARK-29808) 및 PySpark QuantileDiscretizer(SPARK-22796)에 여러 열 지원이 추가됨
- 트리 기반 기능 변환 지원(SPARK-13677)
- 두 개의 새로운 평가자 MultilabelClassificationEvaluator(SPARK-16692) 및 RankingEvaluator(SPARK-28045)가 추가됨
- 샘플 가중치 지원이 DecisionTreeClassifier/Regressor(SPARK-19591), RandomForestClassifier/Regressor(SPARK-9478), GBTClassifier/Regressor(SPARK-9612), RegressionEvaluator(SPARK-24102), BinaryClassificationEvaluator(SPARK-24103), BisectingKMeans(SPARK-30351), KMeans(SPARK-29967) 및 GaussianMixture(SPARK-30102)에 추가됨
- PowerIterationClustering용 R API가 추가됨(SPARK-19827)
- ML 파이프라인 상태를 추적하기 위한 Spark ML 수신기가 추가됨(SPARK-23674)
- Python의 그라데이션 강화 트리에 유효성 검사 집합이 있는 맞춤이 추가됨(SPARK-24333).
- RobustScaler 변환기가 추가되었습니다(SPARK-28399)
- Factorization Machines 분류자 및 회귀기가 추가되었습니다(SPARK-29224)
- Gaussian Naive Bayes(SPARK-16872) 및 Complement Naive Bayes(SPARK-29942)가 추가됨
- Scala와 Python 간의 ML 함수 패리티(SPARK-28958)
- predictRaw는 모든 분류 모델에서 공개됨 predictProbability는 LinearSVCModel(SPARK-30358)을 제외한 모든 분류 모델에서 공개됨
MLlib의 동작 변경 내용
다음 마이그레이션 가이드는 Apache Spark 2.4와 3.0 간의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.
다음 동작 변경 내용은 마이그레이션 가이드에서 다루지 않습니다.
- Spark 3.0에서 Pyspark의 다중 클래스 로지스틱 회귀는 이제(정확하게)
BinaryLogisticRegressionSummary
하위 클래스가 아니라LogisticRegressionSummary
를 반환합니다. 어쨌든 이 경우에는BinaryLogisticRegressionSummary
에서 공개한 추가 메서드가 작동하지 않습니다. (SPARK-31681) - Spark 3.0에서
pyspark.ml.param.shared.Has*
mixin은 더 이상set*(self, value)
setter 메서드를 제공하지 않으며 대신 해당self.set(self.*, value)
을 사용합니다. 자세한 내용은 SPARK-29093을 참조하세요. (SPARK-29093)
SparkR
- SparkR의 상호 운용성에서 화살표 최적화(SPARK-26759)
- 벡터화된 R gapply(), dapply(), createDataFrame, collect()를 통한 성능 향상
- R 셸, IDE에 대한 "즉시 실행"(SPARK-24572)
- Power Iteration Clustering용 R API(SPARK-19827)
SparkR의 동작 변경 내용
다음 마이그레이션 가이드는 Apache Spark 2.4와 3.0 간의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.
사용 중단
- Python 2 지원 중단(SPARK-27884)
- R < 3.4 지원 중단(SPARK-26014)
알려진 문제
- 연도 필드가 누락된 경우 'D' 패턴 문자를 사용하여 연도의 일을 구문 분석하면 잘못된 결과가 반환됩니다. 이는 패턴 문자열을 사용하여 날짜/시간 문자열을 날짜/시간 값으로 구문 분석하는
to_timestamp
와 같은 SQL 함수에서 발생할 수 있습니다. (SPARK-31939) - 키의 값이 -0.0 및 0.0인 경우 하위 쿼리 내의 조인/window/집계에서 잘못된 결과가 발생할 수 있습니다. (SPARK-31958)
- window 쿼리가 모호한 자체 조인 오류와 함께 예기치 않게 실패할 수 있습니다. (SPARK-31956)
dropDuplicates
연산자를 사용하는 스트리밍 쿼리는 Spark 2.x에서 작성한 검사점에서 다시 시작하지 못할 수 있습니다. (SPARK-31990)
유지 관리 업데이트
Databricks Runtime 7.0 유지 관리 업데이트를 참조하세요.
시스템 환경
- 운영 체제: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R 버전 3.6.3(2020-02-29)
- Delta Lake 0.7.0
설치된 Python 라이브러리
라이브러리 | 버전 | 라이브러리 | 버전 | 라이브러리 | 버전 |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | 암호화 | 2.8 | cycler | 0.10.0 |
Cython | 0.29.15 | decorator | 4.4.1 | docutils | 0.15.2 |
entrypoints | 0.3 | idna | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0.14.1 |
jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client | 5.3.4 |
jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | pandas | 1.0.1 | parso | 0.5.2 |
patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
pip | 20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
requests | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
6 | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traitlets | 4.3.3 | unattended-upgrades | 0.1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
wheel | 0.34.2 |
설치된 R 라이브러리
R 라이브러리는 Microsoft CRAN(2020-04-22 스냅샷)에서 설치됩니다.
라이브러리 | 버전 | 라이브러리 | 버전 | 라이브러리 | 버전 |
---|---|---|---|---|---|
askpass | 1.1 | assertthat | 0.2.1 | backports | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bit | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
boot | 1.3-25 | brew | 1.0-6 | broom | 0.5.6 |
callr | 3.4.3 | 캐럿 | 6.0-86 | cellranger | 1.1.0 |
chron | 2.3-55 | class | 7.3-17 | cli | 2.0.2 |
clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
colorspace | 1.4-1 | commonmark | 1.7 | compiler | 3.6.3 |
config | 0.3 | covr | 3.5.0 | crayon | 1.3.4 |
crosstalk | 1.1.0.1 | curl | 4.3 | data.table | 1.12.8 |
datasets | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
desc | 1.2.0 | devtools | 2.3.0 | digest | 0.6.25 |
dplyr | 0.8.5 | DT | 0.13 | 줄임표 | 0.3.0 |
evaluate | 0.14 | fansi | 0.4.1 | farver | 2.0.3 |
fastmap | 1.0.1 | forcats | 0.5.0 | foreach | 1.5.0 |
foreign | 0.8-76 | forge | 0.2.0 | fs | 1.4.1 |
제네릭(generics) | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | globals | 0.12.5 |
glue | 1.4.0 | gower | 0.2.1 | graphics | 3.6.3 |
grDevices | 3.6.3 | grid | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0.7 | gtable | 0.3.0 | haven | 2.2.0 |
highr | 0.8 | hms | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | isoband | 0.2.1 | iterators | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
labeling | 0.3 | later | 1.0.0 | lattice | 0.20-41 |
lava | 1.6.7 | lazyeval | 0.2.2 | 주기 | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1.5 | markdown | 1.1 |
MASS | 7.3-51.6 | 행렬 | 1.2-18 | memoise | 1.1.0 |
메서드 | 3.6.3 | mgcv | 1.8-31 | mime | 0.9 |
ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | parallel | 3.6.3 | pillar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | praise | 1.0.0 |
prettyunits | 1.1.1 | pROC | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | 진행률 | 1.2.2 | promises | 1.1.0 |
proto | 1.0.0 | ps | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
recipes | 0.1.10 | rematch | 1.0.1 | rematch2 | 2.1.1 |
remotes | 2.1.1 | reprex | 0.3.0 | reshape2 | 1.4.4 |
rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0.11 | rversions | 2.0.1 |
rvest | 0.3.5 | scales | 1.1.0 | selectr | 0.4-2 |
sessioninfo | 1.1.1 | shape | 1.4.4 | shiny | 1.4.0.2 |
sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
spatial | 7.3-11 | splines | 3.6.3 | sqldf | 0.4-11 |
SQUAREM | 2020.2 | 통계 | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | survival | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2.10 |
testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | tidyverse | 1.3.0 | timeDate | 3043.102 |
tinytex | 0.22 | tools | 3.6.3 | usethis | 1.6.0 |
utf8 | 1.1.4 | utils | 3.6.3 | vctrs | 0.2.4 |
viridisLite | 0.3.0 | whisker | 0.4 | withr | 2.2.0 |
xfun | 0.13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
설치된 Java 및 Scala 라이브러리(Scala 2.12 클러스터 버전)
그룹 ID | 아티팩트 ID | 버전 |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | stream | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
com.esotericsoftware | kryo-shaded | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml | classmate | 1.3.4 |
com.fasterxml.jackson.core | jackson-annotations | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
com.github.ben-manes.caffeine | caffeine | 2.3.4 |
com.github.fommil | jniloader | 1.1 |
com.github.fommil.netlib | 코어 | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-natives | 1.1 |
com.github.fommil.netlib | native_system-java | 1.1 |
com.github.fommil.netlib | native_system-java-natives | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guava | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | Profiler | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | config | 1.2.1 |
com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
com.univocity | univocity-parsers | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1.2 |
commons-codec | commons-codec | 1.10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2.4 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.airlift | aircompressor | 0.10 |
io.dropwizard.metrics | metrics-core | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | metrics-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jakarta.annotation | jakarta.annotation-api | 1.3.5 |
jakarta.validation | jakarta.validation-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.activation | activation | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | transaction-api | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pyrolite | 4.30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.snowflake | snowflake-ingest-sdk | 0.9.6 |
net.snowflake | snowflake-jdbc | 3.12.0 |
net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0.1 |
org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | 최근 | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | arrow-format | 0.15.1 |
org.apache.arrow | arrow-memory | 0.15.1 |
org.apache.arrow | arrow-vector | 0.15.1 |
org.apache.avro | Avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-text | 1.6 |
org.apache.curator | curator-client | 2.7.1 |
org.apache.curator | curator-framework | 2.7.1 |
org.apache.curator | curator-recipes | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | hadoop-annotations | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | hive-common | 2.3.7 |
org.apache.hive | hive-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-llap-common | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | hive-serde | 2.3.7 |
org.apache.hive | hive-shims | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
org.apache.hive.shims | hive-shims-common | 2.3.7 |
org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0-incubating |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | ivy | 2.4.0 |
org.apache.orc | orc-core | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | orc-shims | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-encoding | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-format | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | 속도 | 1.5 |
org.apache.xbean | xbean-asm7-shaded | 4.15 |
org.apache.yetus | audience-annotations | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | hk2-locator | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
org.glassfish.jersey.core | jersey-client | 2.30 |
org.glassfish.jersey.core | jersey-common | 2.30 |
org.glassfish.jersey.core | jersey-server | 2.30 |
org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
org.hibernate.validator | hibernate-validator | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1.7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | shims | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | scala-compiler_2.12 | 2.12.10 |
org.scala-lang | scala-library_2.12 | 2.12.10 |
org.scala-lang | scala-reflect_2.12 | 2.12.10 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scala-sbt | test-interface | 1.0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1.0 |
org.scalanlp | breeze_2.12 | 1.0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark | unused | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | spring-test | 4.1.4.RELEASE |
org.threeten | threeten-extra | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
org.typelevel | spire-util_2.12 | 0.17.0-M1 |
org.typelevel | spire_2.12 | 0.17.0-M1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1.24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0.52 |