다음을 통해 공유


Azure Databricks의 격리 수준 및 쓰기 충돌

table 격리 수준은 동시 작업으로 인한 수정으로부터 트랜잭션을 격리해야 하는 정도를 정의합니다. Azure Databricks의 쓰기 충돌은 격리 수준에 따라 다릅니다.

Delta Lake는 읽기와 쓰기 간의 ACID 트랜잭션 보장을 제공합니다. 이는 다음을 의미합니다.

  • 여러 클러스터의 여러 기록기가 동시에 tablepartition를 변경할 수 있습니다. 작성자는 table에 대한 일관된 스냅샷을 보고, 기록 작업은 직렬 순서대로 이루어집니다.
    • 독자들은 작업 중에 table이 수정되더라도 Azure Databricks 작업이 시작할 때의 table에 대한 일관된 스냅샷 보기를 계속 확인할 수 있습니다.

Azure Databricks에서 ACID 보장이란?을 참조하세요.

참고 항목

Azure Databricks는 기본적으로 모든 tables에 Delta Lake를 사용합니다. 이 문서에서는 Azure Databricks의 Delta Lake에 대한 동작을 설명합니다.

Important

메타데이터 변경으로 인해 모든 동시 쓰기 작업이 실패합니다. 이러한 작업에는 table 프로토콜, table 속성 또는 데이터 schema변경 내용이 포함됩니다.

스트리밍 읽기 작업은 table 메타데이터를 변경하는 커밋을 만나면 실패합니다. 스트림을 계속하려면 다시 시작해야 합니다. 권장 방법은 구조적 스트리밍에 대한 프로덕션 고려 사항을 참조하세요.

다음은 메타데이터를 변경하는 쿼리의 예입니다.

-- Set a table property.
ALTER TABLE table-name SET TBLPROPERTIES ('delta.isolationLevel' = 'Serializable')

-- Enable a feature using a table property and update the table protocol.
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

-- Drop a table feature.
ALTER TABLE table_name DROP FEATURE deletionVectors;

-- Upgrade to UniForm.
REORG TABLE table_name APPLY (UPGRADE UNIFORM(ICEBERG_COMPAT_VERSION=2));

-- Update the table schema.
ALTER TABLE table_name ADD COLUMNS (col_name STRING);

행 수준 동시성과의 쓰기 충돌

행 수준 동시성은 행 단위에서 변경 사항을 감지하고 동시 쓰기 작업이 동일한 데이터 파일에서 서로 다른 행을 update 쓰거나 삭제할 때 발생하는 충돌을 자동으로 해결하여 동시 쓰기 작업 간의 충돌을 줄입니다.

행 수준 동시성은 일반적으로 Databricks Runtime 14.2 이상에서 사용할 수 있습니다. 행 수준 동시성은 다음 조건에 대해 기본적으로 지원됩니다.

  • 삭제 벡터가 활성화된 상태에서 파티션 없이 Tables.
  • 삭제 벡터를 사용하지 않도록 설정하지 않은 경우 액체 클러스터링으로 Tables.

파티션을 사용하는 Tables은(는) 행 수준의 동시성을 지원하지 않지만, 삭제 벡터가 활성화된 경우 OPTIMIZE 및 다른 모든 쓰기 작업 간의 충돌을 피할 수 있습니다. 행 수준 동시성에 대한 제한 사항을 참조 하세요.

다른 Databricks 런타임 버전은 행 수준 동시성 미리 보기 동작(레거시)을 참조하세요.

MERGE INTO 행 수준 동시성을 지원하려면 Databricks Runtime 14.2의 Photon이 필요합니다. Databricks Runtime 14.3 LTS 이상에서는 Photon이 필요하지 않습니다.

다음 table에서는 행 수준 동시성이 설정된 각 격리 수준에서 충돌할 수 있는 쓰기 작업 쌍에 대해 설명합니다.

참고 항목

ID Tables을 가진 ID columns은 동시 트랜잭션을 지원하지 않습니다. Delta Lake에서 ID columns을(를) 참조하세요.

INSERT (1) UPDATE, 삭제, MERGE INTO OPTIMIZE
INSERT 충돌할 수 없음
UPDATE, DELETE, MERGE INTO WriteSerializable에서는 충돌할 수 없습니다. 동일한 행을 수정할 때 Serializable에서 충돌할 수 있습니다. 행 수준 동시성에 대한 제한 사항을 참조 하세요. 동일한 행을 수정할 때 충돌할 수 있습니다. 행 수준 동시성에 대한 제한 사항을 참조 하세요.
OPTIMIZE 충돌할 수 없음 사용할 때 ZORDER BY 충돌할 수 있습니다. 그렇지 않으면 충돌할 수 없습니다. 사용할 때 ZORDER BY 충돌할 수 있습니다. 그렇지 않으면 충돌할 수 없습니다.

Important

(1) 위의 tables 모든 INSERT 작업은 커밋하기 전에 동일한 table 데이터를 읽지 않고 추가하는 작업을 설명합니다. 동일한 table을 읽는 서브쿼리를 포함하는 INSERT 작업은 MERGE와 동일한 동시성을 지원합니다.

REORG 작업에는 삭제 벡터에 OPTIMIZE 기록된 변경 내용을 반영하도록 데이터 파일을 다시 쓸 때와 동일한 격리 의미 체계가 있습니다. REORG 사용하여 업그레이드를 적용하면 table 프로토콜이 변경되어 진행 중인 모든 작업과 충돌합니다.

행 수준 동시성 없는 쓰기 충돌

다음 table에서는 각 격리 수준에서 충돌할 수 있는 쓰기 작업 쌍을 설명합니다.

Tables 정의된 파티션이 있거나 삭제 벡터를 사용하도록 설정하지 않은 경우 행 수준 동시성을 지원하지 않습니다. 행 수준 동시성을 위해서는 Databricks Runtime 14.2 이상이 필요합니다.

참고 항목

ID Tables를 ID columns와 함께 사용할 때는 동시 트랜잭션을 지원하지 않습니다. 을 참조하고 Delta Lake에서 ID columns을 사용하세요.

INSERT (1) UPDATE, DELETE, MERGE INTO OPTIMIZE
INSERT 충돌할 수 없음
UPDATE, DELETE, MERGE INTO WriteSerializable에서는 충돌할 수 없습니다. Serializable에서 충돌할 수 있습니다. 파티션과의 충돌 방지를 참조 하세요. Serializable 및 WriteSerializable에서 충돌할 수 있습니다. 파티션과의 충돌 방지를 참조 하세요.
OPTIMIZE 충돌할 수 없음 삭제 벡터가 활성화된 tables은 ZORDER BY을 사용하지 않는 한 충돌할 수 없습니다. 그렇지 않으면 충돌할 수 있습니다. ZORDER BY이 사용되지 않는 한 삭제 벡터가 활성화된 tables와 충돌할 수 없습니다. 그렇지 않으면 충돌할 수 있습니다.

Important

(1) 위의 tables 모든 INSERT 작업은 동일한 table로부터 데이터를 읽지 않고 커밋하기 전의 추가 작업을 설명합니다. INSERT은 동일한 table을 읽는 하위 쿼리를 포함하는 연산으로서 MERGE와 동일한 동시성을 지원합니다.

REORG 작업에는 삭제 벡터에 OPTIMIZE 기록된 변경 내용을 반영하도록 데이터 파일을 다시 쓸 때와 동일한 격리 의미 체계가 있습니다. REORG 사용하여 업그레이드를 적용하면 table 프로토콜이 변경되어 진행 중인 모든 작업과 충돌합니다.

행 수준 동시성에 대한 제한 사항

행 수준 동시성에는 몇 가지 제한 사항이 적용됩니다. 다음 작업의 경우 충돌 해결은 Azure Databricks의 쓰기 충돌에 대한 일반적인 동시성을 따릅니다. 행 수준 동시성이 없는 쓰기 충돌을 참조 하세요.

  • 다음을 포함하여 복잡한 조건부 절이 있는 명령:
    • 구조체, 배열 또는 맵과 같은 복잡한 데이터 형식에 대한 조건입니다.
    • 비결정적 식 및 하위 쿼리를 사용하는 조건입니다.
    • 상호 관련된 하위 쿼리를 포함하는 조건입니다.
  • Databricks Runtime 14.2에서 MERGE 명령은 대상 table에 대해 명확한 조건을 사용하여 원본 table와 일치하는 행을 필터링해야 합니다. 병합 확인의 경우 필터는 동시 작업의 필터 조건에 따라 충돌할 수 있는 행만 검색합니다.

참고 항목

행 수준 충돌 검색은 총 실행 시간을 늘릴 수 있습니다. 많은 동시 트랜잭션의 경우 기록기는 충돌 해결보다 대기 시간을 우선 순위로 지정하며 충돌이 발생할 수 있습니다.

삭제 벡터에 대한 모든 제한 사항도 적용됩니다. 제한 사항 보기.

Delta Lake는 table읽지 않고 언제 커밋하나요?

Delta Lake INSERT 또는 추가 작업은 다음 조건이 충족되는 경우 커밋하기 전에 table 상태를 읽지 않습니다.

  1. 논리는 SQL 논리 또는 추가 모드를 사용하여 INSERT 표현됩니다.
  2. 논리에는 쓰기 작업의 대상이 되는 table 참조하는 하위 쿼리 또는 조건부가 없습니다.

다른 커밋과 마찬가지로 Delta Lake는 트랜잭션 로그에서 메타데이터를 사용하여 커밋 시 table 버전의 유효성을 검사하고 확인하지만 table 버전은 실제로 읽지 않습니다.

참고 항목

많은 일반적인 패턴은 table 조건에 따라 데이터를 MERGE 작업으로 insert합니다. INSERT 문을 사용하여 이 논리를 다시 작성할 수 있지만, 조건식이 column를 대상 table에서 참조하는 경우, 이러한 문은 MERGE과 동일한 동시성 제한을 가집니다.

직렬화 가능 격리 수준과 직렬화 가능 격리 수준 쓰기

table 격리 수준은 트랜잭션을 동시 트랜잭션에 의한 수정으로부터 격리해야 하는 정도를 정의합니다. Azure Databricks의 Delta Lake는 Serializable 및 WriteSerializable의 두 가지 격리 수준을 지원합니다.

  • 직렬화 가능: 가장 강력한 격리 수준입니다. 커밋된 쓰기 작업과 모든 읽기를 직렬화할 수 있도록 합니다. 순차적으로 하나씩 실행하여 table에 표시된 것과 동일한 결과를 생성할 수 있는 일련의 실행 시퀀스가 존재하는 한 작업은 허용됩니다. 쓰기 작업의 경우, 직렬 시퀀스는 table의 이력에서 본 것과 정확히 동일합니다.

  • WriteSerializable(기본값): Serializable보다 약한 격리 수준입니다. 즉, 읽기가 아닌 쓰기 작업만 직렬화할 수 있습니다. 그러나 여전히 스냅샷 격리보다 강력합니다. WriteSerializable은 가장 일반적인 작업에 대해 데이터 일관성과 가용성의 균형을 잘 유지하기 때문에 기본 격리 수준입니다.

    이 모드에서는 Delta table의 내용이 table 기록에서 볼 수 있는 일련의 작업과 다를 수 있습니다. 이 모드에서는 기록에 X 이후에 Y가 커밋되었음을 보여 주더라도 이 모드를 사용하면 특정 쌍의 동시 쓰기(예: 작업 X 및 Y)가 X 전에 Y가 수행된 것처럼 계속 진행할 수 있기 때문입니다. 이 다시 정렬을 허용하지 않도록 하려면 격리 수준 직렬화하여 이러한 트랜잭션이 실패하도록 .

읽기 작업은 항상 스냅샷 격리를 사용합니다. 쓰기 격리 수준은 읽기 작업이 기록상 "존재하지 않았던" table의 스냅샷을 볼 수 있는 가능성을 결정합니다.

직렬화 가능 수준의 경우 판독기는 항상 기록을 준수하는 tables만 봅니다. WriteSerializable 수준에서는 리더가 델타 로그에 존재하지 않는 table를 볼 수 있습니다.

예를 들어 txn1에서 삭제된 데이터를 삽입하는 txn1, 장기 실행 삭제 및 txn2를 고려합니다. txn2 및 txn1이 완료되고 기록에서 해당 순서로 기록됩니다. 역사적으로, table에는 txn2에 삽입된 데이터가 존재하지 않아야 합니다. 직렬화 가능 수준의 경우 판독기는 txn2로 삽입된 데이터를 볼 수 없습니다. 그러나 WriteSerializable 수준의 경우 판독기에서 txn2로 삽입된 데이터를 볼 수 있습니다.

각 격리 수준에서 서로 충돌할 수 있는 작업 형식과 가능한 오류에 대한 자세한 내용은 분할 및 분리 명령 조건을 사용하여 충돌 방지를 참조하세요.

격리 수준 Set

ALTER TABLE 명령을 사용하여 set 격리 수준을 설정합니다.

ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.isolationLevel' = <level-name>)

where <level-name> Serializable 또는 WriteSerializable.

예를 들어 격리 수준을 기본 WriteSerializable에서 Serializable로 변경하려면 다음을 실행합니다.

ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.isolationLevel' = 'Serializable')

분할 및 비연속 명령 조건을 사용한 충돌 방지

"충돌 가능"으로 표시된 모든 경우에서 두 작업이 충돌할지 여부는 동일한 set 파일에서 작동하는지 여부에 따라 달라집니다. 작업의 조건에서 사용된 것과 동일한 columns로 table을 분할하여 두 파일 집합을 서로 겹치지 않게 만들 수 있습니다. 예를 들어, table가 날짜별로 분할되지 않은 경우, 명령어 UPDATE table WHERE date > '2010-01-01' ...DELETE table WHERE date < '2010-01-01'은 충돌할 수 있습니다. 두 명령어 모두 동일한 set 파일을 수정하려고 시도할 수 있기 때문입니다. table을(를) date으로 분할하면 충돌이 방지됩니다. 따라서 명령에 일반적으로 사용되는 조건에 따라 table 분할하면 충돌이 크게 감소할 수 있습니다. 카디널리티가 높은 column을 사용하여 table을 분할하면 많은 하위 디렉터리 때문에 다른 성능 문제가 발생할 수 있습니다.

충돌 예외

트랜잭션 충돌이 발생하면 다음 예외 중 하나가 표시됩니다.

ConcurrentAppendException

이 예외는 동시 작업 중에 작업에서 읽는 partition(또는 분할되지 않은 table)와 동일한 곳에 파일을 추가할 때 발생합니다. 파일 추가는 INSERT, DELETE, UPDATE 또는 MERGE 작업으로 인해 발생할 수 있습니다.

기본 격리 수준에서 WriteSerializable맹목적인INSERT 작업(즉, 데이터를 읽지 않고 맹목적으로 데이터를 추가하는 작업)으로 추가된 파일은 동일한 partition(또는 분할되지 않은 table) 영역에 접근하더라도 다른 작업과 충돌하지 않습니다. 격리 수준이 set에서 Serializable일 경우, 검증되지 않은 추가가 충돌할 수 있습니다.

이 예외는 종종 동시 DELETE, UPDATE 또는 MERGE 작업 중에 throw됩니다. 동시에 실행되는 작업은 서로 다른 partition 디렉터리를 물리적으로 업데이트할 수 있지만, 그중 하나가 다른 작업이 동시에 업데이트하는 동일한 partition을 읽음으로써 충돌이 발생할 수 있습니다. 작동 조건에서 분리를 명시적으로 지정하여 이를 방지할 수 있습니다. 아래 예제를 고려해 보세요.

// Target 'deltaTable' is partitioned by date and country
deltaTable.as("t").merge(
    source.as("s"),
    "s.user_id = t.user_id AND s.date = t.date AND s.country = t.country")
  .whenMatched().updateAll()
  .whenNotMatched().insertAll()
  .execute()

다른 날짜 또는 국가에 대해 위의 코드를 동시에 실행한다고 가정합니다. 각 작업은 대상 Delta table에 대한 독립적인 partition에서 작업하므로 충돌이 발생할 것으로 예상하지 않습니다. 그러나 조건이 충분히 명시적이지 않으며 전체 table를 검색할 수 있으며 동시 작업이 다른 파티션을 업데이트하는 것과 충돌할 수 있습니다. 대신 다음 예와 같이 병합 조건에 특정 날짜와 국가를 추가하도록 명세서를 다시 작성할 수 있습니다.

// Target 'deltaTable' is partitioned by date and country
deltaTable.as("t").merge(
    source.as("s"),
    "s.user_id = t.user_id AND s.date = t.date AND s.country = t.country AND t.date = '" + <date> + "' AND t.country = '" + <country> + "'")
  .whenMatched().updateAll()
  .whenNotMatched().insertAll()
  .execute()

이 작업은 이제 다른 날짜와 국가에서 동시에 실행하는 것이 안전합니다.

ConcurrentDeleteReadException

이 예외는 동시 실행 작업이 사용자 작업에서 읽은 파일을 삭제할 때 발생합니다. 일반적인 원인은 파일을 다시 쓰는 DELETE, UPDATE 또는 MERGE 작업입니다.

ConcurrentDeleteDeleteException

이 예외는 동시 실행 작업이 사용자 작업도 삭제하는 파일을 삭제한 경우에 발생합니다. 이는 동일한 파일을 다시 쓰는 두 개의 동시 압축 작업으로 인해 발생할 수 있습니다.

MetadataChangedException

이 예외는 동시 트랜잭션이 Delta table메타데이터를 업데이트할 때 발생합니다. 일반적인 원인은 ALTER TABLE 작업 또는 updatetable의 schema을 변경하는 델타 table에 대한 쓰기입니다.

ConcurrentTransactionException

동일한 검사점 위치를 사용하는 스트리밍 쿼리가 한 번에 여러 번 시작되고 동시에 Delta table에 기록하려고 시도하는 경우 두 개의 스트리밍 쿼리가 동일한 검사점 위치를 사용하고 동시에 실행되어서는 안 됩니다.

ProtocolChangedException

이 예외는 다음과 같은 경우에 발생할 수 있습니다.

  • Delta table 새 프로토콜 버전으로 업그레이드되는 경우 향후 작업이 성공하려면 Databricks Runtime을 업그레이드해야 할 수 있습니다.
  • 여러 작성자가 동시에 table 만들거나 바꾸는 경우
  • 여러 작성자가 동시에 빈 경로에 쓰는 경우.

자세한 내용은 Azure Databricks에서 Delta Lake 기능 호환성을 관리하는 방법을 참조 하세요 .

행 수준 동시성 미리 보기 동작(레거시)

이 섹션에서는 Databricks Runtime 14.1 이하의 행 수준 동시성에 대한 미리 보기 동작에 대해 설명합니다. 행 수준 동시성에는 항상 삭제 벡터가 필요합니다.

Databricks Runtime 13.3 LTS 이상에서는 액체 클러스터링을 사용하도록 설정된 tables 행 수준 동시성을 자동으로 사용하도록 설정합니다.

Databricks Runtime 14.0 및 14.1에서 클러스터 또는 SparkSession에 대해 다음 구성을 설정하여 삭제 벡터를 사용하여 tables 행 수준 동시성을 사용하도록 설정할 수 있습니다.

spark.databricks.delta.rowLevelConcurrencyPreview = true

Databricks Runtime 14.1 이하에서 Photon이 아닌 컴퓨팅은 작업에 대한 DELETE 행 수준 동시성만 지원합니다.