Aracılığıyla paylaş


Azure Data Factory veya Azure Synapse Analytics kullanarak Azure Databricks Delta Lake'e veya Azure Synapse Analytics'e veri kopyalama

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede Azure Databricks Delta Lake'e ve Azure Synapse'e veri kopyalamak için Azure Data Factory ve Azure Synapse'deki Kopyalama etkinliği nasıl kullanılacağı özetlenmiştir. Kopyalama etkinliğine genel bir genel bakış sunan Kopyalama etkinliği makalesi üzerine derlenmektedir.

Desteklenen özellikler

Bu Azure Databricks Delta Lake bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR
Kopyalama etkinliği (kaynak/havuz) (1) (2)
Eşleme veri akışı (kaynak/havuz) (1)
Arama etkinliği (1) (2)

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Genel olarak, hizmet çeşitli ihtiyaçlarınızı karşılamak için aşağıdaki özelliklerle Delta Lake'i destekler.

  • Kopyalama etkinliği, desteklenen herhangi bir kaynak veri deposundaki verileri Azure Databricks delta lake tablosuna ve delta lake tablosundan desteklenen havuz veri deposuna kopyalamak için Azure Databricks Delta Lake bağlayıcısını destekler. Veri taşıma işlemini gerçekleştirmek için Databricks kümenizden yararlanıyor, Önkoşullar bölümündeki ayrıntılara bakın.
  • Eşleme Veri Akışı, kod içermeyen ETL için Delta dosyalarını okumak ve yazmak üzere kaynak ve havuz olarak Azure Depolama'da genel Delta biçimini destekler ve yönetilen Azure Integration Runtime'da çalışır.
  • Databricks etkinlikleri , delta lake üzerinde kod merkezli ETL veya makine öğrenmesi iş yükünüzü düzenlemeyi destekler.

Önkoşullar

Bu Azure Databricks Delta Lake bağlayıcısını kullanmak için Azure Databricks'te bir küme ayarlamanız gerekir.

  • Delta Lake'e veri kopyalamak için Kopyalama etkinliği, azure databricks kümesini çağırarak özgün kaynağınız olan azure depolamadan veya hizmetin yerleşik hazırlanmış kopya aracılığıyla kaynak verileri ilk kez yazdığı hazırlama alanından verileri okur. Havuz olarak Delta lake'ten daha fazla bilgi edinin.
  • Benzer şekilde, delta gölünden veri kopyalamak için Kopyalama etkinliği, azure databricks kümesini çağırarak özgün havuzunuza veya hizmetin yerleşik aşamalı kopya aracılığıyla son havuza veri yazmaya devam ettiği bir hazırlama alanı olan Azure Depolama'ya veri yazar. Kaynak olarak Delta lake'ten daha fazla bilgi edinin.

Databricks kümesinin hem kaynak/havuz/hazırlama için kullanılan depolama kapsayıcısı/dosya sistemi hem de Delta Lake tablolarını yazmak istediğiniz kapsayıcı/dosya sistemi olmak üzere Azure Blob veya Azure Data Lake Storage 2. Nesil hesabına erişimi olmalıdır.

  • Azure Data Lake Storage 2. Nesil kullanmak için, Apache Spark yapılandırmasının bir parçası olarak Databricks kümesinde bir hizmet sorumlusu yapılandırabilirsiniz. Hizmet sorumlusuyla doğrudan Access'teki adımları izleyin.

  • Azure Blob depolamayı kullanmak için, Apache Spark yapılandırmasının bir parçası olarak Databricks kümesinde bir depolama hesabı erişim anahtarı veya SAS belirteci yapılandırabilirsiniz. RDD API'sini kullanarak Azure Blob depolamaya erişme adımlarını izleyin.

Kopyalama etkinliği yürütme sırasında, yapılandırdığınız küme sonlandırıldıysa, hizmet bunu otomatik olarak başlatır. Yazma kullanıcı arabirimini kullanarak işlem hattı yazarsanız, veri önizleme gibi işlemler için canlı bir kümenizin olması gerekir; hizmet sizin yerinize kümeyi başlatmaz.

Küme yapılandırmasını belirtme

  1. Küme Modu açılan listesinde Standart'ı seçin.

  2. Databricks Çalışma Zamanı Sürümü açılan listesinde bir Databricks çalışma zamanı sürümü seçin.

  3. Spark yapılandırmanıza aşağıdaki özellikleri ekleyerek Otomatik İyileştirme'yi açın:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Tümleştirme ve ölçeklendirme gereksinimlerinize bağlı olarak kümenizi yapılandırın.

Küme yapılandırma ayrıntıları için bkz . Kümeleri yapılandırma.

Kullanmaya başlayın

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Azure Databricks Delta Lake'e bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde Azure Databricks Delta Lake'e bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. Delta araması yapın ve Azure Databricks Delta Lake bağlayıcısını seçin.

    Azure Databricks Delta Lake bağlayıcısının ekran görüntüsü.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Azure Databricks Delta Lake bağlı hizmetinin yapılandırmasının ekran görüntüsü.

Bağlayıcı yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Azure Databricks Delta Lake bağlayıcısına özgü varlıkları tanımlayan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

Bu Azure Databricks Delta Lake bağlayıcısı aşağıdaki kimlik doğrulama türlerini destekler. Ayrıntılar için ilgili bölümlere bakın.

Erişim belirteci

Azure Databricks Delta Lake bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tür type özelliği AzureDatabricksDeltaLake olarak ayarlanmalıdır. Yes
etki alanı Azure Databricks çalışma alanı URL'sini belirtin; örneğin. https://adb-xxxxxxxxx.xx.azuredatabricks.net
clusterId Var olan bir kümenin küme kimliğini belirtin. Zaten oluşturulmuş bir Etkileşimli Küme olmalıdır.
Databricks çalışma alanında Etkileşimli Kümenin Küme Kimliğini bulabilirsiniz -> Kümeler -> Etkileşimli Küme Adı -> Yapılandırma -> Etiketler. Daha fazla bilgi edinin.
accessToken Hizmetin Azure Databricks'de kimlik doğrulaması için erişim belirteci gereklidir. Erişim belirtecinin databricks çalışma alanından oluşturulması gerekir. Erişim belirtecini bulmak için daha ayrıntılı adımlar burada bulunabilir.
connectVia Veri deposuna bağlanmak için kullanılan tümleştirme çalışma zamanı . Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını (veri deponuz özel bir ağda bulunuyorsa) kullanabilirsiniz. Belirtilmezse, varsayılan Azure tümleştirme çalışma zamanını kullanır. Hayır

Örnek:

{
    "name": "AzureDatabricksDeltaLakeLinkedService",
    "properties": {
        "type": "AzureDatabricksDeltaLake",
        "typeProperties": {
            "domain": "https://adb-xxxxxxxxx.xx.azuredatabricks.net",
            "clusterId": "<cluster id>",
            "accessToken": {
                "type": "SecureString", 
                "value": "<access token>"
          	}
        }
    }
}

Sistem tarafından atanan yönetilen kimlik kimlik doğrulaması

Azure kaynakları için sistem tarafından atanan yönetilen kimlikler hakkında daha fazla bilgi edinmek için bkz . Azure kaynakları için sistem tarafından atanan yönetilen kimlik.

Sistem tarafından atanan yönetilen kimlik kimlik doğrulamasını kullanmak için şu adımları izleyerek izinler verin:

  1. Veri fabrikanız veya Synapse çalışma alanınızla birlikte oluşturulan yönetilen kimlik nesne kimliğinin değerini kopyalayarak yönetilen kimlik bilgilerini alın.

  2. Yönetilen kimliğe Azure Databricks'te doğru izinleri verin. Genel olarak, Azure Databricks'in Erişim denetiminde (IAM) sistem tarafından atanan yönetilen kimliğinize en azından Katkıda Bulunan rolü vermelisiniz.

Azure Databricks Delta Lake bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tür type özelliği AzureDatabricksDeltaLake olarak ayarlanmalıdır. Yes
etki alanı Azure Databricks çalışma alanı URL'sini belirtin; örneğin. https://adb-xxxxxxxxx.xx.azuredatabricks.net Yes
clusterId Var olan bir kümenin küme kimliğini belirtin. Zaten oluşturulmuş bir Etkileşimli Küme olmalıdır.
Databricks çalışma alanında Etkileşimli Kümenin Küme Kimliğini bulabilirsiniz -> Kümeler -> Etkileşimli Küme Adı -> Yapılandırma -> Etiketler. Daha fazla bilgi edinin.
Yes
workspaceResourceId Azure Databricks'inizin çalışma alanı kaynak kimliğini belirtin. Yes
connectVia Veri deposuna bağlanmak için kullanılan tümleştirme çalışma zamanı . Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını (veri deponuz özel bir ağda bulunuyorsa) kullanabilirsiniz. Belirtilmezse, varsayılan Azure tümleştirme çalışma zamanını kullanır. Hayır

Örnek:

{
    "name": "AzureDatabricksDeltaLakeLinkedService",
    "properties": {
        "type": "AzureDatabricksDeltaLake",
        "typeProperties": {
            "domain": "https://adb-xxxxxxxxx.xx.azuredatabricks.net",
            "clusterId": "<cluster id>",
            "workspaceResourceId": "<workspace resource id>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Kullanıcı tarafından atanan yönetilen kimlik kimlik doğrulaması

Azure kaynakları için kullanıcı tarafından atanan yönetilen kimlikler hakkında daha fazla bilgi edinmek için bkz. Kullanıcı tarafından atanan yönetilen kimlikler

Kullanıcı tarafından atanan yönetilen kimlik kimlik doğrulamasını kullanmak için şu adımları izleyin:

  1. Kullanıcı tarafından atanan bir veya birden çok yönetilen kimlik oluşturun ve Azure Databricks'inizde izin verin. Genel olarak, Azure Databricks'in Erişim denetiminde (IAM) kullanıcı tarafından atanan yönetilen kimliğinize en azından Katkıda Bulunan rolünü vermelisiniz.

  2. Veri fabrikanıza veya Synapse çalışma alanınıza kullanıcı tarafından atanan bir veya birden çok yönetilen kimlik atayın ve kullanıcı tarafından atanan her bir yönetilen kimlik için kimlik bilgileri oluşturun.

Azure Databricks Delta Lake bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tür type özelliği AzureDatabricksDeltaLake olarak ayarlanmalıdır. Yes
etki alanı Azure Databricks çalışma alanı URL'sini belirtin; örneğin. https://adb-xxxxxxxxx.xx.azuredatabricks.net Yes
clusterId Var olan bir kümenin küme kimliğini belirtin. Zaten oluşturulmuş bir Etkileşimli Küme olmalıdır.
Databricks çalışma alanında Etkileşimli Kümenin Küme Kimliğini bulabilirsiniz -> Kümeler -> Etkileşimli Küme Adı -> Yapılandırma -> Etiketler. Daha fazla bilgi edinin.
Yes
kimlik bilgileri Kimlik bilgisi nesnesi olarak kullanıcı tarafından atanan yönetilen kimliği belirtin. Yes
workspaceResourceId Azure Databricks'inizin çalışma alanı kaynak kimliğini belirtin. Yes
connectVia Veri deposuna bağlanmak için kullanılan tümleştirme çalışma zamanı . Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını (veri deponuz özel bir ağda bulunuyorsa) kullanabilirsiniz. Belirtilmezse, varsayılan Azure tümleştirme çalışma zamanını kullanır. Hayır

Örnek:

{
    "name": "AzureDatabricksDeltaLakeLinkedService",
    "properties": {
        "type": "AzureDatabricksDeltaLake",
        "typeProperties": {
            "domain": "https://adb-xxxxxxxxx.xx.azuredatabricks.net",
            "clusterId": "<cluster id>",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            },
            "workspaceResourceId": "<workspace resource id>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın.

Azure Databricks Delta Lake veri kümesi için aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Veri kümesinin tür özelliği AzureDatabricksDeltaLakeDataset olarak ayarlanmalıdır. Yes
database Veritabanının adı. Kaynak için hayır, havuz için evet
table Delta tablosunun adı. Kaynak için hayır, havuz için evet

Örnek:

{
    "name": "AzureDatabricksDeltaLakeDataset",
    "properties": {
        "type": "AzureDatabricksDeltaLakeDataset",
        "typeProperties": {
            "database": "<database name>",
            "table": "<delta table name>"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "linkedServiceName": {
            "referenceName": "<name of linked service>",
            "type": "LinkedServiceReference"
        }
    }
}

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölümde, Azure Databricks Delta Lake kaynağı ve havuzu tarafından desteklenen özelliklerin listesi sağlanır.

Kaynak olarak Delta gölü

Azure Databricks Delta Lake'ten veri kopyalamak için, Kopyalama etkinliği kaynak bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği kaynağının type özelliği AzureDatabricksDeltaLakeSource olarak ayarlanmalıdır. Yes
query Verileri okumak için SQL sorgusunu belirtin. Zaman yolculuğu denetimi için aşağıdaki deseni izleyin:
- SELECT * FROM events TIMESTAMP AS OF timestamp_expression
- SELECT * FROM events VERSION AS OF version
Hayır
exportSettings Delta tablosundan veri almak için kullanılan gelişmiş ayarlar. Hayır
altında exportSettings:
Tür Dışarı aktarma komutunun türü, AzureDatabricksDeltaLakeExportCommand olarak ayarlanır. Yes
dateFormat Tarih türünü bir tarih biçimiyle dizeye biçimlendirin. Özel tarih biçimleri tarih saat düzenindeki biçimleri izler. Belirtilmezse, varsayılan değerini yyyy-MM-ddkullanır. Hayır
timestampFormat Zaman damgası türünü, zaman damgası biçimiyle dizeye biçimlendirin. Özel tarih biçimleri tarih saat düzenindeki biçimleri izler. Belirtilmezse, varsayılan değerini yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]kullanır. Hayır

Delta gölünden doğrudan kopya

Havuz veri deponuz ve biçiminiz bu bölümde açıklanan ölçütleri karşılıyorsa, Azure Databricks Delta tablosundan havuza doğrudan kopyalamak için Kopyalama etkinliği kullanabilirsiniz. Hizmet ayarları denetler ve aşağıdaki ölçütlere uyulmazsa Kopyalama etkinliği çalıştırılamaz:

  • Havuz bağlantılı hizmeti Azure Blob depolama veya Azure Data Lake Storage 2. Nesil. Hesap kimlik bilgileri Azure Databricks küme yapılandırmasında önceden yapılandırılmalıdır. Önkoşullar bölümünden daha fazla bilgi edinin.

  • Havuz veri biçimi Parquet, sınırlandırılmış metin veya Avro şeklindedir ve dosya yerine bir klasöre işaret eder.

    • Parquet biçimi için sıkıştırma codec'i yok, snappy veya gzip şeklindedir.
    • Sınırlandırılmış metin biçimi için:
      • rowDelimiter herhangi bir tek karakterdir.
      • compressionhiçbiri, bzip2, gzip olabilir.
      • encodingName UTF-7 desteklenmez.
    • Avro biçimi için sıkıştırma codec'i yok, söndürebilir veya tutturulamaz.
  • Kopyalama etkinliği kaynağında additionalColumns belirtilmemiş.

  • Verileri sınırlandırılmış metne kopyalıyorsanız, kopyalama etkinliği havuzundaki fileExtension ".csv" olmalıdır.

  • Kopyalama etkinliği eşlemesinde tür dönüştürme etkinleştirilmedi.

Örnek:

"activities":[
    {
        "name": "CopyFromDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delta lake input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureDatabricksDeltaLakeSource",
                "sqlReaderQuery": "SELECT * FROM events TIMESTAMP AS OF timestamp_expression"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Delta gölünden hazırlanmış kopya

Havuz veri deponuz veya biçiminiz, son bölümde belirtildiği gibi doğrudan kopyalama ölçütleri ile eşleşmediğinde, geçici bir Azure depolama örneği kullanarak yerleşik aşamalı kopyayı etkinleştirin. Aşamalı kopyalama özelliği size daha iyi aktarım hızı da sağlar. Hizmet, Azure Databricks Delta Lake'ten hazırlama depolama alanına veri aktarır, ardından verileri havuza kopyalar ve son olarak hazırlama depolamasından geçici verilerinizi temizler. Hazırlamayı kullanarak veri kopyalama hakkında ayrıntılı bilgi için bkz . Aşamalı kopyalama.

Bu özelliği kullanmak için, ara hazırlama olarak depolama hesabına başvuran bir Azure Blob depolama bağlı hizmeti veya Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturun. Ardından Kopyalama etkinliği ve stagingSettings özelliklerini belirtinenableStaging.

Not

Hazırlama depolama hesabı kimlik bilgileri, Önkoşullar bölümünden daha fazla bilgi edinmek için Azure Databricks küme yapılandırmasında önceden yapılandırılmış olmalıdır.

Örnek:

"activities":[
    {
        "name": "CopyFromDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delta lake input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureDatabricksDeltaLakeSource",
                "sqlReaderQuery": "SELECT * FROM events TIMESTAMP AS OF timestamp_expression"
            },
            "sink": {
                "type": "<sink type>"
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingStorage",
                    "type": "LinkedServiceReference"
                },
                "path": "mystagingpath"
            }
        }
    }
]

Havuz olarak Delta gölü

Azure Databricks Delta Lake'e veri kopyalamak için, Kopyalama etkinliği havuzu bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği havuzun type özelliği, AzureDatabricksDeltaLakeSink olarak ayarlanır. Yes
preCopyScript Her çalıştırmada Databricks delta tablosuna veri yazmadan önce çalıştırılacak Kopyalama etkinliği için bir SQL sorgusu belirtin. Örnek: VACUUM eventsTable DRY RUN Bu özelliği kullanarak önceden yüklenmiş verileri temizleyebilir veya bir kesme tablosu veya Vacuum deyimi ekleyebilirsiniz. Hayır
importSettings Delta tablosuna veri yazmak için kullanılan gelişmiş ayarlar. Hayır
altında importSettings:
Tür AzureDatabricksDeltaLakeImportCommand olarak ayarlanan içeri aktarma komutunun türü. Yes
dateFormat Dizeyi tarih biçimiyle tarih türüne biçimlendirin. Özel tarih biçimleri tarih saat düzenindeki biçimleri izler. Belirtilmezse, varsayılan değerini yyyy-MM-ddkullanır. Hayır
timestampFormat Dizeyi zaman damgası biçimiyle zaman damgası türüne biçimlendirin. Özel tarih biçimleri tarih saat düzenindeki biçimleri izler. Belirtilmezse, varsayılan değerini yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]kullanır. Hayır

Delta gölüne doğrudan kopyalama

Kaynak veri deponuz ve biçiminiz bu bölümde açıklanan ölçütlere uyuyorsa, kaynaktan Azure Databricks Delta Lake'e doğrudan kopyalamak için Kopyalama etkinliği kullanabilirsiniz. Hizmet ayarları denetler ve aşağıdaki ölçütlere uyulmazsa Kopyalama etkinliği çalıştırılamaz:

  • Kaynak bağlı hizmet Azure Blob depolama veya Azure Data Lake Storage 2. Nesil. Hesap kimlik bilgileri Azure Databricks küme yapılandırmasında önceden yapılandırılmalıdır. Önkoşullar bölümünden daha fazla bilgi edinin.

  • Kaynak veri biçimi Parquet, sınırlandırılmış metin veya Avro şeklindedir ve dosya yerine bir klasöre işaret eder.

    • Parquet biçimi için sıkıştırma codec'i yok, snappy veya gzip şeklindedir.
    • Sınırlandırılmış metin biçimi için:
      • rowDelimiter varsayılan veya herhangi bir tek karakterdir.
      • compressionhiçbiri, bzip2, gzip olabilir.
      • encodingName UTF-7 desteklenmez.
    • Avro biçimi için sıkıştırma codec'i yok, söndürebilir veya tutturulamaz.
  • Kopyalama etkinliği kaynağında:

    • wildcardFileName yalnızca joker karakter * içerir, ancak ?içermez ve wildcardFolderName belirtilmez.
    • prefix, modifiedDateTimeStart, modifiedDateTimeEndve enablePartitionDiscovery belirtilmedi.
    • additionalColumns belirtilmemiş.
  • Kopyalama etkinliği eşlemesinde tür dönüştürme etkinleştirilmedi.

Örnek:

"activities":[
    {
        "name": "CopyToDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Delta lake output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureDatabricksDeltaLakeSink",
                "sqlReaderQuery": "VACUUM eventsTable DRY RUN"
            }
        }
    }
]

Delta lake'e aşamalı kopya

Kaynak veri deponuz veya biçiminiz, son bölümde belirtildiği gibi doğrudan kopyalama ölçütleri ile eşleşmiyorsa, geçici bir Azure depolama örneği kullanarak yerleşik aşamalı kopyayı etkinleştirin. Aşamalı kopyalama özelliği size daha iyi aktarım hızı da sağlar. Hizmet, veri biçimi gereksinimlerini karşılamak için verileri otomatik olarak hazırlama depolama alanına dönüştürür ve ardından buradan delta lake'e veri yükler. Son olarak, geçici verilerinizi depolama alanından temizler. Hazırlamayı kullanarak veri kopyalama hakkında ayrıntılı bilgi için bkz . Aşamalı kopyalama.

Bu özelliği kullanmak için, ara hazırlama olarak depolama hesabına başvuran bir Azure Blob depolama bağlı hizmeti veya Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturun. Ardından Kopyalama etkinliği ve stagingSettings özelliklerini belirtinenableStaging.

Not

Hazırlama depolama hesabı kimlik bilgileri, Önkoşullar bölümünden daha fazla bilgi edinmek için Azure Databricks küme yapılandırmasında önceden yapılandırılmış olmalıdır.

Örnek:

"activities":[
    {
        "name": "CopyToDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Delta lake output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureDatabricksDeltaLakeSink"
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingBlob",
                    "type": "LinkedServiceReference"
                },
                "path": "mystagingpath"
            }
        }
    }
]

İzleme

Diğer bağlayıcılar için olduğu gibi kopyalama etkinliği izleme deneyimi de sağlanır. Ayrıca, Azure Databricks kümenizde delta lake'ten/delta lake'e veri yükleme işlemi çalıştığından, ayrıntılı küme günlüklerini daha fazla görüntüleyebilir ve performansı izleyebilirsiniz.

Arama etkinliği özellikleri

Özellikler hakkında daha fazla bilgi için bkz . Arama etkinliği.

Arama etkinliği en çok 1000 satır döndürebilir; sonuç kümesi daha fazla kayıt içeriyorsa, ilk 1000 satır döndürülür.

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz. desteklenen veri depoları ve biçimleri.