Aracılığıyla paylaş


Azure Data Factory ve Azure Synapse Analytics'teki veri kümeleri

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede veri kümelerinin ne olduğu, JSON biçiminde nasıl tanımlandığı ve Azure Data Factory ve Synapse işlem hatlarında nasıl kullanıldığı açıklanmaktadır.

Data Factory'yi yeni kullanıyorsanız genel bakış için bkz . Azure Data Factory'ye giriş. Azure Synapse hakkında daha fazla bilgi için bkz. Azure Synapse nedir?

Genel bakış

Azure Data Factory veya Synapse çalışma alanında bir veya daha fazla işlem hattı olabilir. İşlem hattı, bir görevi birlikte gerçekleştiren etkinliklerin mantıksal bir gruplandırmasıdır. İşlem hattındaki etkinlikler, verilerinizde gerçekleştirilecek eylemleri tanımlar. Artık veri kümesi, etkinliklerinizde kullanmak istediğiniz verileri giriş ve çıkış olarak işaret eden veya bunlara başvuran adlandırılmış bir veri görünümüdür. Veri kümeleri tablolar, dosyalar, klasörler ve belgeler gibi farklı veri depolarındaki verileri tanımlar. Örneğin Azure Blob veri kümesi, etkinliğin verileri okuması gereken Blob Depolama'daki blob kapsayıcısını ve klasörünü belirtir.

Veri kümesi oluşturmadan önce, veri deponuzu hizmete bağlamak için bağlı bir hizmet oluşturmanız gerekir. Bağlı hizmetler, hizmetin dış kaynaklara bağlanması için gereken bağlantı bilgilerini tanımlayan bağlantı dizesi benzer. Bu şekilde düşünün; veri kümesi, bağlı veri depoları içindeki verilerin yapısını temsil eder ve bağlı hizmet veri kaynağına bağlantıyı tanımlar. Örneğin, Azure Depolama bağlı hizmeti bir depolama hesabını bağlar. Azure Blob veri kümesi, işlenecek giriş bloblarını içeren blob kapsayıcısını ve bu Azure Depolama hesabındaki klasörü temsil eder.

Örnek bir senaryo aşağıda verilmiştır. Blob depolamadan SQL Veritabanı veri kopyalamak için iki bağlı hizmet oluşturursunuz: Azure Blob Depolama ve Azure SQL Veritabanı. Ardından iki veri kümesi oluşturun: Sınırlandırılmış Metin veri kümesi (kaynak olarak metin dosyalarınız olduğu varsayılarak Azure Blob Depolama bağlı hizmete başvurur) ve Azure SQL Tablo veri kümesi (Azure SQL Veritabanı bağlı hizmete başvurur). Azure Blob Depolama ve Azure SQL Veritabanı bağlı hizmetler, hizmetin azure depolamanıza ve Azure SQL Veritabanı bağlanmak için çalışma zamanında kullandığı bağlantı dizesi içerir. Sınırlandırılmış Metin veri kümesi, Blob Depolamanızdaki giriş bloblarını içeren blob kapsayıcısını ve blob klasörünü ve biçimle ilgili ayarları belirtir. Azure SQL Tablosu veri kümesi, SQL Veritabanı verilerin kopyalandığı SQL tablosunu belirtir.

Aşağıdaki diyagramda işlem hattı, etkinlik, veri kümesi ve bağlı hizmetler arasındaki ilişkiler gösterilmektedir:

İşlem hattı, etkinlik, veri kümesi, bağlı hizmetler arasındaki ilişki

Kullanıcı arabirimiyle veri kümesi oluşturma

Azure Data Factory Studio ile veri kümesi oluşturmak için Yazar sekmesini (kalem simgesiyle) ve ardından artı işareti simgesini seçerek Veri Kümesi'ni seçin.

Yeni veri kümesi düğmesinin seçili olduğu Azure Data Factory Studio'nun Yazar sekmesini gösterir.

Mevcut veya yeni bir bağlı hizmeti ayarlamak için Azure Data Factory'de kullanılabilen bağlayıcılardan herhangi birini seçmek için yeni veri kümesi penceresini görürsünüz.

Desteklenen veri fabrikası bağlayıcılarından herhangi birine bağlı hizmet türünü seçebileceğiniz yeni veri kümesi penceresini gösterir.

Ardından veri kümesi biçimini seçmeniz istenir.

Yeni veri kümesi için bir biçim seçmenize olanak sağlayan veri kümesi biçimi penceresini gösterir.

Son olarak, veri kümesi için seçtiğiniz türde mevcut bir bağlı hizmeti seçebilir veya henüz tanımlanmamışsa yeni bir hizmet oluşturabilirsiniz.

Daha önce seçilen türde mevcut bir veri kümesini seçebileceğiniz veya yeni bir veri kümesi oluşturabileceğiniz özellik kümesi penceresini gösterir.

Veri kümesini oluşturduktan sonra Azure Data Factory'deki tüm işlem hatlarında kullanabilirsiniz.

Veri kümesi JSON

Veri kümesi aşağıdaki JSON biçiminde tanımlanır:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Aşağıdaki tabloda yukarıdaki JSON'daki özellikler açıklanmaktadır:

Özellik Açıklama Gerekli
Adı Veri kümesinin adı. Bkz . Adlandırma kuralları. Yes
Tür Veri kümesinin türü. Data Factory tarafından desteklenen türlerden birini belirtin (örneğin: DelimitedText, AzureSqlTable).

Ayrıntılar için bkz . Veri kümesi türleri.
Yes
schema Veri kümesinin şeması, fiziksel veri türünü ve şeklini temsil eder. Hayır
typeProperties Tür özellikleri her tür için farklıdır. Desteklenen türler ve özellikleri hakkında ayrıntılı bilgi için bkz . Veri kümesi türü. Yes

Veri kümesinin şemasını içeri aktardığınızda Şemayı İçeri Aktar düğmesini seçin ve kaynaktan veya yerel bir dosyadan içeri aktarmayı seçin. Çoğu durumda şemayı doğrudan kaynaktan içeri aktarırsınız. Ancak zaten bir yerel şema dosyanız (üst bilgi içeren bir Parquet dosyası veya CSV) varsa, hizmeti şemayı bu dosyaya dayandırmaya yönlendirebilirsiniz.

Kopyalama etkinliğinde veri kümeleri kaynak ve havuz içinde kullanılır. Veri kümesinde tanımlanan şema, başvuru olarak isteğe bağlıdır. Kaynak ve havuz arasında sütun/alan eşlemesi uygulamak istiyorsanız Şema ve tür eşlemesine bakın.

Veri Akışı'de veri kümeleri kaynak ve havuz dönüşümlerinde kullanılır. Veri kümeleri temel veri şemalarını tanımlar. Verilerinizde şema yoksa, kaynağınız ve havuzunuz için şema kayması kullanabilirsiniz. Veri kümelerinden alınan meta veriler, kaynak dönüştürmenizde kaynak projeksiyonu olarak görünür. Kaynak dönüştürmedeki projeksiyon, tanımlı adlara ve türlere sahip Veri Akışı verilerini temsil eder.

Veri kümesi türü

Hizmet, kullandığınız veri depolarına bağlı olarak birçok farklı veri kümesi türünü destekler. Bağlayıcıya genel bakış makalesinden desteklenen veri depolarının listesini bulabilirsiniz. Bağlı hizmet ve veri kümesi oluşturmayı öğrenmek için bir veri deposu seçin.

Örneğin, Sınırlandırılmış Metin veri kümesi için veri kümesi türü, aşağıdaki JSON örneğinde gösterildiği gibi DelimitedText olarak ayarlanır:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Not

Şema değeri JSON söz dizimi kullanılarak tanımlanır. Şema eşlemesi ve veri türü eşlemesi hakkında daha ayrıntılı bilgi için Azure Data Factory Kopyalama Etkinliği Şeması ve Tür Eşleme belgelerine bakın.

Veri kümeleri oluşturma

Şu araçlardan veya SDK'lardan birini kullanarak veri kümeleri oluşturabilirsiniz: .NET API, PowerShell, REST API, Azure Resource Manager Şablonu ve Azure portalı

Geçerli sürüm ile sürüm 1 veri kümeleri karşılaştırması

Data Factory geçerli sürümündeki (ve Azure Synapse) veri kümeleri ile eski Data Factory sürüm 1 arasındaki bazı farklar şunlardır:

  • Dış özellik geçerli sürümde desteklenmiyor. Bir tetikleyici ile değiştirilir.
  • İlke ve kullanılabilirlik özellikleri geçerli sürümde desteklenmez. İşlem hattının başlangıç zamanı tetikleyicilere bağlıdır.
  • Kapsamı belirlenmiş veri kümeleri (işlem hattında tanımlanan veri kümeleri) geçerli sürümde desteklenmez.

Hızlı Başlangıçlar

Bu araçlardan veya SDK'lardan birini kullanarak işlem hatları ve veri kümeleri oluşturmaya yönelik adım adım yönergeler için aşağıdaki öğreticiye bakın.

Veri kümesi şema başvuruları