Aracılığıyla paylaş


Azure Data Lake Storage'da dizinleri ve dosyaları yönetmek için Python kullanma

Bu makalede, hiyerarşik ad alanına sahip depolama hesaplarında dizinleri ve dosyaları oluşturmak ve yönetmek için Python'ın nasıl kullanılacağı gösterilmektedir.

Dizinlerin ve dosyaların erişim denetim listelerini (ACL) alma, ayarlama ve güncelleştirme hakkında bilgi edinmek için bkz . Azure Data Lake Storage'da ACL'leri yönetmek için Python kullanma.

Paket (PyPi) | Örnek | API başvurusu | 1. Nesil ile 2. Nesil eşlemesi | Geri Bildirim Ver

Önkoşullar

Projenizi ayarlama

Bu bölümde, Python için Azure Data Lake Storage istemci kitaplığıyla çalışmak üzere bir proje hazırlama adımları açıklanmaktadır.

Proje dizininizden komutunu kullanarak pip install Azure Data Lake Storage ve Azure Identity istemci kitaplıkları için paketleri yükleyin. Azure hizmetlerine parolasız bağlantılar için azure-identity paketi gereklidir.

pip install azure-storage-file-datalake azure-identity

Ardından kod dosyanızı açın ve gerekli içeri aktarma deyimlerini ekleyin. Bu örnekte, .py dosyamıza aşağıdakileri ekleyeceğiz:

import os
from azure.storage.filedatalake import (
    DataLakeServiceClient,
    DataLakeDirectoryClient,
    FileSystemClient
)
from azure.identity import DefaultAzureCredential

Not

Data Lake Storage'da çoklu protokol erişimi, uygulamaların hiyerarşik ad alanı (HNS) etkinleştirilmiş depolama hesaplarındaki verilerle çalışmak için hem Blob API'lerini hem de Data Lake Storage 2. Nesil API'lerini kullanmasını sağlar. Dizin işlemleri ve ACL'ler gibi Data Lake Storage 2. Nesil benzersiz özelliklerle çalışırken, bu makalede gösterildiği gibi Data Lake Storage 2. Nesil API'lerini kullanın.

Belirli bir senaryoda kullanılacak API'leri seçerken, HNS'nin iş yükleri ve uygulamalar üzerindeki bilinen sorunları ve etkisinin yanı sıra uygulamanızın iş yükünü ve gereksinimlerini göz önünde bulundurun.

Erişimi yetkilendirme ve veri kaynaklarına bağlanma

Bu makaledeki kod örnekleriyle çalışmak için depolama hesabını temsil eden yetkili bir DataLakeServiceClient örneği oluşturmanız gerekir. Bir nesneyi Microsoft Entra Id, hesap erişim anahtarı veya paylaşılan erişim imzası (SAS) kullanarak yetkilandırabilirsiniz DataLakeServiceClient .

Microsoft Entra ID ile uygulamanızın kimliğini doğrulamak için Python için Azure kimlik istemci kitaplığını kullanabilirsiniz.

DataLakeServiceClient sınıfının bir örneğini oluşturun ve DefaultAzureCredential nesnesini geçirin.

def get_service_client_token_credential(self, account_name) -> DataLakeServiceClient:
    account_url = f"https://{account_name}.dfs.core.windows.net"
    token_credential = DefaultAzureCredential()

    service_client = DataLakeServiceClient(account_url, credential=token_credential)

    return service_client

Verilere erişimi yetkilendirmek için kullanma DefaultAzureCredential hakkında daha fazla bilgi edinmek için bkz . Genel Bakış: Azure SDK'yı kullanarak Azure'da Python uygulamalarının kimliğini doğrulama.

Kapsayıcı oluşturma

Kapsayıcı, dosyalarınız için dosya sistemi görevi görür. Aşağıdaki yöntemi kullanarak kapsayıcı oluşturabilirsiniz:

Aşağıdaki kod örneği bir kapsayıcı oluşturur ve daha sonra kullanmak üzere bir FileSystemClient nesne döndürür:

def create_file_system(self, service_client: DataLakeServiceClient, file_system_name: str) -> FileSystemClient:
    file_system_client = service_client.create_file_system(file_system=file_system_name)

    return file_system_client

Dizin oluşturma

Aşağıdaki yöntemi kullanarak kapsayıcıda dizin başvurusu oluşturabilirsiniz:

Aşağıdaki kod örneği bir kapsayıcıya dizin ekler ve daha sonra kullanmak üzere bir DataLakeDirectoryClient nesne döndürür:

def create_directory(self, file_system_client: FileSystemClient, directory_name: str) -> DataLakeDirectoryClient:
    directory_client = file_system_client.create_directory(directory_name)

    return directory_client

Bir dizini yeniden adlandırma veya taşıma

Aşağıdaki yöntemi kullanarak dizini yeniden adlandırabilir veya taşıyabilirsiniz:

Bağımsız değişkeninde yeni dizin adıyla new_name yolu geçirin. Değer şu biçime sahip olmalıdır: {filesystem}/{directory}/{subdirectory}.

Aşağıdaki kod örneğinde bir alt dizinin nasıl yeniden adlandırılası gösterilmektedir:

def rename_directory(self, directory_client: DataLakeDirectoryClient, new_dir_name: str):
    directory_client.rename_directory(
        new_name=f"{directory_client.file_system_name}/{new_dir_name}")

Dizine dosya yükleme

Aşağıdaki yöntemi kullanarak içeriği yeni veya mevcut bir dosyaya yükleyebilirsiniz:

Aşağıdaki kod örneği, upload_data yöntemini kullanarak bir dosyanın bir dizine nasıl yüklendiğini gösterir:

def upload_file_to_directory(self, directory_client: DataLakeDirectoryClient, local_path: str, file_name: str):
    file_client = directory_client.get_file_client(file_name)

    with open(file=os.path.join(local_path, file_name), mode="rb") as data:
        file_client.upload_data(data, overwrite=True)

Bu yöntemi kullanarak yeni bir dosyaya içerik oluşturabilir ve karşıya yükleyebilir veya var olan bir dosyanın üzerine yazacak şekilde bağımsız değişkenini True olarak ayarlayabilirsinizoverwrite.

Dosyaya veri ekleme

Aşağıdaki yöntemi kullanarak bir dosyaya eklenecek verileri karşıya yükleyebilirsiniz:

  • DataLakeFileClient.append_data yöntemi.

Aşağıdaki kod örneği, aşağıdaki adımları kullanarak dosyanın sonuna veri eklemeyi gösterir:

def append_data_to_file(self, directory_client: DataLakeDirectoryClient, file_name: str):
    file_client = directory_client.get_file_client(file_name)
    file_size = file_client.get_file_properties().size
    
    data = b"Data to append to end of file"
    file_client.append_data(data, offset=file_size, length=len(data))

    file_client.flush_data(file_size + len(data))

Bu yöntemle veriler yalnızca bir dosyaya eklenebilir ve işlem istek başına 4000 MiB ile sınırlıdır.

Dizinden indirme

Aşağıdaki kod örneğinde, aşağıdaki adımları kullanarak bir dizinden yerel dosyaya dosya indirme işlemi gösterilmektedir:

def download_file_from_directory(self, directory_client: DataLakeDirectoryClient, local_path: str, file_name: str):
    file_client = directory_client.get_file_client(file_name)

    with open(file=os.path.join(local_path, file_name), mode="wb") as local_file:
        download = file_client.download_file()
        local_file.write(download.readall())
        local_file.close()

Dizin içeriğini listeleme

Dizin içeriğini listelemek için aşağıdaki yöntemi kullanabilir ve sonucu numaralandırabilirsiniz:

Sonuçta yolların numaralandırılması, değerleri getirirken hizmete birden çok istekte bulunabilir.

Aşağıdaki kod örneği, bir dizinde bulunan her alt dizinin ve dosyanın yolunu yazdırır:

def list_directory_contents(self, file_system_client: FileSystemClient, directory_name: str):
    paths = file_system_client.get_paths(path=directory_name)

    for path in paths:
        print(path.name + '\n')

Bir dizini silme

Aşağıdaki yöntemi kullanarak bir dizini silebilirsiniz:

Aşağıdaki kod örneğinde bir dizinin nasıl silineceği gösterilmektedir:

def delete_directory(self, directory_client: DataLakeDirectoryClient):
    directory_client.delete_directory()

Ayrıca bkz.