Photon nedir?
Bu makalede, iş yüklerinizi Photon sorgu altyapısında çalıştırmanın avantajları açıklanmaktadır.
Photon, SQL iş yüklerinizi ve DataFrame API çağrılarını daha hızlı çalıştırarak iş yükü başına toplam maliyetinizi azaltan yüksek performanslı bir Azure Databricks yerel vektörleştirilmiş sorgu altyapısıdır. Photon, Apache Spark API'leriyle uyumlu olduğundan mevcut kodunuzla çalışır.
Foton özellikleri
Aşağıda, Foton kullanmanın temel özellikleri ve avantajları yer alır.
- Delta ve Parquet tablesile SQL ve eşdeğer DataFrame işlemleri desteği.
- Verileri daha hızlı işleyen ve toplamalar ile birleştirmeler içeren hızlandırılmış sorgular.
- Disk önbelleğinden verilere art arda erişildiğinde daha hızlı performans.
- Birçok columns ve birçok küçük dosya içeren tables üzerinde güçlü tarama performansı.
- Binlerce columnsiçeren geniş tables dahil olmak üzere
UPDATE
,DELETE
,MERGE INTO
,INSERT
veCREATE TABLE AS SELECT
kullanarak daha hızlı Delta ve Parquet yazma. - Sıralama birleştirme birleşimlerini karma birleşimlerle değiştirir.
- Yapay zeka ve ML iş yükleri için Photon, Spark SQL, Spark DataFrames, özellik mühendisliği, GraphFrames ve xgboost4j kullanan uygulamaların performansını artırır.
Foton etkinleştirme
Foton etkinleştirme işlem türüne göre değişir:
Foton, varsayılan olarak SQL ambarlarında ve not defterleri ve iş akışları için sunucusuz işlemde çalışır.
Photon, Databricks Runtime 9.1 LTS ve üzerini çalıştıran işlemde varsayılan olarak etkindir.
Photon, Machine Learning (EoS) veya üzeri için Databricks Runtime 15.2
çalıştıran işlemde el ile etkinleştirilebilir.
Foton etkinleştirmeyi yapılandırma
Tüm amaçlı işlem ve işler hesaplamasında Photon'u etkinleştirmek veya devre dışı bırakmak için, selectPhoton Hızlandırma Kullan onay kutusunu İşlem Kullanıcı Arabirimi'de işaretleyin.
Photon, Kümeler API'siyle veya İşler API'siyle oluşturulan işlemlerde varsayılan olarak etkinleştirilmez. Photon'ı etkinleştirmek için runtime_engine
özniteliğini PHOTON
olarak ayarlamanız set.
Desteklenen örnek türleri
Photon, sürücü ve çalışan düğümlerinde bir dizi örnek türünü destekler. Foton örneği türleri, DBU'ları Photon olmayan çalışma zamanını çalıştıran aynı örnek türünden farklı bir hızda kullanır. Foton örnekleri ve DBU tüketimi hakkında daha fazla bilgi için bkz . Azure Databricks fiyatlandırma sayfası.
Desteklenen işleçler, ifadeler ve veri türleri
Aşağıda Photon'un kapsadığı işleçler, ifadeler ve veri türleri yer alır.
İşleçler
- Tarama, Filtreleme, Proje
- Özet Toplama/Join/Yeniden Düzenleme
- Nested-Loop Join
- Null-Aware Karşı Join
- Union, Expand, ScalarSubquery
- Delta/Parquet Yazma Havuzu
- Sırala
- Window İşlevi
İfadeler
- Karşılaştırma / Mantık
- Aritmetik / Matematik (en fazla)
- Koşullu (EĞER, BÜYÜK/KÜÇÜK HARF vb.)
- Dize (yaygın olanlar)
- Çevirir
- Toplamalar (en yaygın olanlar)
- Tarih/Zaman Damgası
Veri türleri
- Bayt/Kısa/Kısa/Uzun
- Boolean
- Dize/İkili
- Ondalık
- Kayan/Çift
- Tarih/Zaman Damgası
- Yapı
- Dizi
- Harita
Foton gerektiren özellikler
Aşağıda Foton gerektiren özellikler yer alır.
- Okuma ve yazma için tahmine dayalı G/Ç. Bkz. Tahmine dayalı G/Ç nedir?.
- H3 jeo-uzamsal ifadeler. Bkz. H3 jeo-uzamsal işlevler.
-
MERGE
,UPDATE
veDELETE
deyimlerinde dinamik dosya ayıklama. Bkz. Dinamik dosya ayıklama.
Sınırlamalar
- Yapılandırılmış Akış: Photon şu anda Delta, Parquet, CSV ve JSON ile durum bilgisi olmayan akış desteğine sahip. Durum bilgisi olmayan Kafka ve Kinesis akışı, Delta veya Parquet havuzuna yazılırken desteklenir.
- Foton UDF'leri, RDD API'lerini veya Veri Kümesi API'lerini desteklemez.
- Foton normalde iki saniyenin altında çalışan sorguları etkilemez.
İş yükünüz desteklenmeyen bir işleme isabet ederse, işlem kaynağı iş yükünün geri kalanı için standart çalışma zamanı altyapısına geçer.