Aktualizacje konserwacji środowiska Databricks Runtime
W tym artykule wymieniono aktualizacje konserwacji dla obsługiwanych wersji środowiska Databricks Runtime. Aby dodać konserwację update do istniejącego klastra, uruchom ponownie klaster. Aby uzyskać informacje o aktualizacjach konserwacji w nieobsługiwanych wersjach środowiska Databricks Runtime, zobacz Aktualizacje konserwacji środowiska Databricks Runtime (zarchiwizowane).
Uwaga
Wydania są etapowe. Twoje konto usługi Azure Databricks może nie update przez kilka dni po początkowej dacie wydania.
Wersje środowiska Databricks Runtime
Aktualizacje konserwacji według wydania:
- Databricks Runtime 16.0
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 16.0
Zobacz Databricks Runtime 16.0.
- 10 grudnia 2024 r.
- (Zmiana powodująca niezgodność) W środowisku Databricks Runtime 15.4 lub nowszym obsługa wyrażeń regularnych w aplikacji Photon jest aktualizowana w celu dopasowania do zachowania obsługi wyrażeń regularnych platformy Apache Spark. Wcześniej funkcje wyrażeń regularnych uruchamiane przez aplikację Photon, takie jak
split()
iregexp_extract()
, zaakceptowały niektóre wyrażenia regularne odrzucone przez analizator Spark. Aby zachować spójność z platformą Apache Spark, zapytania Photon nie będą teraz działać w przypadku wyrażeń regularnych, które platforma Spark uważa za nieprawidłowe. Ze względu na tę zmianę możesz zobaczyć błędy, jeśli kod platformy Spark zawiera nieprawidłowe wyrażenia regularne. Na przykład, wyrażeniesplit(str_col, '{')
, które zawiera niepasujący nawias i zostało wcześniej zaakceptowane przez Photon, teraz jest odrzucane. Aby naprawić to wyrażenie, możesz użyć znaku ucieczki przed nawiasem klamrowym:split(str_col, '\\{')
. Zachowanie Photon i Spark również różniło się w przypadku dopasowania niektórych wyrażeń regularnych do znaków spoza ASCII. Jest to również aktualizowane, aby aplikacja Photon odpowiadała zachowaniu platformy Apache Spark. - W tej wersji można teraz wykonywać zapytania dotyczące funkcji
vector_search
przy użyciuquery_text
dla wprowadzania tekstu lubquery_vector
na potrzeby osadzania danych wejściowych. - Teraz możesz set ustawić limit czasu dla zapytań Spark Connect przy użyciu właściwości konfiguracji
spark.databricks.execution.timeout
. W przypadku notatników działających w obliczeniach bezserwerowych wartość domyślna to9000
(sekundy). Zadania działające na bezserwerowych oraz udostępnionych klastrach obliczeniowych nie mają limitu czasu, chyba że ta właściwość konfiguracji jest set. Wykonanie, które trwa dłużej niż określony limit czasu, powoduje błądQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-49843][SQL] Popraw komentarz dotyczący zmiany w columns char/varchar
-
[SPARK-49924][SQL] Zachowaj
containsNull
po zastąpieniuArrayCompact
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-48780][SQL] Uogólnienie błędów w NamedParametersSupport do obsługi funkcji i procedur
- [SPARK-49876][CONNECT] Get usunięcie blokad globalnych z usługi Spark Connect
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-49615] Usterka: sprawdzanie poprawności columnschema uczenia maszynowego jest zgodne z konfiguracją platformy Spark spark.sql.caseSensitive
- [SPARK-48782][SQL] Dodaj obsługę wykonywania procedur w catalogs
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49829] Przejrzyj optymalizację dodawania wejścia do sklepu stanów w przetwarzaniu strumień-strumień join (poprawka poprawności)
- Przywróć "[SPARK-49002][SQL] Spójna obsługa nieprawidłowych lokalizacji w WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY"
- [SPARK-50028][CONNECT] Zastąp blokady globalne w odbiorniku serwera Spark Connect precyzyjnymi blokadami
- [SPARK-49615] [ML] Ustaw zestaw danych przekształcania funkcji uczenia maszynowego schema weryfikacji zgodny z konfiguracją "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET powinny zachować kolejność danych
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (Zmiana powodująca niezgodność) W środowisku Databricks Runtime 15.4 lub nowszym obsługa wyrażeń regularnych w aplikacji Photon jest aktualizowana w celu dopasowania do zachowania obsługi wyrażeń regularnych platformy Apache Spark. Wcześniej funkcje wyrażeń regularnych uruchamiane przez aplikację Photon, takie jak
Databricks Runtime 15.4
Zobacz Databricks Runtime 15.4 LTS.
- 26 listopada 2024 r.
- W tej wersji można teraz wykonywać zapytania dotyczące funkcji
vector_search
przy użyciuquery_text
dla wprowadzania tekstu lubquery_vector
na potrzeby osadzania danych wejściowych. - Teraz możesz set limit czasu dla zapytań Spark Connect przy użyciu właściwości konfiguracji Spark
spark.databricks.execution.timeout
. W przypadku notatników działających w obliczeniach bezserwerowych wartość domyślna to9000
(sekundy). Zadania uruchamiane na bezserwerowych zasobach obliczeniowych i współdzielonych klastrach nie mają limitu czasu, chyba że ta właściwość konfiguracji jest set. Wykonanie, które trwa dłużej niż określony limit czasu, powoduje błądQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - pl-PL: [SPARK-50322][SQL] Poprawiono sparametryzowane identifier w podzapytaniu
- [SPARK-49615] [ML] Ustaw zestaw danych przekształcania funkcji uczenia maszynowego schema weryfikacji zgodny z konfiguracją "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET powinny zachować kolejność danych
- Aktualizacje zabezpieczeń systemu operacyjnego.
- W tej wersji można teraz wykonywać zapytania dotyczące funkcji
- 5 listopada 2024 r.
- (Zmiana powodująca niezgodność) W środowisku Databricks Runtime 15.4 lub nowszym obsługa wyrażeń regularnych w Photon jest aktualizowana, aby dopasować do sposobu działania obsługi wyrażeń regularnych platformy Apache Spark. Wcześniej funkcje wyrażeń regularnych uruchamiane przez aplikację Photon, takie jak
split()
iregexp_extract()
, zaakceptowały niektóre wyrażenia regularne odrzucone przez analizator Spark. Aby zachować spójność z platformą Apache Spark, zapytania Photon nie będą teraz działać w przypadku wyrażeń regularnych, które platforma Spark uważa za nieprawidłowe. Ze względu na tę zmianę możesz zobaczyć błędy, jeśli kod platformy Spark zawiera nieprawidłowe wyrażenia regularne. Na przykład wyrażeniesplit(str_col, '{')
, które zawiera niedopasowany nawias klamrowy i zostało wcześniej zaakceptowane przez aplikację Photon, teraz kończy się niepowodzeniem. Aby naprawić to wyrażenie, możesz użyć znaku ucieczki dla nawiasu klamrowego:split(str_col, '\\{')
. Zachowanie Photon i Spark również różniło się w przypadku niektórych wyrażeń regularnych pasujących do znaków innych niż ASCII. Jest to również aktualizowane, aby aplikacja Photon odpowiadała zachowaniu platformy Apache Spark. - [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-49867][SQL] Poprawianie komunikatu o błędzie, gdy indeks jest poza granicami podczas wywoływania metody GetColumnByOrdinal
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49829] Zrewiduj optymalizację dodawania danych wejściowych do magazynu stanów w ramach strumienia-strumienia join (korekta poprawności)
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- [SPARK-49443][SQL][PYTHON] Implementowanie wyrażenia to_variant_object i drukowanie wyrażeń schema_of_variant dla obiektów wariantów
-
[SPARK-49615] Poprawka: weryfikacja zgodności columnschema z konfiguracją platformy Spark dla uczenia maszynowego
spark.sql.caseSensitive
.
- (Zmiana powodująca niezgodność) W środowisku Databricks Runtime 15.4 lub nowszym obsługa wyrażeń regularnych w Photon jest aktualizowana, aby dopasować do sposobu działania obsługi wyrażeń regularnych platformy Apache Spark. Wcześniej funkcje wyrażeń regularnych uruchamiane przez aplikację Photon, takie jak
- 22 października 2024 r.
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-49867][SQL] Poprawianie komunikatu o błędzie, gdy indeks jest poza granicami podczas wywoływania metody GetColumnByOrdinal
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49829] Popraw optymalizację dodawania danych wejściowych do magazynu stanów w strumieniu-strumieniu join (naprawa poprawności)
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- [SPARK-49443][SQL][PYTHON] Implementowanie wyrażenia to_variant_object i drukowanie wyrażeń schema_of_variant dla obiektów wariantów
-
[SPARK-49615] Poprawka błędu: walidacja columnschema uczenia maszynowego jest zgodna z konfiguracją platformy Spark
spark.sql.caseSensitive
.
- 10 października 2024 r.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie powinno zmieniać pól schema podczas redukowania pól GetArrayStructFields
- [SPARK-49688][CONNECT] Naprawianie wyścigu danych między przerwaniami i wykonaniem planu
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474[SS] Klasyfikowanie klasy Error dla błędu funkcji użytkownika FlatMapGroupsWithState
- [SPARK-49460][SQL] Obserwowanie: naprawianie potencjalnego ryzyka NPE
- 25 września 2024 r.
- [SPARK-49628][SQL] StałeFoldowanie powinno skopiować wyrażenie stanowe przed oceną
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- [SPARK-49492][CONNECT] Ponowne dołączanie próby przy nieaktywnym symbolu wykonania
- [SPARK-49458][CONNECT][PYTHON] Podaj identyfikator sesji po stronie serwera za pomocą polecenia ReattachExecute
- [SPARK-49017][SQL] instrukcja Insert kończy się niepowodzeniem, gdy jest używanych wiele parameters
- [SPARK-49451] Zezwalaj na zduplikowane klucze w parse_json.
- Różne poprawki błędów.
- 17 września 2024 r.
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor obsługujący zagnieżdżone dane wejściowe columns
- [SPARK-49409][CONNECT] Dostosowywanie wartości domyślnej CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][POPRAWKA-15.4.2] Obsługa ścieżek stylu systemu Windows w narzędziu ArtifactManager
- Przywróć wartość "[SPARK-48482][PYTHON] dropDuplicates and dropDuplicatesWIthinWatermark powinna akceptować wartości args o zmiennej długości"
- [SPARK-43242][CORE] Poprawka zgłasza błąd "Nieoczekiwany typ Blokuj" w diagnozowaniu uszkodzenia mieszania
- [SPARK-49366][CONNECT] Traktuj węzeł unii jako liść w rozdzielczości column ramce danych
- [SPARK-49018][SQL] Naprawianie approx_count_distinct nie działa poprawnie z sortowaniem
-
[SPARK-49460][SQL] Remove
cleanupResource()
z EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
- [SPARK-49336][CONNECT] Limit poziom zagnieżdżania podczas skracania komunikatu protobuf
- 29 sierpnia 2024 r.
- Dane wyjściowe instrukcji
SHOW CREATE TABLE
zawierają teraz wszelkie filtry wierszy lub maski column zdefiniowane w zmaterializowanym widoku lub w przesyle strumieniowym table. Zobacz SHOW CREATE TABLE. Aby dowiedzieć się więcej o filtrach wierszy i maskach column, zobacz Filtruj poufne dane table przy użyciu filtrów wierszy i maski column. - W przypadku obliczeń skonfigurowanych w trybie dostępu współdzielonego operacje odczytu i zapisu wsadowego platformy Kafka mają teraz takie same ograniczenia, jak te udokumentowane w przypadku przesyłania strumieniowego ze strukturą. Zobacz Ograniczenia przesyłania strumieniowego i wymagania dotyczące trybu dostępu współdzielonego Catalog w Unity.
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
-
[SPARK-49074][SQL] Naprawianie wariantu za pomocą polecenia
df.cache()
- [SPARK-49263][CONNECT] Klient platformy Spark Connect w języku Python: spójna obsługa opcji czytnika elementów logicznych ramek danych
- [SPARK-48955][SQL] Uwzględnij zmiany ArrayCompact w wersji 15.4
- [SPARK-48937][SQL] Dodano obsługę sortowania dla wyrażeń ciągu StringToMap
- [SPARK-48929] Naprawianie wewnętrznego błędu widoku i czyszczenie kontekstu wyjątku analizatora
- [SPARK-49125][SQL] Umożliwienie duplikowania nazw column przy zapisie do CSV
- [SPARK-48934][SS] Typy daty/godziny języka Python przekonwertowane niepoprawnie dla ustawienia limitu czasu w applyInPandasWithState
- [SPARK-48843] Zapobieganie nieskończonej pętli za pomocą narzędzia BindParameters
- [SPARK-48981] Naprawiono metodę simpleString typu StringType w narzędziu pyspark na potrzeby sortowania
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- [SPARK-48725][SQL] Integrowanie aplikacji CollationAwareUTF8String.lowerCaseCodePoints z wyrażeniami ciągów
- [SPARK-48978][SQL] Implementowanie szybkiej ścieżki ASCII w obsłudze sortowania dla UTF8_LCASE
- [SPARK-49047][PYTHON][CONNECT] Obcięcie komunikatu na potrzeby rejestrowania
- [SPARK-49146][SS] Przenoszenie błędów asercji związanych z brakiem watermark w zapytaniach przesyłania strumieniowego w trybie dołączania do platformy błędów
- [SPARK-48977][SQL] Optimize wyszukiwanie ciągów w obszarze sortowania UTF8_LCASE
- [SPARK-48889][SS] testStream do zwolnienia magazynów stanów przed zakończeniem
- [SPARK-48463] Zrób StringIndexer obsługiwanie zagnieżdżonych danych wejściowych columns
- [SPARK-48954] try_mod() zastępuje try_remainder()
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Dane wyjściowe instrukcji
Databricks Runtime 15.3
Zobacz Databricks Runtime 15.3.
- 26 listopada 2024 r.
- W tej wersji można teraz wykonywać zapytania dotyczące funkcji
vector_search
przy użyciuquery_text
dla wprowadzania tekstu lubquery_vector
na potrzeby osadzania danych wejściowych. - Aktualizacje zabezpieczeń systemu operacyjnego.
- W tej wersji można teraz wykonywać zapytania dotyczące funkcji
- 5 listopada 2024 r.
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-49867][SQL] Poprawianie komunikatu o błędzie, gdy indeks jest poza granicami podczas wywoływania metody GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Zapobieganie nieskończonej pętli za pomocą parametrów BindParameters
- [SPARK-49829] Popraw optymalizację dodawania danych wejściowych do magazynu stanów w join strumienia (poprawka poprawności)
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 października 2024 r.
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-49867][SQL] Poprawianie komunikatu o błędzie, gdy indeks jest poza granicami podczas wywoływania metody GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Zapobieganie nieskończonej pętli za pomocą parametrów BindParameters
- [SPARK-49829] Zrewiduj optymalizację dodawania danych wejściowych do pamięci stanów w procesowaniu strumień-strumień join (poprawka dotycząca poprawności)
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 października 2024 r.
- [SPARK-49688][CONNECT] Naprawianie wyścigu danych między przerwaniami i wykonaniem planu
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie powinien zmieniać pól oznaczonych jako schema podczas oczyszczania pól GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474[SS] Klasyfikowanie klasy Error dla błędu funkcji użytkownika FlatMapGroupsWithState
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 września 2024 r.
- [SPARK-49492][CONNECT] Ponowne dołączanie próby przy nieaktywnym symbolu wykonania
- [SPARK-49628][SQL] StałeFoldowanie powinno skopiować wyrażenie stanowe przed oceną
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Podaj identyfikator sesji po stronie serwera za pomocą polecenia ReattachExecute
-
[SPARK-48719][SQL] Naprawiono usterkę obliczania parametru
RegrSlope
iRegrIntercept
, gdy pierwszy parametr ma wartość null - Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 września 2024 r.
- [SPARK-49336][CONNECT] Limit poziom zagnieżdżania przy obcinaniu komunikatu protobuf
- [SPARK-49526][CONNECT][15.3.5] Obsługa ścieżek w stylu systemu Windows w narzędziu ArtifactManager
- [SPARK-49366][CONNECT] Traktuj węzeł Union jako liść podczas rozwiązywania w ramce danych column
- [SPARK-43242][CORE] Poprawka zgłasza błąd "Nieoczekiwany typ Blokuj" w diagnozowaniu uszkodzenia mieszania
- [SPARK-49409][CONNECT] Dostosowywanie wartości domyślnej CONNECT_SESSION_PLAN_CACHE_SIZE
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- [SPARK-49263][CONNECT] Klient platformy Spark Connect w języku Python: spójna obsługa opcji czytnika elementów logicznych ramek danych
- [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
-
[SPARK-48862][PYTHON][CONNECT] Unikaj wywoływania
_proto_to_string
, gdy poziom INFO nie jest włączony - [SPARK-49146][SS] Przenieść błędy asercji związane z brakiem watermark w zapytaniach przesyłania strumieniowego w trybie dołączania do struktury zarządzania błędami.
- 14 sierpnia 2024 r.
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
- [SPARK-48706][PYTHON] Funkcja UDF języka Python w funkcjach o wyższej kolejności nie powinna zgłaszać błędu wewnętrznego
- [SPARK-48954] try_mod() zastępuje try_remainder()
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-49047][PYTHON][CONNECT] Obcięcie komunikatu na potrzeby rejestrowania
- [SPARK-48740][SQL] Wczesne wykrywanie braku specyfikacji window jako błędu
- 1 sierpnia 2024 r.
- [Zmiana powodująca niezgodność] W środowisku Databricks Runtime 15.3 lub nowszym wywoływanie dowolnej funkcji zdefiniowanej przez table użytkownika języka Python (UDF), funkcji agregującej zdefiniowanej przez użytkownika (UDAF) lub funkcji zdefiniowanej przez użytkownika (UDTF) używającej typu
VARIANT
jako argumentu lub wartości zwracanej zgłasza wyjątek. Ta zmiana jest wprowadzana w celu zapobiegania problemom, które mogą wystąpić z powodu nieprawidłowej wartości zwróconej przez jedną z tych funkcji. Aby dowiedzieć się więcej o typieVARIANT
, zobacz Przechowywanie danych częściowo ustrukturyzowanych przy użyciu VARIANTów. - W przypadku bezserwerowych zasobów obliczeniowych dla notesów i zadań tryb SQL ANSI jest domyślnie włączony. Zobacz Obsługiwane konfiguracje platformy Spark parameters.
- W przypadku obliczeń skonfigurowanych w trybie dostępu współdzielonego operacje odczytu i zapisu wsadowego platformy Kafka mają teraz takie same ograniczenia, jak te udokumentowane w przypadku przesyłania strumieniowego ze strukturą. Zobacz ograniczenia przesyłania strumieniowego i wymagania dotyczące trybu dostępu współdzielonego Catalog dla Unity.
- Dane wyjściowe instrukcji
SHOW CREATE TABLE
obecnie zawierają wszystkie filtry wierszy lub maski column zdefiniowane w zmaterializowanym widoku lub przesyłania strumieniowego table. Zobacz SHOW CREATE TABLE. Aby dowiedzieć się więcej o filtrach wierszy i masce column, zobacz Filtruj poufne dane table za pomocą filtrów wierszy i masek column. - [SPARK-46957][CORE] Likwidowanie migrowanych plików mieszania powinno być możliwe wyczyszczenie z funkcji wykonawczej
- [SPARK-48648][PYTHON][CONNECT] Upewnij się, że element SparkConnectClient.tags jest poprawnie threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- [SPARK-48713][SQL] Dodawanie sprawdzania zakresu indeksów dla elementu UnsafeRow.pointTo, gdy obiekt baseObject jest tablicą bajtów
- [SPARK-48834][SQL] Wyłączanie danych wejściowych/wyjściowych wariantu do scalarnych funkcji zdefiniowanych przez użytkownika języka Python, funkcji ZDEFINIOWANYch przez użytkownika, funkcji UDAFs podczas kompilacji zapytań
- [SPARK-48934][SS] Typy daty/godziny języka Python przekonwertowane niepoprawnie dla ustawienia limitu czasu w applyInPandasWithState
- [SPARK-48705][PYTHON] Jawne użycie worker_main, gdy rozpoczyna się od pyspark
- [SPARK-48544][SQL] Zmniejsz wykorzystanie pamięci pustych zestawów bitów TreeNode
- [SPARK-48889][SS] testStream do zwolnienia magazynów stanów przed zakończeniem
- [SPARK-49054][SQL] Column wartość domyślna powinna obsługiwać funkcje current_*
- [SPARK-48653][PYTHON] Naprawianie nieprawidłowych odwołań do klas błędów źródła danych języka Python
- pl-PL: [SPARK-48463] Umożliwienie StringIndexer obsługi zagnieżdżonych danych wejściowych columns
- [SPARK-48810][CONNECT] Interfejs API stop() sesji powinien być idempotentny i nie zakończyć się niepowodzeniem, jeśli sesja została już zamknięta przez serwer
- [SPARK-48873][SQL] Użyj elementu UnsafeRow w analizatorze JSON.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- [Zmiana powodująca niezgodność] W środowisku Databricks Runtime 15.3 lub nowszym wywoływanie dowolnej funkcji zdefiniowanej przez table użytkownika języka Python (UDF), funkcji agregującej zdefiniowanej przez użytkownika (UDAF) lub funkcji zdefiniowanej przez użytkownika (UDTF) używającej typu
- 11 lipca 2024 r.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródłowa jest zastępowana. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
.checkpoint()
, aby utrwalać stan table przez cały okres istnienia ramki danych. - Sterownik JDBC snowflake został zaktualizowany do wersji 3.16.1.
- Ta wersja zawiera poprawkę problemu, który uniemożliwił poprawne wyświetlanie karty Środowisko interfejsu użytkownika platformy Spark podczas uruchamiania w usługach Kontener Services usługi Databricks.
- Aby zignorować nieprawidłowe partycje podczas odczytywania danych, źródeł danych opartych na plikach, takich jak Parquet, ORC, CSV lub JSON, może set opcji ignoreInvalidPartitionPaths źródła danych true. Na przykład: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Można również użyć konfiguracji SQL spark.sql.files.ignoreInvalidPartitionPaths. Jednak opcja źródła danych ma pierwszeństwo przed konfiguracją SQL. To ustawienie jest domyślnie fałszywe.
- [SPARK-48100][SQL] Rozwiązywanie problemów z pomijaniem zagnieżdżonych pól struktury nie zaznaczonych w schema
- [SPARK-47463][SQL] Użyj elementu V2Predicate do zawijania wyrażenia z zwracanymi typem wartości logicznej
- [SPARK-48292][CORE] Przywracanie [SPARK-39195][SQL] Spark OutputCommitCoordinator powinno przerwać etap, gdy zatwierdzony plik nie jest zgodny ze stanem zadania
- [SPARK-48475][PYTHON] Optimize _get_jvm_function w PySpark.
- [SPARK-48286] Poprawa analizy column z istniejącym wyrażeniem domyślnym - Dodanie błędu widocznego dla użytkownika
- [SPARK-48481][SQL][SS] Nie stosuj elementu OptimizeOneRowPlan względem zestawu danych przesyłania strumieniowego
- Przywróć wartość "[SPARK-47406][SQL] Handle TIMESTAMP and DATETIME in MYSQLDialect"
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- [SPARK-48503][14.3-15.3][SQL] Naprawiono nieprawidłowe podzapytania skalarne z użyciem grupowania według dla grup, które nie są równoważne columns i były błędnie dozwolone.
- [SPARK-48445][SQL] Nie udostępniaj wbudowanych funkcji zdefiniowanych przez użytkownika z kosztownymi dziećmi
- [SPARK-48252][SQL] Update CommonExpressionRef w razie potrzeby
- [SPARK-48273][master][SQL] Naprawa późnego ponownego zapisywania planuWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Popraw błąd wherepartition indeksy są niepoprawne, gdy analiza() UDTF używa zarówno select, jak i partitionColumns.
- [SPARK-48556][SQL] Naprawianie nieprawidłowego komunikatu o błędzie wskazującego UNSUPPORTED_GROUPING_EXPRESSION
- Aktualizacje zabezpieczeń systemu operacyjnego.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródłowa jest zastępowana. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
Databricks Runtime 15.2
Zobacz Databricks Runtime 15.2.
- 26 listopada 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 listopada 2024 r.
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-48843][15.3,15.2] Zapobieganie nieskończonej pętli za pomocą parametrów BindParameters
- [SPARK-49829] Popraw optymalizację dodawania danych wejściowych do sklepu stanów w przetwarzaniu strumień-strumień join (poprawka korektywna)
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 października 2024 r.
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-48843][15.3,15.2] Zapobieganie nieskończonej pętli za pomocą parametrów BindParameters
- [SPARK-49829] Zaktualizuj optymalizację dodawania danych wejściowych do magazynu stanów w stream-stream join (poprawka dla poprawności)
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 października 2024 r.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474[SS] Klasyfikowanie klasy Error dla błędu funkcji użytkownika FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie powinien zmieniać pól schema podczas przycinania pól GetArrayStructFields
- [SPARK-49688][CONNECT] Naprawianie wyścigu danych między przerwaniami i wykonaniem planu
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 września 2024 r.
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- [SPARK-48719][SQL] Naprawiono usterkę obliczania regrSlope i RegrIntercept, gdy pierwszy parametr ma wartość null
- [SPARK-49458][CONNECT][PYTHON] Podaj identyfikator sesji po stronie serwera za pomocą polecenia ReattachExecute
- [SPARK-49628][SQL] StałeFoldowanie powinno skopiować wyrażenie stanowe przed oceną
- [SPARK-49492][CONNECT] Ponowne dołączanie próby przy nieaktywnym symbolu wykonania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 września 2024 r.
- [SPARK-49336][CONNECT] Limit poziom zagnieżdżania podczas obcinania komunikatu protobuf
- [SPARK-49526][CONNECT] Obsługa ścieżek w stylu systemu Windows w narzędziu ArtifactManager
- [SPARK-49366][CONNECT] Traktuj węzeł unii jako liść w rozdzielczości column ramce danych
- [SPARK-43242][CORE] Poprawka zgłasza błąd "Nieoczekiwany typ Blokuj" w diagnozowaniu uszkodzenia mieszania
- [SPARK-49409][CONNECT] Dostosowywanie wartości domyślnej CONNECT_SESSION_PLAN_CACHE_SIZE
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
-
[SPARK-48862][PYTHON][CONNECT] Unikaj wywoływania
_proto_to_string
, gdy poziom INFO nie jest włączony - [SPARK-49263][CONNECT] Klient platformy Spark Connect w języku Python: spójna obsługa opcji czytnika elementów logicznych ramek danych
- [SPARK-49146][SS] Przenieś błędy asercji związane z brakiem watermark w zapytaniach przesyłania strumieniowego w trybie dołączania do ramy obsługi błędów
- 14 sierpnia 2024 r.
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
- [SPARK-48050][SS] Rejestrowanie planu logicznego podczas uruchamiania zapytania
- [SPARK-48706][PYTHON] Funkcja UDF języka Python w funkcjach o wyższej kolejności nie powinna zgłaszać błędu wewnętrznego
- [SPARK-48740][SQL] Wczesne przechwytywanie brakującego błędu specyfikacji window
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-49047][PYTHON][CONNECT] Obcięcie komunikatu na potrzeby rejestrowania
- 1 sierpnia 2024 r.
- W przypadku bezserwerowych zasobów obliczeniowych dla notesów i zadań tryb SQL ANSI jest domyślnie włączony. Zobacz Obsługiwane konfiguracje platformy Spark parameters.
- W przypadku obliczeń skonfigurowanych w trybie dostępu współdzielonego operacje odczytu i zapisu wsadowego platformy Kafka mają teraz takie same ograniczenia, jak te udokumentowane w przypadku przesyłania strumieniowego ze strukturą. Zobacz ograniczenia przesyłania strumieniowego i wymagania dla trybu dostępu współdzielonego Catalog Unity.
- Wyniki z instrukcji
SHOW CREATE TABLE
zawierają teraz wszystkie filtry wierszy lub maski column zdefiniowane w widoku zmaterializowanym lub przesyłaniu strumieniowym table. Zobacz SHOW CREATE TABLE. Aby dowiedzieć się więcej o filtrach wierszy i maskach column, zapoznaj się z Filtruj poufne dane table przy użyciu filtrów wierszy i masek column. - [SPARK-48705][PYTHON] Jawne użycie worker_main, gdy rozpoczyna się od pyspark
- [SPARK-48047][SQL] Zmniejsz wykorzystanie pamięci pustych tagów TreeNode
- [SPARK-48810][CONNECT] Interfejs API stop() sesji powinien być idempotentny i nie zakończyć się niepowodzeniem, jeśli sesja została już zamknięta przez serwer
- [SPARK-48873][SQL] Użyj elementu UnsafeRow w analizatorze JSON.
- [SPARK-46957][CORE] Likwidowanie migrowanych plików mieszania powinno być możliwe wyczyszczenie z funkcji wykonawczej
- [SPARK-48889][SS] testStream do zwolnienia magazynów stanów przed zakończeniem
- [SPARK-48713][SQL] Dodawanie sprawdzania zakresu indeksów dla elementu UnsafeRow.pointTo, gdy obiekt baseObject jest tablicą bajtów
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- [SPARK-48544][SQL] Zmniejsz wykorzystanie pamięci pustych zestawów bitów TreeNode
- [SPARK-48934][SS] Typy daty/godziny języka Python przekonwertowane niepoprawnie dla ustawienia limitu czasu w applyInPandasWithState
- [SPARK-48463] Uczyń StringIndexer obsługującym zagnieżdżone dane wejściowe columns
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 lipca 2024 r.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródłowa jest zastępowana. Ta zmiana oznacza, że wszystkie zmiany stanu dla Delta tables teraz unieważniają wyniki pamięci podręcznej. Użyj
.checkpoint()
, aby utrwalać stan table przez cały okres istnienia ramki danych. - Sterownik JDBC snowflake został zaktualizowany do wersji 3.16.1.
- Ta wersja zawiera poprawkę problemu, który uniemożliwił poprawne wyświetlanie karty Środowisko interfejsu użytkownika platformy Spark podczas uruchamiania w usługach Kontener Services usługi Databricks.
- W notesach i zadaniach bezserwerowych tryb SQL ANSI będzie domyślnie włączony i obsługuje krótkie nazwy
- Aby zignorować nieprawidłowe partycje podczas odczytywania danych, źródeł danych opartych na plikach, takich jak Parquet, ORC, CSV lub JSON, może set opcji ignoreInvalidPartitionPaths źródła danych true. Na przykład: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Można również użyć konfiguracji SQL spark.sql.files.ignoreInvalidPartitionPaths. Jednak opcja źródła danych ma pierwszeństwo przed konfiguracją SQL. To ustawienie jest domyślnie fałszywe.
- [SPARK-48273][SQL] Naprawa późnego ponownego zapisywania planuWithUnresolvedIdentifier
- [SPARK-48292][CORE] Przywracanie [SPARK-39195][SQL] Spark OutputCommitCoordinator powinno przerwać etap, gdy zatwierdzony plik nie jest zgodny ze stanem zadania
- [SPARK-48100][SQL] Rozwiązywanie problemów z pomijaniem zagnieżdżonych pól struktury nie zaznaczonych w schema
- [SPARK-48286] Naprawa analizy column z istniejącym wyrażeniem domyślnym - Dodanie błędu widocznego dla użytkownika
- [SPARK-48294][SQL] Obsługa małych liter w zagnieżdżonym typieMissingElementTypeError
- [SPARK-48556][SQL] Naprawianie nieprawidłowego komunikatu o błędzie wskazującego UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Upewnij się, że element SparkConnectClient.tags jest poprawnie threadlocal
- [SPARK-48503][SQL] Naprawienie nieprawidłowych podzapytań skalarnych z grupowaniem według na columns, które były niepoprawnie dozwolone
- [SPARK-48252][SQL] Update CommonExpressionRef w razie potrzeby
- [SPARK-48475][PYTHON] Optimize _get_jvm_function w PySpark.
- [SPARK-48566][PYTHON] Napraw błąd wherepartition indeksy są niepoprawne, gdy funkcja analizy UDTF używa zarówno select, jak i partitionColumns
- [SPARK-48481][SQL][SS] Nie stosuj elementu OptimizeOneRowPlan względem zestawu danych przesyłania strumieniowego
- [SPARK-47463][SQL] Użyj elementu V2Predicate do zawijania wyrażenia z zwracanymi typem wartości logicznej
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- [SPARK-48445][SQL] Nie udostępniaj wbudowanych funkcji zdefiniowanych przez użytkownika z kosztownymi dziećmi
- Aktualizacje zabezpieczeń systemu operacyjnego.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródłowa jest zastępowana. Ta zmiana oznacza, że wszystkie zmiany stanu dla Delta tables teraz unieważniają wyniki pamięci podręcznej. Użyj
- 17 czerwca 2024 r.
-
applyInPandasWithState()
jest dostępny w udostępnionych klastrach. - Naprawia problem where optymalizacji rangiwindow z niepoprawną obsługą partycji w Photon TopK ze strukturami.
- Usunięto błąd w funkcji try_divide(), gdzie dane wejściowe where zawierające liczby dziesiętne powodowały nieoczekiwane wyjątki.
- [SPARK-48197][SQL] Unikaj błędu potwierdzenia dla nieprawidłowej funkcji lambda
-
[SPARK-48276][PYTHON][CONNECT] Dodaj brakującą
__repr__
metodę dla poleceniaSQLExpression
- [SPARK-48014][SQL] Zmień błąd makeFromJava w pliku EvaluatePython na błąd napotykany przez użytkownika
- [SPARK-48016][SQL] Naprawiono usterkę w funkcji try_divide, gdy w przypadku liczby dziesiętnej
- [SPARK-47986][CONNECT][PYTHON] Nie można utworzyć nowej sesji, gdy sesja domyślna jest zamknięta przez serwer
- [SPARK-48173][SQL] Funkcja CheckAnalysis powinna wyświetlić cały plan zapytania
- [SPARK-48056][CONNECT][PYTHON] Wykonaj ponownie plan, jeśli zostanie zgłoszony błąd SESSION_NOT_FOUND i nie odebrano częściowej odpowiedzi
- [SPARK-48172][SQL] Rozwiązywanie problemów z ucieczką w backportacji JDBCDialects do wersji 15.2
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- [SPARK-48288] Dodawanie typu danych źródłowych dla wyrażenia rzutowego łącznika
- [SPARK-48310][PYTHON][CONNECT] Właściwości buforowane muszą zwracać kopie
- [SPARK-48277] Ulepszanie komunikatu o błędzie dla errorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Nie można utworzyć nowej sesji, gdy sesja domyślna jest zamknięta przez serwer
- Przywróć wartość "[SPARK-47406][SQL] Handle TIMESTAMP and DATETIME in MYSQLDialect"
- [SPARK-47994][SQL] Naprawiono błąd z CASE WHEN column przepychaniem filtrów w SQLServer
- [SPARK-47764][CORE][SQL] Czyszczenie zależności mieszania na podstawie funkcji ShuffleCleanupMode
- [SPARK-47921][CONNECT] Naprawiono tworzenie elementu ExecuteJobTag w elemecie ExecuteHolder
- [SPARK-48010][SQL] Unikaj powtarzających się wywołań narzędzia conf.resolver w pliku resolveExpression
- [SPARK-48146][SQL] Naprawianie funkcji agregującej w asercji podrzędnej wyrażeń
- [SPARK-48180][SQL] Popraw błąd, gdy wywołanie UDTF z TABLE arg brakuje nawiasów wokół wielu PARTITION/ORDER BY wyrażeń
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
Databricks Runtime 14.3
Zobacz Databricks Runtime 14.3 LTS.
- 26 listopada 2024 r.
- [SPARK-49615] [ML] Ustaw zestaw danych przekształcania funkcji uczenia maszynowego schema weryfikacji zgodny z konfiguracją "spark.sql.caseSensitive".
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 listopada 2024 r.
- [SPARK-48843] Zapobieganie nieskończonej pętli za pomocą narzędzia BindParameters
- [SPARK-49829] Popraw optymalizację dodawania danych wejściowych do magazynu stanów w join strumienia (poprawka poprawności)
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Klasyfikowanie klasy error dla błędu funkcji użytkownika ujścia foreach
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 października 2024 r.
- [SPARK-48843] Zapobieganie nieskończonej pętli za pomocą narzędzia BindParameters
- [SPARK-49863][SQL] Naprawa parametru NormalizeFloatingNumbers w celu zachowania zerowości zagnieżdżonych struktur
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- [SPARK-46632][SQL] Naprawianie eliminacji podwyrażenia, gdy równoważne wyrażeniaternarne mają różne elementy podrzędne
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Klasyfikowanie klasy error dla błędu funkcji użytkownika ujścia foreach
- [SPARK-49829] Zrewiduj optymalizację dodawania danych wejściowych do magazynu stanów w przypadku strumień-strumień join (poprawka dotycząca poprawności)
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 października 2024 r.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474[SS] Klasyfikowanie klasy Error dla błędu funkcji użytkownika FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie powinien zmieniać pól schema podczas przycinania pól GetArrayStructFields
- [SPARK-49688][CONNECT] Naprawianie wyścigu danych między przerwaniami i wykonaniem planu
- 25 września 2024 r.
- [SPARK-48810][CONNECT] Interfejs API stop() sesji powinien być idempotentny i nie zakończyć się niepowodzeniem, jeśli sesja została już zamknięta przez serwer
- [SPARK-48719][SQL] Napraw usterkę obliczania "RegrS...
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- [SPARK-49628][SQL] StałeFoldowanie powinno skopiować wyrażenie stanowe przed oceną
- [SPARK-49492][CONNECT] Ponowne dołączanie próby przy nieaktywnym symbolu wykonania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 września 2024 r.
- [SPARK-49336][CONNECT] Limit poziom zagnieżdżania podczas skracania komunikatu protobuf
- [SPARK-43242][CORE] Poprawka zgłasza błąd "Nieoczekiwany typ Blokuj" w diagnozowaniu uszkodzenia mieszania
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor obsługujący zagnieżdżone dane wejściowe columns
- [SPARK-49526][CONNECT] Obsługa ścieżek w stylu systemu Windows w narzędziu ArtifactManager
- [SPARK-49409][CONNECT] Dostosowywanie wartości domyślnej CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Traktuj węzeł Union jako liść w rozwiązaniu column ramki danych
- 29 sierpnia 2024 r.
- [SPARK-49146][SS] Przeniesienie błędów asercji związanych z brakującym watermark w zapytaniach przesyłania strumieniowego w trybie dołączania do struktury błędów
-
[SPARK-48862][PYTHON][CONNECT] Unikaj wywoływania
_proto_to_string
, gdy poziom INFO nie jest włączony - [SPARK-49263][CONNECT] Klient platformy Spark Connect w języku Python: spójna obsługa opcji czytnika elementów logicznych ramek danych
- 14 sierpnia 2024 r.
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
- [SPARK-48706][PYTHON] Funkcja UDF języka Python w funkcjach o wyższej kolejności nie powinna zgłaszać błędu wewnętrznego
- [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-48934][SS] Typy daty/godziny języka Python przekonwertowane niepoprawnie dla ustawienia limitu czasu w applyInPandasWithState
- 1 sierpnia 2024 r.
- Ta wersja zawiera poprawkę błędów dla
ColumnVector
klas iColumnarArray
w interfejsie Java platformy Spark. Poprzednio do tej poprawki mogło zostać zgłoszoneArrayIndexOutOfBoundsException
lub zwrócone nieprawidłowe dane, gdy wystąpienie jednej z tych klas zawierałonull
values. - W przypadku bezserwerowych zasobów obliczeniowych dla notesów i zadań tryb SQL ANSI jest domyślnie włączony. Zobacz Obsługiwane konfiguracje platformy Spark parameters.
- W przypadku obliczeń skonfigurowanych w trybie dostępu współdzielonego operacje odczytu i zapisu wsadowego platformy Kafka mają teraz takie same ograniczenia, jak te udokumentowane w przypadku przesyłania strumieniowego ze strukturą. Zobacz Ograniczenia i wymagania dotyczące przesyłania strumieniowego dla trybu dostępu wspólnego Catalog Unity.
- Wyniki z instrukcji
SHOW CREATE TABLE
teraz zawierają wszelkie filtry wierszy lub maski column zdefiniowane na zmaterializowanym widoku lub przesyłaniu strumieniowym table. Zobacz SHOW CREATE TABLE. Aby dowiedzieć się więcej o filtrach wierszy i maskach column, zobacz Filtruj poufne dane table przy użyciu filtrów wierszy i maski column. - [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- [SPARK-48889][SS] testStream do zwolnienia magazynów stanów przed zakończeniem
- [SPARK-48705][PYTHON] Jawne użycie worker_main, gdy rozpoczyna się od pyspark
- [SPARK-48047][SQL] Zmniejsz wykorzystanie pamięci pustych tagów TreeNode
- [SPARK-48544][SQL] Zmniejsz wykorzystanie pamięci pustych zestawów bitów TreeNode
- [SPARK-46957][CORE] Likwidowanie migrowanych plików mieszania powinno być możliwe wyczyszczenie z funkcji wykonawczej
- [SPARK-48463] StringIndexer obsługujący zagnieżdżone dane wejściowe columns
- [SPARK-47202][PYTHON] Poprawiono niezgodność daty/godziny literówki za pomocą polecenia tzinfo
- [SPARK-47713][SQL][CONNECT] Naprawa samoczynnego błędujoin
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Ta wersja zawiera poprawkę błędów dla
- 11 lipca 2024 r.
- (Zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli źródło table jest zastępowane. Ta zmiana oznacza, że wszystkie zmiany stanu dla Delta tables teraz unieważniają wyniki z pamięci podręcznej. Użyj
.checkpoint()
, aby utrwalać stan table przez cały okres istnienia ramki danych. - Sterownik JDBC snowflake został zaktualizowany do wersji 3.16.1.
- Ta wersja zawiera poprawkę problemu, który uniemożliwił poprawne wyświetlanie karty Środowisko interfejsu użytkownika platformy Spark podczas uruchamiania w usługach Kontener Services usługi Databricks.
- W przypadku bezserwerowych zasobów obliczeniowych dla notesów i zadań tryb SQL ANSI jest domyślnie włączony. Zobacz Obsługiwane konfiguracje platformy Spark parameters.
- Aby zignorować nieprawidłowe partycje podczas odczytywania danych, źródeł danych opartych na plikach, takich jak Parquet, ORC, CSV lub JSON, może set opcji ignoreInvalidPartitionPaths źródła danych true. Na przykład: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...). Można również użyć konfiguracji SQL spark.sql.files.ignoreInvalidPartitionPaths. Jednak opcja źródła danych ma pierwszeństwo przed konfiguracją SQL. To ustawienie jest domyślnie fałszywe.
- [SPARK-48648][PYTHON][CONNECT] Upewnij się, że element SparkConnectClient.tags jest poprawnie threadlocal
- [SPARK-48445][SQL] Nie udostępniaj wbudowanych funkcji zdefiniowanych przez użytkownika z kosztownymi dziećmi
- [SPARK-48481][SQL][SS] Nie stosuj elementu OptimizeOneRowPlan względem zestawu danych przesyłania strumieniowego
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- [SPARK-48503][SQL] Napraw nieprawidłowe skalarne podzapytania z grupowaniem według na nierównoważnym columns, które były niepoprawnie dopuszczone
- [SPARK-48100][SQL] Rozwiązywanie problemów z pomijaniem zagnieżdżonych pól struktury nie zaznaczonych w schema
- [SPARK-48273][SQL] Naprawa późnego ponownego zapisywania planuWithUnresolvedIdentifier
- [SPARK-48252][SQL] Update CommonExpressionRef w razie potrzeby
- [SPARK-48475][PYTHON] Optimize _get_jvm_function w PySpark.
- [SPARK-48292][CORE] Przywracanie [SPARK-39195][SQL] Spark OutputCommitCoordinator powinno przerwać etap, gdy zatwierdzony plik nie jest zgodny ze stanem zadania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (Zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli źródło table jest zastępowane. Ta zmiana oznacza, że wszystkie zmiany stanu dla Delta tables teraz unieważniają wyniki z pamięci podręcznej. Użyj
- 17 czerwca 2024 r.
-
applyInPandasWithState()
jest dostępny w udostępnionych klastrach. - Naprawia usterkę nr where w optymalizacji rangi nrwindow, która w Photon TopK niepoprawnie obsługiwała partycje z strukturami.
- [SPARK-48310][PYTHON][CONNECT] Właściwości buforowane muszą zwracać kopie
-
[SPARK-48276][PYTHON][CONNECT] Dodaj brakującą
__repr__
metodę dla poleceniaSQLExpression
- [SPARK-48294][SQL] Obsługa małych liter w zagnieżdżonym typieMissingElementTypeError
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
- 21 maja 2024 r.
- (zmiana zachowania)
dbutils.widgets.getAll()
jest teraz obsługiwana dla get wszystkich values widżetów w notatniku. - Naprawiono usterkę w funkcji try_divide() where danych wejściowych zawierających wartości dziesiętne, które powodowały nieoczekiwane wyjątki.
- [SPARK-48056][CONNECT][PYTHON] Wykonaj ponownie plan, jeśli zostanie zgłoszony błąd SESSION_NOT_FOUND i nie odebrano częściowej odpowiedzi
- [SPARK-48146][SQL] Naprawianie funkcji agregującej w asercji podrzędnej wyrażeń
- [SPARK-47986][CONNECT][PYTHON] Nie można utworzyć nowej sesji, gdy sesja domyślna jest zamknięta przez serwer
- [SPARK-48180][SQL] Poprawa błędu, gdy wywołanie UDTF z TABLE arg zapomina o nawiasach wokół wielu PARTITION/ORDER BY wyrażeń
- [SPARK-48016][SQL] Naprawiono usterkę w funkcji try_divide, gdy w przypadku liczby dziesiętnej
- [SPARK-48197][SQL] Unikaj błędu potwierdzenia dla nieprawidłowej funkcji lambda
- [SPARK-47994][SQL] Usunięto usterkę z błędem CASE WHEN column filter push down in SQLServer
- [SPARK-48173][SQL] Funkcja CheckAnalysis powinna wyświetlić cały plan zapytania
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (zmiana zachowania)
- 9 maja 2024 r.
- (Zmiana zachowania)
applyInPandas
imapInPandas
typy UDF są teraz obsługiwane w trybie dostępu współdzielonego z uruchomionym środowiskiem Databricks Runtime 14.3 lub nowszym. - [SPARK-47739][SQL] Rejestrowanie typu logicznego avro
- [SPARK-47941] [SS] [Połącz] Propagacja błędów inicjowania procesu roboczego ForeachBatch dla użytkowników programu PySpark
- [SPARK-48010][SQL] Unikaj powtarzających się wywołań narzędzia conf.resolver w pliku resolveExpression
-
[SPARK-48044][PYTHON][CONNECT] Pamięć podręczna
DataFrame.isStreaming
- [SPARK-47956][SQL] Sprawdzanie kondycji dla nierozwiązanej dokumentacji LCA
- [SPARK-47543][CONNECT][PYTHON] Wnioskowanie dict jako mapype z ramki danych Pandas w celu umożliwienia tworzenia ramki danych
- [SPARK-47819][CONNECT][Cherry-pick-14.3] Użyj asynchronicznego wywołania zwrotnego do czyszczenia wykonania
- [SPARK-47764][CORE][SQL] Czyszczenie zależności mieszania na podstawie funkcji ShuffleCleanupMode
- [SPARK-48018][SS] Rozwiązano problem z wartością null groupId powodujący błąd brakującego parametru podczas zgłaszania wyjątku KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Naprawiono usterkę agregacji w rewriteWithExpression
- [SPARK-47371] [SQL] XML: Ignoruj tagi wierszy znalezione w CDATA
- [SPARK-47895][SQL] grupowanie według wszystkich powinno być idempotentne
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (Zmiana zachowania)
- 25 kwietnia 2024 r.
-
[SPARK-47543][CONNECT][PYTHON] Wnioskowanie
dict
jakoMapType
z ramki danych Biblioteki Pandas w celu umożliwienia tworzenia ramki danych - [SPARK-47694][CONNECT] Ustawianie maksymalnego rozmiaru komunikatu konfigurowalnego po stronie klienta
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Zweryfikuj nazwę column, korzystając z pamięci podręcznej schema
- [SPARK-47862][PYTHON][CONNECT]Naprawianie generowania plików proto
- Przywróć "[SPARK-47543][CONNECT][PYTHON] Wnioskowanie
dict
jakoMapType
z ramki danych Pandas, aby umożliwić tworzenie ramki danych" - [SPARK-47704][SQL] Analizowanie kodu JSON kończy się niepowodzeniem z komunikatem "java.lang.ClassCastException" po włączeniu spark.sql.json.enablePartialResults
- [SPARK-47812][CONNECT] Obsługa serializacji platformy SparkSession dla procesu roboczego ForEachBatch
- [SPARK-47818][CONNECT][Cherry-pick-14.3] Wprowadzenie pamięci podręcznej planu w rozwiązaniu SparkConnectPlanner w celu zwiększenia wydajności żądań analizy
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
niepowodzenie z nieprawidłowym planem - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-47543][CONNECT][PYTHON] Wnioskowanie
- 11 kwietnia 2024 r.
- (Zmiana zachowania) Aby zapewnić spójne zachowanie w różnych typach obliczeniowych, funkcje zdefiniowane przez użytkownika PySpark w udostępnionych klastrach są teraz zgodne z zachowaniem funkcji zdefiniowanych przez użytkownika w klastrach bez izolacji i przypisanych. Ten update zawiera następujące zmiany, które mogą spowodować przerwanie istniejącego kodu:
- Funkcje zdefiniowane przez użytkownika z typem zwracanym
string
nie dokonują już niejawnej konwersji typu innych niżstring
values dostring
values. Wcześniej funkcje zdefiniowane przez użytkownika z zwracanym typemstr
obiektu zawijają wartość zwracanąstr()
za pomocą funkcji niezależnie od rzeczywistego typu danych zwracanej wartości. - Funkcje zdefiniowane przez użytkownika z typami
timestamp
zwracanymi nie są już niejawnie stosowane do konwersji zatimestamp
pomocątimezone
polecenia . - Konfiguracje klastra
spark.databricks.sql.externalUDF.*
Spark nie mają już zastosowania do funkcji zdefiniowanej przez użytkownika PySpark w udostępnionych klastrach. - Konfiguracja
spark.databricks.safespark.externalUDF.plan.limit
klastra Spark nie ma już wpływu na funkcje zdefiniowane przez użytkownika PySpark, usuwając ograniczenie publicznej wersji zapoznawczej 5 funkcji zdefiniowanych przez użytkownika na zapytanie dotyczące funkcji zdefiniowanych przez użytkownika PySpark. - Konfiguracja
spark.databricks.safespark.sandbox.size.default.mib
klastra Spark nie ma już zastosowania do funkcji zdefiniowanej przez użytkownika PySpark w udostępnionych klastrach. Zamiast tego jest używana dostępna pamięć w systemie. Aby limit pamięci funkcji zdefiniowanej przez użytkownika PySpark, użyjspark.databricks.pyspark.udf.isolation.memoryLimit
z minimalną wartością100m
.
- Funkcje zdefiniowane przez użytkownika z typem zwracanym
- Typ danych
TimestampNTZ
jest teraz obsługiwany jako klaster column z klastrowaniem płynnym. Zobacz użyj klastrowania cieczy dla Delta tables. - [SPARK-47511][SQL] Canonicalize With expressions by re-assigning IDs
- [SPARK-47509][SQL] Blokuj wyrażenia podzapytania w funkcjach lambda i wyższych kolejności
- [SPARK-46990][SQL] Naprawianie ładowania pustych plików Avro emitowanych przez centra zdarzeń
- [SPARK-47638][PS][CONNECT] Pomiń walidację nazwy column w programie PS
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (Zmiana zachowania) Aby zapewnić spójne zachowanie w różnych typach obliczeniowych, funkcje zdefiniowane przez użytkownika PySpark w udostępnionych klastrach są teraz zgodne z zachowaniem funkcji zdefiniowanych przez użytkownika w klastrach bez izolacji i przypisanych. Ten update zawiera następujące zmiany, które mogą spowodować przerwanie istniejącego kodu:
- 14 marca 2024 r.
- [SPARK-47135][SS] Implementowanie klas błędów dla wyjątków utraty danych platformy Kafka
- [SPARK-47176][SQL] Funkcja pomocnika ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Przekaż tableidentifier do wykonania skanowania źródła danych wierszy dla strategii V2.
- [SPARK-47044][SQL] Dodawanie wykonanego zapytania dla zewnętrznych źródeł danych JDBC w celu explain danych wyjściowych
- [SPARK-47167][SQL] Dodawanie klasy dla anonimowej relacji JDBC
- [SPARK-47070] Napraw nieprawidłową agregację po ponownym zapisaniu podzapytania
- [SPARK-47121][CORE] Unikaj odrzucaniaexecutionExceptions podczas zamykania standaloneSchedulerBackend
- Przywróć "[SPARK-46861][CORE] Unikaj zakleszczenia w daGScheduler"
- [SPARK-47125][SQL] Zwracanie wartości null, jeśli funkcja Univocity nigdy nie wyzwala analizowania
- [SPARK-46999][SQL] WyrażenieWithUnresolvedIdentifier powinno zawierać inne wyrażenia w drzewie wyrażeń
-
[SPARK-47129][CONNECT][SQL] Prawidłowe
ResolveRelations
łączenie pamięci podręcznej - [SPARK-47241][SQL] Rozwiązywanie problemów z kolejnością reguł dla elementu ExtractGenerator
- [SPARK-47035][SS][CONNECT] Protokół odbiornika po stronie klienta
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Rozwiązano problem where, w którym użycie kolekcji lokalnej jako źródła w poleceniu MERGE mogło spowodować, że metryka numSourceRows zgłaszała dwukrotnie większą od poprawnej liczbę wierszy.
- Utworzenie schema ze zdefiniowaną lokalizacją wymaga teraz, aby użytkownik miał uprawnienia SELECT i MODYFIKUJ na każdym pliku.
- [SPARK-47071][SQL] Wbudowane wyrażenie z wyrażeniem, jeśli zawiera wyrażenie specjalne
- [SPARK-47059][SQL] Dołącz kontekst błędu dla polecenia ALTER COLUMN v1
- [SPARK-46993][SQL] Naprawianie stałego składania zmiennych sesji
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 3 stycznia 2024 r.
- [SPARK-46933] Dodaj metryki czasu wykonywania zapytania do łączników, które używają identyfikatora JDBCRDD.
- [SPARK-46763] Naprawiono błąd asercji w elemencie ReplaceDeduplicateWithAggregate dla zduplikowanych atrybutów.
- [SPARK-46954] XML: Zawijanie elementu InputStreamReader z funkcją BufferedReader.
-
[SPARK-46655] Pomiń przechwytywanie kontekstu zapytania w
DataFrame
metodach. - [SPARK-44815] Zbuforuj df,schema aby uniknąć dodatkowych wywołań RPC.
- [SPARK-46952] XML: Limit rozmiar uszkodzonego rekordu.
- [SPARK-46794]Remove podzapytania z ograniczeń LogicalRDD.
- [SPARK-46736] zachowaj puste pole komunikatu w łączniku protobuf.
- [SPARK-45182] Ignoruj ukończenie zadania ze starego etapu po ponowieniu próby wykonania etapu nadrzędnego w sposób określony przez sumę kontrolną.
- [SPARK-46414] Użyj prependBaseUri do renderowania importów języka JavaScript.
-
[SPARK-46383] Zmniejsz użycie stert sterowników, zmniejszając żywotność programu
TaskInfo.accumulables()
. - [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- [SPARK-46954] XML: wyszukiwanie indeksu Optimizeschema.
- [SPARK-46676] dropDuplicatesWithinWatermark nie powinno zakończyć się niepowodzeniem w kanonizacji planu.
- [SPARK-46644] Zmień dodawanie i scalanie w metryce SQLMetric, aby używać funkcji isZero.
- [SPARK-46731] Zarządzanie wystąpieniem dostawcy magazynu stanów według źródła danych stanu — czytelnik.
-
[SPARK-46677] Rozwiązanie problemu
dataframe["*"]
. - [SPARK-46610] Tworzenie table powinno zgłaszać wyjątek, gdy brak wartości dla klucza w opcjach.
- [SPARK-46941] Nie można insertwindow grupować węzła limit w celu obliczenia top-k, jeśli zawiera parametr SizeBasedWindowFunction.
- [SPARK-45433] Naprawa wnioskowania dla CSV/JSON schema, gdy znaczniki czasu nie pasują do określonego formatu znacznika czasu.
- [SPARK-46930] Dodano obsługę niestandardowego prefiksu dla pól typu unii w usłudze Avro.
- [SPARK-46227] Powrót do wersji 14.3.
- [SPARK-46822] Należy szanować spark.sql.legacy.charVarcharAsString podczas rzutowania typu jdbc do typu katalizatora w jdbc.
- Aktualizacje zabezpieczeń systemu operacyjnego.
Databricks Runtime 14.1
Zobacz Databricks Runtime 14.1.
- 26 listopada 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 listopada 2024 r.
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- 22 października 2024 r.
- [SPARK-49782][SQL] ResolveDataFrameDropColumns reguła rozwiązuje nierozwiązane atrybutyAttribute z podrzędnymi danymi wyjściowymi
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- 10 października 2024 r.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474[SS] Klasyfikowanie klasy Error dla błędu funkcji użytkownika FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie powinno zmieniać pól schema podczas przycinania GetArrayStructFields
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 września 2024 r.
- [SPARK-49628][SQL] StałeFoldowanie powinno skopiować wyrażenie stanowe przed oceną
- [SPARK-43242][CORE] Poprawka zgłasza błąd "Nieoczekiwany typ Blokuj" w diagnozowaniu uszkodzenia mieszania
- [SPARK-48719][SQL] Napraw usterkę obliczania "RegrS...
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- [SPARK-46601] [CORE] Naprawianie błędu dziennika w handleStatusMessage
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 września 2024 r.
- [SPARK-49526][CONNECT] Obsługa ścieżek w stylu systemu Windows w narzędziu ArtifactManager
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- [SPARK-49263][CONNECT] Klient platformy Spark Connect w języku Python: spójna obsługa opcji czytnika elementów logicznych ramek danych
- [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
- 14 sierpnia 2024 r.
- [SPARK-48706][PYTHON] Funkcja UDF języka Python w funkcjach o wyższej kolejności nie powinna zgłaszać błędu wewnętrznego
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-48050][SS] Rejestrowanie planu logicznego podczas uruchamiania zapytania
- 1 sierpnia 2024 r.
- Ta wersja zawiera poprawkę błędów dla
ColumnVector
klas iColumnarArray
w interfejsie Java platformy Spark. Poprzednio do tej poprawkiArrayIndexOutOfBoundsException
mógł zostać zgłoszony lub mogły zostać zwrócone nieprawidłowe dane, gdy wystąpienie jednej z tych klas zawierałonull
values. - Dane wyjściowe z instrukcji
SHOW CREATE TABLE
teraz obejmują wszystkie filtry wierszy lub maski column zdefiniowane w widoku zmaterializowanym lub przesyłaniu strumieniowym table. Zobacz SHOW CREATE TABLE. Aby dowiedzieć się więcej o filtrach wierszy i maskach column, zapoznaj się z Filtruj poufne dane table przy użyciu filtrów wierszy i masek column. - [SPARK-48705][PYTHON] Jawne użycie worker_main, gdy rozpoczyna się od pyspark
- [SPARK-47202][PYTHON] Poprawiono niezgodność daty/godziny literówki za pomocą polecenia tzinfo
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Ta wersja zawiera poprawkę błędów dla
- 11 lipca 2024 r.
- (zmiana zachowania) Ramki danych buforowane względem źródeł Delta table są teraz unieważniane, jeśli źródło table zostanie zastąpione. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
.checkpoint()
, aby utrwalać stan table przez cały okres istnienia ramki danych. - Ta wersja zawiera poprawkę problemu, który uniemożliwił poprawne wyświetlanie karty Środowisko interfejsu użytkownika platformy Spark podczas uruchamiania w usługach Kontener Services usługi Databricks.
- [SPARK-48475][PYTHON] Optimize _get_jvm_function w PySpark.
- [SPARK-48445][SQL] Nie udostępniaj wbudowanych funkcji zdefiniowanych przez użytkownika z kosztownymi dziećmi
- [SPARK-48481][SQL][SS] Nie stosuj elementu OptimizeOneRowPlan względem zestawu danych przesyłania strumieniowego
- [SPARK-48292][CORE] Przywracanie [SPARK-39195][SQL] Spark OutputCommitCoordinator powinno przerwać etap, gdy zatwierdzony plik nie jest zgodny ze stanem zadania
- [SPARK-48503][SQL] Naprawiono nieprawidłowe podzapytania skalarne z grupowaniem według elementy nieekwiwalentne columns, które były błędnie dopuszczone
- [SPARK-48273][SQL] Naprawa późnego ponownego zapisywania planuWithUnresolvedIdentifier
- [SPARK-48100][SQL] Naprawa problemów z pomijaniem zagnieżdżonych pól struktury niezaznaczonych w schema
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (zmiana zachowania) Ramki danych buforowane względem źródeł Delta table są teraz unieważniane, jeśli źródło table zostanie zastąpione. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
- 17 czerwca 2024 r.
- Naprawia usterkę where, w której optymalizacja rangiwindow przy użyciu Photon TopK błędnie obsługiwała partycje ze strukturami.
-
[SPARK-48276][PYTHON][CONNECT] Dodaj brakującą
__repr__
metodę dla poleceniaSQLExpression
- [SPARK-48277] Ulepszanie komunikatu o błędzie dla errorClassesJsonReader.getErrorMessage
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 21 maja 2024 r.
- (zmiana zachowania)
dbutils.widgets.getAll()
jest teraz obsługiwana w celu get wszystkich values widżetów w notesie. - [SPARK-47994][SQL] Usunięto usterkę z błędem CASE WHEN column filter push down in SQLServer
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- [SPARK-48173][SQL] Funkcja CheckAnalysis powinna wyświetlić cały plan zapytania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (zmiana zachowania)
- 9 maja 2024 r.
- [SPARK-47371] [SQL] XML: Ignoruj tagi wierszy znalezione w CDATA
- [SPARK-47895][SQL] grupowanie według wszystkich powinno być idempotentne
- [SPARK-47956][SQL] Sprawdzanie kondycji dla nierozwiązanej dokumentacji LCA
-
[SPARK-48044][PYTHON][CONNECT] Pamięć podręczna
DataFrame.isStreaming
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2024 r.
- [SPARK-47704][SQL] Analizowanie kodu JSON kończy się niepowodzeniem z komunikatem "java.lang.ClassCastException" po włączeniu spark.sql.json.enablePartialResults
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
niepowodzenie z nieprawidłowym planem - Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 kwietnia 2024 r.
- [SPARK-47638][PS][CONNECT] Pomiń walidację nazwy column w PS
- [SPARK-38708][SQL] Uaktualnianie klienta magazynu metadanych Hive do wersji 3.1.3 dla programu Hive 3.1
- [SPARK-47309][SQL][XML] Dodaj testy jednostek wnioskowania schema
- [SPARK-47509][SQL] Blokuj wyrażenia podzapytania w funkcjach lambda i wyższych kolejności
- [SPARK-46990][SQL] Naprawianie ładowania pustych plików Avro emitowanych przez centra zdarzeń
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 kwietnia 2024 r.
- [SPARK-47305][SQL] Napraw narzędzie PruneFilters, aby oznaczyć flagę isStreaming właściwości LocalRelation poprawnie, gdy plan ma zarówno partię, jak i przesyłanie strumieniowe
- [SPARK-47218][SQL] XML: Ignoruj skomentowane tagi wierszy w tokenizatorze XML
-
[SPARK-47300][SQL]
quoteIfNeeded
powinno cytować identifier, które zaczynają się od cyfr - [SPARK-47368][SQL] Remove sprawdzanie konfiguracji inferTimestampNTZ w ParquetRowConverter
- [SPARK-47070] Napraw nieprawidłową agregację po ponownym zapisaniu podzapytania
-
[SPARK-47322][PYTHON][CONNECT] Uczyń obsługę powielania nazw
withColumnsRenamed
column spójną zwithColumnRenamed
- [SPARK-47300] Poprawka dotycząca decomposerSuite
- [SPARK-47218] [SQL] XML: Zmieniono polecenie SchemaOfXml, aby nie powiodło się w trybie DROPMALFORMED
- [SPARK-47385] Napraw kodery krotki za pomocą opcji wejściowych.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2024 r.
- [SPARK-47176][SQL] Funkcja pomocnika ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Przekaż tableidentifier do wykonania skanowania źródła danych wierszy w strategii V2.
- [SPARK-47167][SQL] Dodawanie klasy dla anonimowej relacji JDBC
-
[SPARK-47129][CONNECT][SQL] Prawidłowe
ResolveRelations
łączenie pamięci podręcznej - Przywróć "[SPARK-46861][CORE] Unikaj zakleszczenia w daGScheduler"
- [SPARK-47044][SQL] Dodanie wykonanego zapytania do zewnętrznych źródeł danych JDBC do danych wyjściowych explain
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Rozwiązano problem where, w którym użycie lokalnej kolekcji jako źródła w poleceniu MERGE mogło spowodować, że wskaźnik numSourceRows zgłaszał dwukrotnie większą niż właściwa liczbę wierszy.
- Utworzenie schema ze zdefiniowaną lokalizacją wymaga teraz, aby użytkownik miał uprawnienia SELECT oraz uprawnienia do modyfikacji w dowolnym pliku.
- Teraz można pozyskiwać pliki XML przy użyciu narzędzia Autoloader, read_files, COPY INTO, DLT i DBSQL. Obsługa plików XML może automatycznie wywnioskować i rozwijać schema, przywracać dane w przypadku niezgodności typów, weryfikować XML przy użyciu XSD, obsługiwać wyrażenia SQL, takie jak from_xml, schema_of_xml i to_xml. Aby uzyskać więcej informacji, zobacz Obsługa plików XML. Jeśli wcześniej używano zewnętrznego pakietu spark-xml, zobacz tutaj , aby uzyskać wskazówki dotyczące migracji.
- [SPARK-46248][SQL] XML: Obsługa opcji ignoreCorruptFiles i ignoreMissingFiles
- [SPARK-47059][SQL] Dołącz kontekst błędu dla polecenia ALTER COLUMN v1
- [SPARK-46954][SQL] XML: Zawijanie elementu InputStreamReader z funkcją BufferedReader
- [SPARK-46954][SQL] XML: wyszukiwanie indeksu Optimizeschema
- [SPARK-46630][SQL] XML: Weryfikowanie nazwy elementu XML podczas zapisu
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 8 lutego 2024 r.
- Zmiana zapytań źródła danych (CDF) w Catalog aparatu Unity views nie jest obsługiwana, a próba uruchomienia zapytania CDF przy użyciu Catalog zmaterializowanego widoku aparatu Unity zwraca błąd. Unity Catalog obsługa przesyłania strumieniowego tables wspiera zapytania CDF dotyczące
APPLY CHANGES
tables w środowisku Databricks Runtime 14.1 lub nowszym. Zapytania CDF nie są obsługiwane w przypadku Catalog przesyłania strumieniowego tables aparatu Unity w środowisku Databricks Runtime 14.0 i starszych wersjach. - [SPARK-46952] XML: Limit rozmiar uszkodzonego rekordu.
- [SPARK-45182] Ignoruj ukończenie zadania ze starego etapu po ponowieniu próby wykonania etapu nadrzędnego w sposób określony przez sumę kontrolną.
- [SPARK-46794]Remove podzapytania wzięte z ograniczeń LogicalRDD.
- [SPARK-46933] Dodaj metryki czasu wykonywania zapytania do łączników, które używają identyfikatora JDBCRDD.
- [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- [SPARK-45582] Upewnij się, że wystąpienie magazynu nie jest używane po wywołaniu zatwierdzenia w trybie wyjściowym agregacji przesyłania strumieniowego.
- [SPARK-46930] Dodano obsługę niestandardowego prefiksu dla pól typu unii w usłudze Avro.
- [SPARK-46941] Nie można insertwindow grupować węzła limit w celu obliczenia top-k, jeśli zawiera parametr SizeBasedWindowFunction.
- [SPARK-46396] Wnioskowanie znacznika czasu nie powinno zgłaszać wyjątku.
- [SPARK-46822] Należy szanować spark.sql.legacy.charVarcharAsString podczas rzutowania typu jdbc do typu katalizatora w jdbc.
- [SPARK-45957] Unikaj generowania planu wykonywania dla poleceń innych niż wykonywalne.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Zmiana zapytań źródła danych (CDF) w Catalog aparatu Unity views nie jest obsługiwana, a próba uruchomienia zapytania CDF przy użyciu Catalog zmaterializowanego widoku aparatu Unity zwraca błąd. Unity Catalog obsługa przesyłania strumieniowego tables wspiera zapytania CDF dotyczące
- 31 stycznia 2024 r.
- [SPARK-46684] Napraw wartość CoGroup.applyInPandas/Arrow, aby prawidłowo przekazać argumenty.
- [SPARK-46763] Naprawiono błąd asercji w elemencie ReplaceDeduplicateWithAggregate dla zduplikowanych atrybutów.
- [SPARK-45498] Obserwowanie: ignoruj ukończenie zadania ze starych prób etapu.
-
[SPARK-46382] XML: Update dokument dla
ignoreSurroundingSpaces
. -
[SPARK-46383] Zmniejsz użycie stert sterowników, zmniejszając żywotność programu
TaskInfo.accumulables()
. - [SPARK-46382] XML: Wartość domyślna ignoruj wartościSurroundingSpaces na true.
-
[SPARK-46677] Rozwiązanie problemu
dataframe["*"]
. - [SPARK-46676] dropDuplicatesWithinWatermark nie powinno zakończyć się niepowodzeniem w kanonizacji planu.
- [SPARK-46633] Napraw czytnik Avro w celu obsługi bloków o zerowej długości.
- [SPARK-45912] Ulepszenie interfejsu API XSDToSchema: zmiana interfejsu API systemu plików HDFS na ułatwienia dostępu do magazynu w chmurze.
- [SPARK-46599] XML: Użyj typeCoercion.findTightestCommonType w celu sprawdzenia zgodności.
- [SPARK-46382] XML: wychwyć values przeplatane między elementami.
- [SPARK-46769] uściślić znacznik czasu powiązany schema wnioskowanie.
- [SPARK-46610] Tworzenie table powinno zgłaszać wyjątek, gdy w opcjach brakuje wartości dla klucza.
- [SPARK-45964]Remove prywatny akcesor SQL w pakiecie XML i JSON w ramach pakietu Catalyst.
- Przywróć [SPARK-46769] uściślij wnioskowanie powiązane ze znacznikiem czasu schema.
-
[SPARK-45962]Remove
treatEmptyValuesAsNulls
i zamiast tego użyj opcjinullValue
w formacie XML. - [SPARK-46541] Napraw niejednoznaczne odwołanie w column self join.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 stycznia 2024 r.
- Węzeł
shuffle
planu explain zwrócony przez zapytanie Photon jest aktualizowany, aby dodać flagęcausedBroadcastJoinBuildOOM=true
w przypadku wystąpienia błędu braku pamięci podczas tasowania, które jest częścią transmisji join. - Aby uniknąć zwiększonego opóźnienia podczas komunikacji za pośrednictwem protokołu TLSv1.3, ta wersja konserwacji zawiera poprawkę do instalacji zestawu JDK 8 w celu naprawienia błędu JDK JDK-8293562.
-
[SPARK-46538] Naprawiono problem niejednoznacznego odwołania column w
ALSModel.transform
. - [SPARK-46417] Nie kończy się niepowodzeniem podczas wywoływania elementu hive.getTable i throwException ma wartość false.
-
[SPARK-46484] Ustaw funkcje pomocnicze, aby
resolveOperators
zachować identyfikator planu. - [SPARK-46153] XML: Dodaj obsługę atrybutu TimestampNTZType.
- [SPARK-46152] XML: Dodano obsługę typu dziesiętnego w wnioskowaniu schema XML.
- [SPARK-46145] spark.catalog.listTables nie zgłasza wyjątku, gdy nie znaleziono table lub widoku.
- [SPARK-46478] Przywróć spark-43049, aby użyć wyroczni varchar(255) dla ciągu.
-
[SPARK-46394] Naprawa spark.catalog.listDatabases() problemów ze schematami zawierającymi znaki specjalne, gdy
spark.sql.legacy.keepCommandOutputSchema
set na true. -
[SPARK-46337] Zachowaj
CTESubstitution
elementPLAN_ID_TAG
. - [SPARK-46466] Wektoryzowany czytnik parquet nigdy nie powinien wykonywać rebase dla znacznika czasu ntz.
- [SPARK-46587] XML: Napraw konwersję dużej liczby całkowitej XSD.
- [SPARK-45814] Utwórz metodę ArrowConverters.createEmptyArrowBatch call close(), aby uniknąć przecieku pamięci.
- [SPARK-46132] Obsługa hasła klucza dla kluczy JKS dla protokołu SSL RPC.
-
[SPARK-46602] Propagacja
allowExisting
w widoku podczas tworzenia widoku/table nie istnieje. - [SPARK-46173] Pomijanie wywołania trimAll podczas analizowania dat.
- [SPARK-46355] XML: Zamknij inputStreamReader po zakończeniu odczytu.
- [SPARK-46600] Przenieś współużytkowany kod między elementami SqlConf i SqlApiConf do elementu SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
powinna zachować kolejność dykt/mapy. - [SPARK-46056] Naprawiono wektoryzowany parquet odczyt NPE z wartością domyślną byteArrayDecimalType.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
powinien przestrzegać porządku dyktowania. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46370] Napraw usterkę podczas wykonywania zapytań z table po zmianie ustawień domyślnych column.
- [SPARK-46609] Unikaj eksplozji wykładniczej w partitioningPreservingUnaryExecNode.
- [SPARK-46058] Dodaj oddzielną flagę privateKeyPassword.
- Węzeł
- 14 grudnia 2023 r.
- Naprawiono problem where z obsługą znaków podkreślenia w getColumns operacjach pochodzących od klientów JDBC lub ODBC, które były obsługiwane nieprawidłowo i interpretowane jako symbole wieloznaczne.
- [SPARK-45509] Napraw zachowanie odwołania df column dla Spark Connect.
- [SPARK-45844] Zaimplementuj bez uwzględniania wielkości liter dla kodu XML.
- [SPARK-46141] Zmień wartość domyślną spark.sql.legacy.ctePrecedencePolicy na POPRAWIONE.
-
[SPARK-46028]
Column.__getitem__
akceptuje wejście column. - [SPARK-46255] Obsługa typu złożonego —> konwersja ciągów.
- [SPARK-45655] Zezwalaj na wyrażenia niedeterministyczne wewnątrz funkcji AggregateFunctions w funkcji CollectMetrics.
- [SPARK-45433] poprawki wnioskowania CSV/JSON schema, kiedy znaczniki czasu nie są zgodne z określonym formatem znaczników czasu.
-
[SPARK-45316] Dodaj nowe parameters
ignoreCorruptFiles
/ignoreMissingFiles
doHadoopRDD
iNewHadoopRDD
. - [SPARK-45852] Bezproblemowo radzić sobie z błędem rekursji podczas rejestrowania.
- [SPARK-45920] grupowanie według porządkowych powinno być idempotentne.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2023 r.
- Zainstalowano nowy pakiet w
pyarrow-hotfix
celu skorygowania luki W zabezpieczeniach PyArrow RCE. - Rozwiązano problem where, w którym podkreślenia ujęte w ucieczkę w operacjach
getColumns
pochodzących od klientów JDBC lub ODBC były błędnie interpretowane jako symbole wieloznaczne. - Podczas pozyskiwania danych CSV za pomocą Auto Loader lub streamingu tablesduże pliki CSV mogą być teraz podzielone i przetwarzane równolegle zarówno podczas wnioskowania schema, jak i przetwarzania danych.
-
[SPARK-45892] Walidacja planu optymalizatora refaktoryzacji w celu oddzielenia
validateSchemaOutput
elementów ivalidateExprIdUniqueness
. - [SPARK-45620] Interfejsy API związane z funkcją UDF języka Python używają teraz camelCase.
-
[SPARK-44790] Dodano
to_xml
implementację i powiązania dla języków Python, Spark Connect i SQL. -
[SPARK-45770] stałego rozpoznawania column z
DataFrameDropColumns
dlaDataframe.drop
. -
[SPARK-45859] Obiekty zdefiniowane przez użytkownika są opóźnione
ml.functions
. -
[SPARK-45730] Ulepszone ograniczenia czasowe dla elementu
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Wykonane SBT testowania hermetyczne.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Zainstalowano nowy pakiet w
- 10 listopada 2023 r.
-
[SPARK-45545]
SparkTransportConf
dziedziczySSLOptions
po utworzeniu. - [SPARK-45250] Dodano obsługę profilu zasobu zadania na poziomie etapu dla klastrów yarn po wyłączeniu dynamicznej alokacji.
- [SPARK-44753] Dodano czytnik i moduł zapisywania ramek danych XML dla języka SQL PySpark.
-
[SPARK-45396] Dodano wpis dokumentu dla modułu
PySpark.ml.connect
. -
[SPARK-45584] Naprawiono błąd uruchamiania podzapytania z poleceniem
TakeOrderedAndProjectExec
. - [SPARK-45541] Dodano protokół SSLFactory.
-
[SPARK-45577] Naprawiono
UserDefinedPythonTableFunctionAnalyzeRunner
, aby przekazać złożone values z nazwanych argumentów. - [SPARK-45562] Element "rowTag" jest wymaganą opcją.
-
[SPARK-45427] Dodano ustawienia protokołu SSL protokołu RPC do
SSLOptions
iSparkTransportConf
. - [SPARK-43380] Naprawiono spowolnienie odczytu w usłudze Avro.
-
[SPARK-45430]
FramelessOffsetWindowFunction
nie kończy się już niepowodzeniem, gdyIGNORE NULLS
ioffset > rowCount
. - [SPARK-45429] Dodano klasy pomocnika dla komunikacji RPC SSL.
-
[SPARK-45386] Rozwiązano problem, where
StorageLevel.NONE
błędnie zwracał wartość 0. - [SPARK-44219] Dodano testy sprawdzania poprawności poszczególnych reguł pod kątem ponownego zapisywania optymalizacji.
-
[SPARK-45543] Rozwiązano problem where
InferWindowGroupLimit
powodujący problem, jeśli inne funkcje window nie miały tej samej ramki window co funkcje typu rankingu. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-45545]
- 27 września 2023 r.
-
[SPARK-44823] Zaktualizowano
black
do wersji 23.9.1 i usunięto błędne sprawdzanie. - [SPARK-45339] Narzędzie PySpark rejestruje teraz błędy ponawiania prób.
- Przywróć [SPARK-42946] Zagnieżdżone poufne dane zagnieżdżone w ramach podstawień zmiennych.
- [SPARK-44551] Edytowane komentarze do sync z oprogramowaniem open source.
-
[SPARK-45360] Konstruktor sesji platformy Spark obsługuje inicjowanie z programu
SPARK_REMOTE
. -
[SPARK-45279] Dołączone
plan_id
do wszystkich planów logicznych. -
[SPARK-45425] Zamapowane
TINYINT
naShortType
.MsSqlServerDialect
-
[SPARK-45419] Usunięto wpis mapy wersji pliku większych wersji, aby uniknąć ponownego
rocksdb
tworzenia identyfikatorów plików sst. -
[SPARK-45488] Dodano obsługę wartości w
rowTag
elemecie . -
[SPARK-42205] Usunięto rejestrowanie w
Accumulables
zdarzeniach uruchamianiaTask/Stage
wJsonProtocol
dziennikach zdarzeń. -
[SPARK-45426] Dodano obsługę elementu
ReloadingX509TrustManager
. -
[SPARK-45256]
DurationWriter
ulega błędowi podczas zapisywania większej liczby values niż początkowa pojemność. -
[SPARK-43380] Rozwiązano
Avro
problemy z konwersją typów danych bez powodowania regresji wydajności. - [SPARK-45182] Dodano obsługę wycofywania etapu mapy mieszania, dzięki czemu wszystkie zadania etapu można ponowić, gdy dane wyjściowe etapu są nieokreślone.
-
[SPARK-45399] Dodano opcje XML przy użyciu polecenia
newOption
. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-44823] Zaktualizowano
Databricks Runtime 13.3 LTS
Zobacz Databricks Runtime 13.3 LTS.
- 26 listopada 2024 r.
- [SPARK-49615] [ML] Ustaw zestaw danych przekształcania funkcji uczenia maszynowego schema weryfikacji zgodny z konfiguracją "spark.sql.caseSensitive".
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 listopada 2024 r.
- [SPARK-48843] Zapobieganie nieskończonej pętli za pomocą narzędzia BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Klasyfikowanie klasy error dla błędu funkcji użytkownika ujścia foreach
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 października 2024 r.
- [SPARK-48843] Zapobieganie nieskończonej pętli za pomocą narzędzia BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Klasyfikowanie klasy error dla błędu funkcji użytkownika ujścia foreach
- [SPARK-49905] Użyj dedykowanego elementu ShuffleOrigin dla operatora stanowego, aby zapobiec modyfikacji mieszania z usługi AQE
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 października 2024 r.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie powinien zmieniać pól schema podczas oczyszczania pól GetArrayStructFields
- 25 września 2024 r.
- [SPARK-46601] [CORE] Naprawianie błędu dziennika w handleStatusMessage
- [SPARK-48719][SQL] Naprawiono usterkę obliczania regrSlope i RegrIntercept, gdy pierwszy parametr ma wartość null
- [SPARK-43242][CORE] Poprawka zgłasza błąd "Nieoczekiwany typ Blokuj" w diagnozowaniu uszkodzenia mieszania
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 września 2024 r.
- [SPARK-49526][CONNECT] Obsługa ścieżek w stylu systemu Windows w narzędziu ArtifactManager
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor obsługujący zagnieżdżone dane wejściowe columns
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- 14 sierpnia 2024 r.
- [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- 1 sierpnia 2024 r.
- Ta wersja zawiera poprawkę błędów dla
ColumnVector
klas iColumnarArray
w interfejsie Java platformy Spark. Poprzednio do tej poprawkiArrayIndexOutOfBoundsException
mogłyby być rzucane lub zwracane nieprawidłowe dane, gdy wystąpienie jednej z tych klas zawierałonull
values. - [SPARK-47202][PYTHON] Poprawiono niezgodność daty/godziny literówki za pomocą polecenia tzinfo
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- [SPARK-48463] Utwórz StringIndexer obsługujący zagnieżdżone dane wejściowe columns
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Ta wersja zawiera poprawkę błędów dla
- 11 lipca 2024 r.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródłowa jest zastępowana. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
.checkpoint()
, aby utrwalać stan table przez cały okres istnienia ramki danych. - Ta wersja zawiera poprawkę problemu, który uniemożliwił poprawne wyświetlanie karty Środowisko interfejsu użytkownika platformy Spark podczas uruchamiania w usługach Kontener Services usługi Databricks.
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- [SPARK-48292][CORE] Przywracanie [SPARK-39195][SQL] Spark OutputCommitCoordinator powinno przerwać etap, gdy zatwierdzony plik nie jest zgodny ze stanem zadania
- [SPARK-48503][SQL] Naprawa nieprawidłowych podzapytań skalarnych z grupowaniem według w columns, które były niepoprawnie dozwolone
- [SPARK-48481][SQL][SS] Nie stosuj elementu OptimizeOneRowPlan względem zestawu danych przesyłania strumieniowego
- [SPARK-48475][PYTHON] Optimize _get_jvm_function w PySpark.
- [SPARK-48273][SQL] Naprawa późnego ponownego zapisywania planuWithUnresolvedIdentifier
- [SPARK-48445][SQL] Nie udostępniaj wbudowanych funkcji zdefiniowanych przez użytkownika z kosztownymi dziećmi
- Aktualizacje zabezpieczeń systemu operacyjnego.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródłowa jest zastępowana. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
- 17 czerwca 2024 r.
- [SPARK-48277] Ulepszanie komunikatu o błędzie dla errorClassesJsonReader.getErrorMessage
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 21 maja 2024 r.
- (zmiana zachowania)
dbutils.widgets.getAll()
jest teraz obsługiwana w celu get wszystkich values widżetów w notesie. - [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- [SPARK-47994][SQL] Usunięto usterkę z błędem CASE WHEN column filter push down in SQLServer
- Aktualizacje zabezpieczeń systemu operacyjnego.
- (zmiana zachowania)
- 9 maja 2024 r.
- [SPARK-47956][SQL] Sprawdzanie kondycji dla nierozwiązanej dokumentacji LCA
- [SPARK-46822][SQL] Z szacunkiem spark.sql.legacy.charVarcharAsString podczas rzutowania typu jdbc do typu katalizatora w jdbc
- [SPARK-47895][SQL] grupowanie według wszystkich powinno być idempotentne
- [SPARK-48018][SS] Rozwiązano problem z wartością null groupId powodujący błąd brakującego parametru podczas zgłaszania wyjątku KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2024 r.
- [SPARK-44653][SQL] Nietrywialne związki ramek danych nie powinny przerywać buforowania
- Różne poprawki błędów.
- 11 kwietnia 2024 r.
- [SPARK-47509][SQL] Blokuj wyrażenia podzapytania w funkcjach lambda i wyższych kolejności
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 kwietnia 2024 r.
- [SPARK-47385] Napraw kodery krotki za pomocą opcji wejściowych.
- [SPARK-38708][SQL] Uaktualnianie klienta magazynu metadanych Hive do wersji 3.1.3 dla programu Hive 3.1
- [SPARK-47200][SS] Klasa błędu dla błędu funkcji użytkownika ujścia wsadowego foreach
- [SPARK-47368][SQL] Remove sprawdzenie konfiguracji inferTimestampNTZ w ParquetRowConverter
- [SPARK-44252][SS] Definiowanie nowej klasy błędów i stosowanie dla przypadku where stanu ładowania z systemu plików DFS kończy się niepowodzeniem
- [SPARK-47135][SS] Implementowanie klas błędów dla wyjątków utraty danych platformy Kafka
-
[SPARK-47300][SQL]
quoteIfNeeded
powinno cytować identifier zaczyna się od cyfr - [SPARK-47305][SQL] Napraw narzędzie PruneFilters, aby oznaczyć flagę isStreaming właściwości LocalRelation poprawnie, gdy plan ma zarówno partię, jak i przesyłanie strumieniowe
- [SPARK-47070] Napraw nieprawidłową agregację po ponownym zapisaniu podzapytania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2024 r.
- [SPARK-47145][SQL] Przekazać tableidentifier do wykonania skanowania źródła danych wierszy dla strategii V2.
- [SPARK-47167][SQL] Dodawanie klasy dla anonimowej relacji JDBC
- [SPARK-47176][SQL] Funkcja pomocnika ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Dodawanie wykonanego zapytania dla zewnętrznych źródeł danych JDBC w celu explain danych wyjściowych
- [SPARK-47125][SQL] Zwracanie wartości null, jeśli funkcja Univocity nigdy nie wyzwala analizowania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Rozwiązano problem where, który w przypadku używania kolekcji lokalnej jako źródła w poleceniu MERGE mógł powodować, że metryka numSourceRows zgłaszała dwukrotnie większą liczbę wierszy niż rzeczywista.
- Utworzenie schema ze zdefiniowaną lokalizacją wymaga teraz, aby użytkownik miał uprawnienia SELECT i MODYFIKUJ NA DOWOLNYM PLIKU.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 8 lutego 2024 r.
- Zmiana zapytań Change Data Feed (CDF) w Catalog zmaterializowanych widokach Unity views nie jest obsługiwana, a próba uruchomienia zapytania CDF z zmaterializowanym widokiem Unity Catalog zwraca błąd. Jednostki strumieniowe Unity Catalogtables obsługują zapytania CDF dotyczące
APPLY CHANGES
tables w środowisku Databricks Runtime 14.1 i nowszym. Zapytania CDF nie są obsługiwane w przypadku przesyłania strumieniowego Unity Catalogtables w środowisku Databricks Runtime w wersji 14.0 i starszych. - [SPARK-46794]Remove podzapytania wynikające z ograniczeń LogicalRDD.
- [SPARK-46933] Dodaj metryki czasu wykonywania zapytania do łączników, które używają identyfikatora JDBCRDD.
- [SPARK-45582] Upewnij się, że wystąpienie magazynu nie jest używane po wywołaniu zatwierdzenia w trybie wyjściowym agregacji przesyłania strumieniowego.
- [SPARK-46396] Wnioskowanie znacznika czasu nie powinno zgłaszać wyjątku.
- [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- [SPARK-46941] Nie można insertwindow grupować węzła limit w celu obliczenia top-k, jeśli zawiera parametr SizeBasedWindowFunction.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Zmiana zapytań Change Data Feed (CDF) w Catalog zmaterializowanych widokach Unity views nie jest obsługiwana, a próba uruchomienia zapytania CDF z zmaterializowanym widokiem Unity Catalog zwraca błąd. Jednostki strumieniowe Unity Catalogtables obsługują zapytania CDF dotyczące
- 31 stycznia 2024 r.
- [SPARK-46610] Tworzenie table powinno zgłaszać wyjątek, jeśli nie ma wartości klucza w opcjach.
- [SPARK-46383] Zmniejsz użycie stert sterowników, zmniejszając żywotność elementu TaskInfo.accumulables().
- [SPARK-46600] Przenieś współużytkowany kod między elementami SqlConf i SqlApiConf do elementu SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark nie powinno zakończyć się niepowodzeniem w kanonizacji planu.
- [SPARK-46763] Naprawiono błąd asercji w elemencie ReplaceDeduplicateWithAggregate dla zduplikowanych atrybutów.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 stycznia 2024 r.
- Węzeł
shuffle
planu explain zwrócony przez zapytanie Photon jest aktualizowany w celu dodania flagicausedBroadcastJoinBuildOOM=true
w przypadku wystąpienia błędu z braku pamięci podczas mieszania, które jest częścią transmisji join. - Aby uniknąć zwiększonego opóźnienia podczas komunikacji za pośrednictwem protokołu TLSv1.3, ta wersja konserwacji zawiera poprawkę do instalacji zestawu JDK 8 w celu naprawienia błędu JDK JDK-8293562.
- [SPARK-46058] Dodaj oddzielną flagę privateKeyPassword.
- [SPARK-46173] Pomijanie wywołania trimAll podczas analizowania dat.
- [SPARK-46370] Napraw usterkę podczas wykonywania zapytań z table po zmianie ustawień domyślnych column.
- [SPARK-46370] Napraw usterkę podczas wykonywania zapytań z table po zmianie ustawień domyślnych column.
- [SPARK-46370] Napraw usterkę podczas wykonywania zapytań z table po zmianie ustawień domyślnych column.
- [SPARK-46609] Unikaj eksplozji wykładniczej w partitioningPreservingUnaryExecNode.
- [SPARK-46132] Obsługa hasła klucza dla kluczy JKS dla protokołu SSL RPC.
-
[SPARK-46602] Propagować
allowExisting
przy tworzeniu widoku, gdy widok/table nie istnieje. - [SPARK-46249] Wymagaj blokady wystąpienia na potrzeby uzyskiwania metryk bazy danych RocksDB, aby zapobiec wyścigowi z operacjami w tle.
- [SPARK-46417] Nie kończy się niepowodzeniem podczas wywoływania elementu hive.getTable i throwException ma wartość false.
-
[SPARK-46538] Rozwiązywanie niejednoznacznego problemu z odniesieniem column w
ALSModel.transform
. - [SPARK-46478] Przywróć spark-43049, aby użyć wyroczni varchar(255) dla ciągu.
- [SPARK-46250] Deflake test_parity_listener.
-
[SPARK-46394] Naprawiono Spark.catalog.listDatabases() problemy ze schematami zawierającymi znaki specjalne, gdy
spark.sql.legacy.keepCommandOutputSchema
set zostanie ustawiona wartość na true. - [SPARK-46056] Naprawiono wektoryzowany parquet odczyt NPE z wartością domyślną byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables nie wyrzuca wyjątku, gdy nie znaleziono table lub widoku.
- [SPARK-46466] Wektoryzowany czytnik parquet nigdy nie powinien wykonywać rebase dla znacznika czasu ntz.
- Węzeł
- 14 grudnia 2023 r.
- Rozwiązano problem where podkreśleniami ucieczki w getColumns operacji pochodzących z klientów JDBC lub ODBC były obsługiwane niepoprawnie i interpretowane jako symbole wieloznaczne.
- [SPARK-45920] grupowanie według porządkowych powinno być idempotentne.
- [SPARK-44582] Pomiń iterator na SMJ, jeśli został oczyszczony.
- [SPARK-45433] naprawa wnioskowania CSV/JSON schema przy niezgodnym formacie znaczników czasu z określonym formatem znaczników czasu.
- [SPARK-45655] Zezwalaj na wyrażenia niedeterministyczne wewnątrz funkcji AggregateFunctions w funkcji CollectMetrics.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2023 r.
- Zainstalowano nowy pakiet w
pyarrow-hotfix
celu skorygowania luki W zabezpieczeniach PyArrow RCE. - Łącznik spark-snowflake został uaktualniony do wersji 2.12.0.
-
[SPARK-44846] Usunięto złożone wyrażenia grupowania po .
RemoveRedundantAggregates
-
[SPARK-45544] Zintegrowana obsługa protokołu SSL w usłudze
TransportContext
. -
[SPARK-45892] Walidacja planu optymalizatora refaktoryzacji w celu oddzielenia
validateSchemaOutput
elementów ivalidateExprIdUniqueness
. -
[SPARK-45730] Ulepszone ograniczenia czasowe dla elementu
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Obiekty zdefiniowane przez użytkownika są opóźnione
ml.functions
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Zainstalowano nowy pakiet w
- 10 listopada 2023 r.
- Partition filtry zapytań przesyłania strumieniowego usługi Delta Lake są wypychane w dół przed ograniczeniem szybkości w celu osiągnięcia lepszego wykorzystania.
- Zmieniono zapytania źródła danych dotyczące Catalog przesyłania strumieniowego aparatu Unity tables i zmaterializowane views w celu wyświetlenia komunikatów o błędach.
-
[SPARK-45545]
SparkTransportConf
dziedziczySSLOptions
po utworzeniu. -
[SPARK-45584] Naprawiono błąd uruchamiania podzapytania z poleceniem
TakeOrderedAndProjectExec
. -
[SPARK-45427] Dodano ustawienia protokołu SSL protokołu RPC do
SSLOptions
iSparkTransportConf
. -
[SPARK-45541] Dodano
SSLFactory
element . -
[SPARK-45430]
FramelessOffsetWindowFunction
nie kończy się już niepowodzeniem, gdyIGNORE NULLS
ioffset > rowCount
. - [SPARK-45429] Dodano klasy pomocnika dla komunikacji RPC SSL.
- [SPARK-44219] Dodano dodatkowe walidacje poszczególnych reguł na potrzeby ponownego zapisywania optymalizacji.
-
[SPARK-45543] Rozwiązano problem where
InferWindowGroupLimit
, który występował, jeśli inne funkcje window nie miały tej samej ramki window co funkcje podobne do rangi. - Aktualizacje zabezpieczeń systemu operacyjnego.
- 23 października 2023 r.
-
[SPARK-45256] Rozwiązano problem, where
DurationWriter
wystąpił błąd podczas zapisywania większej values niż początkowa pojemność. -
[SPARK-45419] Unikaj ponownego użycia
rocksdb sst
plików w innymrocksdb
wystąpieniu, usuwając wpisy mapy wersji pliku większej wersji. -
[SPARK-45426] Dodano obsługę elementu
ReloadingX509TrustManager
. - Różne poprawki.
-
[SPARK-45256] Rozwiązano problem, where
- 13 października 2023 r.
- Zależność Snowflake-jdbc została uaktualniona z wersji 3.13.29 do 3.13.33.
- Funkcja
array_insert
jest oparta na 1 dla indeksów dodatnich i ujemnych, podczas gdy wcześniej była oparta na 0 indeksach ujemnych. Teraz wstawia nowy element na końcu tablic wejściowych indeksu -1. Aby restore poprzednie zachowanie, setspark.sql.legacy.negativeIndexInArrayInsert
true
. - Rozwiązano problem polegający na tym, że nie ignorowano uszkodzonych plików po włączeniu
ignoreCorruptFiles
podczas wnioskowania CSV schema z funkcją Auto Loader. - Przywróć [SPARK-42946].
- [SPARK-42205] Zaktualizowano protokół JSON w celu remove rejestrowania w zdarzeniach uruchamiania zadania lub etapu.
-
[SPARK-45178] Powrót do uruchamiania pojedynczej partii dla
Trigger.AvailableNow
nieobsługiwanych źródeł zamiast używania otoki. -
[SPARK-45316] Dodaj nowe parameters
ignoreCorruptFiles
iignoreMissingFiles
doHadoopRDD
iNewHadoopRDD
. - [SPARK-44740] stałe metadane values dla artefaktów.
-
[SPARK-45360] Zainicjowano konfigurację konstruktora sesji platformy Spark z witryny
SPARK_REMOTE
. - [SPARK-44551] edytowane komentarze w celu sync z systemem operacyjnym.
- [SPARK-45346] Parquet schema wnioskowanie uwzględnia teraz flagi uwzględniające wielkość liter podczas scalania schema.
-
[SPARK-44658]
ShuffleStatus.getMapStatus
teraz zwracaNone
wartość zamiastSome(null)
. -
[SPARK-44840] Na
array_insert()
podstawie wartości 1 dla indeksów ujemnych.
- 14 września 2023 r.
-
[SPARK-44873] Dodano obsługę
alter view
z zagnieżdżonym columns w kliencie Hive. -
[SPARK-44878] Wyłączono ścisłe limit dla menedżera zapisu
RocksDB
, aby uniknąć wyjątku wstawiania przy zakończeniu operacji z pamięcią podręczną.
-
[SPARK-44873] Dodano obsługę
- 30 sierpnia 2023 r.
- Polecenie dbutils
cp
(dbutils.fs.cp
) zostało zoptymalizowane pod kątem szybszego kopiowania. Dzięki temu ulepszeniu operacje kopiowania mogą potrwać do 100 mniej czasu, w zależności od rozmiaru pliku. Ta funkcja jest dostępna we wszystkich chmurach i systemach plików dostępnych w usłudze Databricks, w tym w przypadku instalacji platformy Unity CatalogVolumes i systemu plików DBFS. -
[SPARK-44455] Identyfikatory cudzysłowów z backticks w
SHOW CREATE TABLE
wyniku. - [SPARK-44763] Rozwiązano problem pokazujący ciąg jako podwójny w arytmetyce binarnej z interwałem.
-
[SPARK-44871] Naprawiono
percentile_disc
zachowanie. - [SPARK-44714] Łatwość ograniczania rozpoznawania LCA w przypadku zapytań.
-
[SPARK-44818] Naprawiono wyścig dla oczekujących przerwań zadania wystawionych przed
taskThread
zainicjowaniem. - [SPARK-44505] Dodano przesłonięć obsługę kolumnarów w obszarze Scan for DSv2 (Skanowanie pod kątem wersji DSv2).
- [SPARK-44479] Naprawiono konwersję protobuf z pustego typu struktury.
-
[SPARK-44718] Dopasuj
ColumnVector
domyślną konfigurację trybu pamięci doOffHeapMemoryMode
wartości konfiguracji. -
[SPARK-42941] Dodano obsługę
StreamingQueryListener
języka Python. - [SPARK-44558] Wyeksportuj poziom dziennika programu Spark Connect programu PySpark.
-
[SPARK-44464] Naprawiono
applyInPandasWithStatePythonRunner
do wierszy wyjściowych, które mają wartość Null jako pierwszą wartość column. -
[SPARK-44643] Naprawiono
Row.__repr__
, gdy pole jest pustym wierszem. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Polecenie dbutils
Databricks Runtime 12.2 LTS
Zobacz Databricks Runtime 12.2 LTS.
- 26 listopada 2024 r.
- Różne poprawki błędów.
- 10 października 2024 r.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr nie należy zmieniać pól schema podczas oczyszczania pól GetArrayStructFields
- 25 września 2024 r.
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- [SPARK-46601] [CORE] Naprawianie błędu dziennika w handleStatusMessage
- Różne poprawki błędów.
- 17 września 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- Różne poprawki błędów.
- 14 sierpnia 2024 r.
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-49056][SQL] ErrorClassesJsonReader nie może poprawnie obsłużyć wartości null
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- [SPARK-48463][ML] Spraw, aby StringIndexer obsługiwał zagnieżdżone dane wejściowe columns
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 sierpnia 2024 r.
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- 1 sierpnia 2024 r.
- Aby zastosować wymagane poprawki zabezpieczeń, wersja języka Python w środowisku Databricks Runtime 12.2 LTS została uaktualniona z wersji 3.9.5 do wersji 3.9.19.
- 11 lipca 2024 r.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródło jest zastępowane. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
.checkpoint()
, aby utrwalać stan table przez cały okres istnienia ramki danych. - [SPARK-48481][SQL][SS] Nie stosuj elementu OptimizeOneRowPlan względem zestawu danych przesyłania strumieniowego
- [SPARK-47070] Napraw nieprawidłową agregację po ponownym zapisaniu podzapytania
- [SPARK-42741][SQL] Nie odpakuj rzutów w porównaniu binarnym, gdy literał ma wartość null
- [SPARK-48445][SQL] Nie udostępniaj wbudowanych funkcji zdefiniowanych przez użytkownika z kosztownymi dziećmi
- [SPARK-48503][SQL] Naprawienie nieprawidłowych podzapytań skalarnych z grupowaniem według nie-równoważnych columns, które były niepoprawnie dopuszczone.
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- Aktualizacje zabezpieczeń systemu operacyjnego.
- ( zmiana zachowania) Ramki danych buforowane względem źródeł usługi Delta table są teraz unieważniane, jeśli table źródło jest zastępowane. Ta zmiana oznacza, że wszystkie zmiany stanu Delta tables teraz unieważniają buforowane wyniki. Użyj
- 17 czerwca 2024 r.
- [SPARK-48277] Ulepszanie komunikatu o błędzie dla errorClassesJsonReader.getErrorMessage
- Różne poprawki błędów.
- 21 maja 2024 r.
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 9 maja 2024 r.
- [SPARK-44251][SQL] Set poprawnie dopuszczać wartość null przy użyciu klucza join w pełni zewnętrznego przy użyciu join
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Sprawdzanie kondycji dla nierozwiązanej dokumentacji LCA
- [SPARK-48018][SS] Rozwiązano problem z wartością null groupId powodujący błąd brakującego parametru podczas zgłaszania wyjątku KafkaException.couldNotReadOffsetRange
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 kwietnia 2024 r.
- [SPARK-47305][SQL] Napraw narzędzie PruneFilters, aby oznaczyć flagę isStreaming właściwości LocalRelation poprawnie, gdy plan ma zarówno partię, jak i przesyłanie strumieniowe
- [SPARK-44252][SS] Definiowanie nowej klasy błędów i stosowanie dla przypadku where stanu ładowania z systemu plików DFS kończy się niepowodzeniem
- [SPARK-47135][SS] Implementowanie klas błędów dla wyjątków utraty danych platformy Kafka
- [SPARK-47200][SS] Klasa błędu dla błędu funkcji użytkownika ujścia wsadowego foreach
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2024 r.
- [SPARK-47176][SQL] Funkcja pomocnika ResolveAllExpressionsUpWithPruning
- Przywróć "[SPARK-46861][CORE] Unikaj zakleszczenia w daGScheduler"
- [SPARK-47125][SQL] Zwracanie wartości null, jeśli funkcja Univocity nigdy nie wyzwala analizowania
- [SPARK-47167][SQL] Dodawanie klasy dla anonimowej relacji JDBC
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Naprawiono problem where, w którym użycie kolekcji lokalnej jako źródła w poleceniu MERGE mogło spowodować, że metryka numSourceRows zgłaszała dwukrotnie większą od poprawnej liczbę wierszy.
- Utworzenie schema ze zdefiniowaną lokalizacją wymaga teraz, aby użytkownik miał uprawnienia SELECT i modyfikuj w dowolnym pliku.
- [SPARK-45582][SS] Upewnij się, że wystąpienie magazynu nie jest używane po wywołaniu zatwierdzenia w trybie wyjściowym agregacji przesyłania strumieniowego
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 13 lutego 2024 r.
- [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- [SPARK-46794]Remove podzapytania wynikające z ograniczeń LogicalRDD.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 31 stycznia 2024 r.
- [SPARK-46763] Naprawiono błąd asercji w elemencie ReplaceDeduplicateWithAggregate dla zduplikowanych atrybutów.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 grudnia 2023 r.
- Aby uniknąć zwiększonego opóźnienia podczas komunikacji za pośrednictwem protokołu TLSv1.3, ta wersja konserwacji zawiera poprawkę do instalacji zestawu JDK 8 w celu naprawienia błędu JDK JDK-8293562.
- [SPARK-39440] Dodaj konfigurację, aby wyłączyć oś czasu zdarzenia.
- [SPARK-46132] Obsługa hasła klucza dla kluczy JKS dla protokołu SSL RPC.
-
[SPARK-46394] Naprawić Spark.catalog.listDatabases() problemy ze schematami zawierającymi znaki specjalne, gdy ustawienie
spark.sql.legacy.keepCommandOutputSchema
set na true. - [SPARK-46417] Nie kończy się niepowodzeniem podczas wywoływania elementu hive.getTable i throwException ma wartość false.
- [SPARK-43067] Popraw lokalizację pliku zasobu klasy błędów w łączniku platformy Kafka.
- [SPARK-46249] Wymagaj blokady wystąpienia na potrzeby uzyskiwania metryk bazy danych RocksDB, aby zapobiec wyścigowi z operacjami w tle.
-
[SPARK-46602] Propagować
allowExisting
podczas tworzenia widoku, gdy widok/table nie istnieje. - [SPARK-46058] Dodaj oddzielną flagę privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables nie zgłasza wyjątku, gdy table lub widok nie zostanie znaleziony.
-
[SPARK-46538] naprawić niejednoznaczny problem referencji column w
ALSModel.transform
. - [SPARK-42852] Przywróć zmiany powiązane nazwaneLambdaVariable z RównoważnychExpressions.
- 14 grudnia 2023 r.
- Rozwiązano problem where polegający na niewłaściwej obsłudze podkreśleń z prefiksem ucieczki w operacjach getColumns pochodzących z klientów JDBC lub ODBC, które były traktowane jako symbole wieloznaczne.
- [SPARK-44582] Pomiń iterator na SMJ, jeśli został oczyszczony.
- [SPARK-45920] grupowanie według porządkowych powinno być idempotentne.
- [SPARK-45655] Zezwalaj na wyrażenia niedeterministyczne wewnątrz funkcji AggregateFunctions w funkcji CollectMetrics.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2023 r.
- Zainstalowano nowy pakiet w
pyarrow-hotfix
celu skorygowania luki W zabezpieczeniach PyArrow RCE. - Rozwiązano problem where podkreślenia ucieczki w operacjach
getColumns
pochodzących z klientów JDBC lub ODBC były błędnie interpretowane jako symbole wieloznaczne. -
[SPARK-42205] Usunięto możliwości rejestrowania w zdarzeniach
Stage
iTask
uruchamiania. -
[SPARK-44846] Usunięto złożone wyrażenia grupowania po .
RemoveRedundantAggregates
-
[SPARK-43718] Naprawiono nullability dla kluczy w
USING
sprzężeniach. -
[SPARK-45544] Zintegrowana obsługa protokołu SSL w usłudze
TransportContext
. - [SPARK-43973] Interfejs użytkownika przesyłania strumieniowego ze strukturą wyświetla teraz zapytania, które zakończyły się niepowodzeniem.
-
[SPARK-45730] Ulepszone ograniczenia czasowe dla elementu
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Obiekty zdefiniowane przez użytkownika są opóźnione
ml.functions
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Zainstalowano nowy pakiet w
- 14 listopada 2023 r.
- Partition filtry zapytań przesyłania strumieniowego usługi Delta Lake są wypychane w dół przed ograniczeniem szybkości w celu osiągnięcia lepszego wykorzystania.
-
[SPARK-45545]
SparkTransportConf
dziedziczySSLOptions
po utworzeniu. -
[SPARK-45427] Dodano ustawienia protokołu SSL protokołu RPC do
SSLOptions
iSparkTransportConf
. -
[SPARK-45584] Naprawiono błąd uruchamiania podzapytania z poleceniem
TakeOrderedAndProjectExec
. -
[SPARK-45541] Dodano
SSLFactory
element . -
[SPARK-45430]
FramelessOffsetWindowFunction
nie kończy się już niepowodzeniem, gdyIGNORE NULLS
ioffset > rowCount
. - [SPARK-45429] Dodano klasy pomocnika dla komunikacji RPC SSL.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 24 października 2023 r.
-
[SPARK-45426] Dodano obsługę elementu
ReloadingX509TrustManager
. - Różne poprawki.
-
[SPARK-45426] Dodano obsługę elementu
- 13 października 2023 r.
- Zależność Snowflake-jdbc została uaktualniona z wersji 3.13.29 do 3.13.33.
- [SPARK-42553] Upewnij się, że co najmniej jedna jednostka czasowa po interwale.
- [SPARK-45346] Parquet schema uwzględnia flagę rozróżniającą wielkość liter podczas scalania schema.
-
[SPARK-45178] Powrót do uruchamiania pojedynczej partii dla
Trigger.AvailableNow
nieobsługiwanych źródeł zamiast używania otoki. -
[SPARK-45084]
StateOperatorProgress
używać dokładnej, odpowiedniej liczby partition.
- 12 września 2023 r.
-
[SPARK-44873] Dodano obsługę
alter view
z zagnieżdżonym columns w kliencie Hive. -
[SPARK-44718] Dopasuj
ColumnVector
domyślną konfigurację trybu pamięci doOffHeapMemoryMode
wartości konfiguracji. -
[SPARK-43799] Dodano opcję binarną deskryptora do interfejsu API PySpark
Protobuf
. - Różne poprawki.
-
[SPARK-44873] Dodano obsługę
- 30 sierpnia 2023 r.
-
[SPARK-44485] Zoptymalizowane pod kątem
TreeNode.generateTreeString
. -
[SPARK-44818] Naprawiono wyścig dla oczekujących przerwań zadania wystawionych przed
taskThread
zainicjowaniem. -
[SPARK-44871][11.3-13.0] Naprawiono
percentile_disc
zachowanie. - [SPARK-44714] Złagodzonych ograniczeń rozpoznawania LCA dotyczących zapytań.
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-44485] Zoptymalizowane pod kątem
- 15 sierpnia 2023 r.
- [SPARK-44504] zadanie konserwacji czyści załadowane providers w przypadku błędu zatrzymania.
-
[SPARK-44464] Naprawiono
applyInPandasWithStatePythonRunner
, aby wyprowadzać wiersze, które mająNull
jako pierwszą wartość column. - Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lipca 2023 r.
- Rozwiązano problem where
dbutils.fs.ls()
zwróciłINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
po wywołaniu ścieżki lokalizacji magazynu, która zderzyła się z inną lokalizacją magazynu zewnętrznego lub zarządzanego. -
[SPARK-44199]
CacheManager
nie odświeżafileIndex
już niepotrzebnie. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Rozwiązano problem where
- 24 lipca 2023 r.
-
[SPARK-44337] Naprawiono problem, który where dowolnego pola set do
Any.getDefaultInstance
powodował błędy analizy. -
[SPARK-44136] Rozwiązano problem, where
StateManager
get zmaterializowany w funkcji wykonawczej zamiast sterownika wFlatMapGroupsWithStateExec
. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-44337] Naprawiono problem, który where dowolnego pola set do
- 23 czerwca 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 15 czerwca 2023 r.
- Fotonized
approx_count_distinct
. - Biblioteka Snowflake-jdbc została uaktualniona do wersji 3.13.29, aby rozwiązać problem z zabezpieczeniami.
-
[SPARK-43779]
ParseToDate
teraz ładujeEvalMode
się w głównym wątku. -
[SPARK-43156][SPARK-43098] Rozszerzony test błędu liczby podzapytania skalarnych z wyłączonym
decorrelateInnerQuery
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Fotonized
- 2 czerwca 2023 r.
- Analizator JSON w
failOnUnknownFields
trybie usuwa rekord wDROPMALFORMED
trybie i kończy się niepowodzeniem bezpośrednio wFAILFAST
trybie. - Zwiększ wydajność aktualizacji przyrostowych za pomocą
SHALLOW CLONE
platform Iceberg i Parquet. - Rozwiązano problem z Auto Loaderem where. Różne formaty plików źródłowych były niespójne, kiedy podany schema nie zawierał wywnioskowanych partycji. Ten problem może spowodować nieoczekiwane błędy podczas odczytywania plików z brakującymi columns w wnioskowanych partitionschema.
- [SPARK-43404] Pomiń ponowne korzystanie z pliku sst dla tej samej wersji magazynu stanów bazy danych RocksDB, aby uniknąć błędu niezgodności identyfikatorów.
-
[SPARK-43413][11.3-13.0] Naprawiono
IN
podzapytywanieListQuery
wartości null. - [SPARK-43522] Naprawiono tworzenie nazwy struktury column z indeksem tablicy.
-
[SPARK-43541] Propagacja wszystkich tagów
Project
w rozpoznawaniu wyrażeń i braku columns. -
[SPARK-43527] Naprawiono
catalog.listCatalogs
w PySpark. - [SPARK-43123] Wewnętrzne metadane pól nie wyciekają już do catalogs.
- [SPARK-43340] Naprawiono brakujące pole śledzenia stosu w dziennikach zdarzeń.
-
[SPARK-42444]
DataFrame.drop
teraz obsługuje zduplikowane columns poprawnie. -
[SPARK-42937]
PlanSubqueries
teraz ustawia wartośćInSubqueryExec#shouldBroadcast
true. -
[SPARK-43286] zaktualizowany tryb CBC
aes_encrypt
w celu generate losowych woluminów IP. -
[SPARK-43378] Poprawnie zamknij obiekty strumienia w obiekcie
deserializeFromChunkedBuffer
.
- Analizator JSON w
- 17 maja 2023 r.
- Skanowanie Parquet jest teraz niezawodne w stosunku do OOM podczas skanowania wyjątkowo ustrukturyzowanych plików przez dynamiczne dostosowywanie rozmiaru partii. Metadane plików są analizowane w celu wywłaszczania mniejszego rozmiaru partii i są ponownie obniżane w przypadku ponawiania prób zadania jako ostatecznej sieci bezpieczeństwa.
- Jeśli plik Avro został odczytany za pomocą opcji
failOnUnknownFields
lub z automatycznym modułem ładującym w trybie ewolucjifailOnNewColumns
schema, columns, które mają różne typy danych, będą odczytywane jakonull
zamiast zgłaszać błąd informujący, że nie można odczytać pliku. Te operacje odczytu kończą się teraz niepowodzeniem i zalecamy użytkownikom korzystanie zrescuedDataColumn
tej opcji. - Funkcja automatycznego modułu ładującego wykonuje teraz następujące czynności.
-
- Poprawnie odczytuje i nie ratuje
Integer
już typów ,Short
iByte
, jeśli podano jeden z tych typów danych, ale plik Avro sugeruje jeden z pozostałych dwóch typów.
- Poprawnie odczytuje i nie ratuje
-
- Zapobiega odczytywaniu typów interwałów jako typów sygnatur daty lub godziny, aby uniknąć uszkodzenia dat.
-
- Zapobiega odczytywaniu
Decimal
typów z mniejszą dokładnością.
- Zapobiega odczytywaniu
- [SPARK-43172] Uwidacznia hosta i token z klienta spark connect.
-
[SPARK-43293]
__qualified_access_only
jest ignorowana w normalnych columns. -
[SPARK-43098] Naprawiono usterkę poprawności
COUNT
, gdy podzapytanie skalarne jest grupowane według klauzuli. -
[SPARK-43085] Obsługa przypisywania column
DEFAULT
dla nazw table wieloczęściowych. -
[SPARK-43190]
ListQuery.childOutput
jest teraz zgodny z pomocniczymi danymi wyjściowymi. - [SPARK-43192] Usunięto weryfikację zestawu znaków agenta użytkownika.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2023 r.
- Jeśli plik Parquet został odczytany tylko za pomocą opcji
failOnUnknownFields
lub z automatycznym modułem ładującym w trybie ewolucjifailOnNewColumns
schema, columns, które miały różne typy danych, byłyby odczytywane jakonull
zamiast zgłoszenia błędu informującego, że plik nie może być odczytany. Te operacje odczytu kończą się teraz niepowodzeniem i zalecamy użytkownikom korzystanie zrescuedDataColumn
tej opcji. - Automatycznie ładujący teraz poprawnie odczytuje i nie ratuje
Integer
już typów ,Short
iByte
, jeśli podano jeden z tych typów danych. Plik Parquet sugeruje jeden z dwóch pozostałych typów. Po włączeniu wcześniej uratowanych danych column niezgodność typów danych spowoduje zapisanie columns, mimo że można je było odczytać. -
[SPARK-43009] Sparametryzowane
sql()
zeAny
stałymi - [SPARK-42406] Kończenie cyklicznych pól protobuf przez usunięcie pola
-
[SPARK-43038] Obsługa trybu CBC przez
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Zmień na drukowanie
workdir
, jeśliappDirs
ma wartość null, gdy proces roboczy obsługujeWorkDirCleanup
zdarzenie - [SPARK-43018] Poprawka błędów w poleceniach INSERT z literałami znacznika czasu
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Jeśli plik Parquet został odczytany tylko za pomocą opcji
- 11 kwietnia 2023 r.
- Obsługa starszych formatów źródeł danych w poleceniu
SYNC
. - Rozwiązano problem w zachowaniu %autoreload w notesach spoza repozytorium.
- Rozwiązano problem where, w którym ewolucja automatycznego modułu ładującego schema mogła wejść w nieskończoną pętlę niepowodzeń po wykryciu nowej column w schema zagnieżdżonego obiektu JSON.
-
[SPARK-42928] Synchronizuje
resolvePersistentFunction
. - [SPARK-42936] Rozwiązuje problem LCan, gdy klauzula może zostać rozwiązana bezpośrednio przez jego agregację podrzędną.
-
[SPARK-42967] Poprawki
SparkListenerTaskStart.stageAttemptId
po rozpoczęciu zadania po anulowaniu etapu. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Obsługa starszych formatów źródeł danych w poleceniu
- 29 marca 2023 r.
Databricks SQL obsługuje teraz określanie domyślnych values dla columns w Delta Lake tables, zarówno w momencie tworzenia table, jak i później. Kolejne polecenia
INSERT
,UPDATE
,DELETE
iMERGE
mogą odwoływać się do dowolnej wartości domyślnej columnprzy użyciu jawnego słowa kluczowegoDEFAULT
. Ponadto jeśli jakiekolwiek przypisanieINSERT
ma jawną list mniejszą columns niż docelowa table, odpowiadające column domyślne values są zastępowane pozostałym columns (lub null, jeśli nie określono wartości domyślnej).Na przykład:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
Funkcja automatycznego ładowania inicjuje teraz co najmniej jedno synchroniczne oczyszczanie dziennika bazy danych RocksDB dla strumieni
Trigger.AvailableNow
w celu sprawdzenia, czy punkt kontrolny może get regularnie czyszczone w przypadku szybkich strumieni modułu ładującego automatycznie. Może to spowodować, że niektóre strumienie będą trwać dłużej przed ich zamknięciem, ale pozwoli to zaoszczędzić koszty magazynowania i poprawić środowisko automatycznego modułu ładującego w przyszłych uruchomieniach.Teraz możesz zmodyfikować Delta table, aby dodać obsługę funkcji table przy użyciu
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Zwiększ wartość lockAcquireTimeoutMs do 2 minut, aby uzyskać magazyn stanów bazy danych RocksDB w strumieniu struktury
[SPARK-42521] Dodawanie NUL dla inSERTs z listami określonymi przez użytkownika o mniejszej columns niż docelowa table
[SPARK-42702][SPARK-42623] Obsługa zapytania sparametryzowanego w podzapytaniu i CTE
[SPARK-42668] Przechwyć wyjątek podczas próby zamknięcia skompresowanego strumienia w zatrzymaniu HDFSStateStoreProvider
[SPARK-42403] Kod JsonProtocol powinien obsługiwać ciągi JSON o wartości null
- 8 marca 2023 r.
- Komunikat o błędzie "Niepowodzenie inicjowania konfiguracji" został ulepszony w celu zapewnienia większego kontekstu dla klienta.
- Istnieje zmiana terminologii dotycząca dodawania funkcji do table delty przy użyciu właściwości table. Preferowana składnia to teraz
'delta.feature.featureName'='supported'
zamiast'delta.feature.featureName'='enabled'
. W celu zapewnienia zgodności z poprzednimi wersjami użycie'delta.feature.featureName'='enabled'
nadal działa i będzie nadal działać. - Począwszy od tej wersji, można utworzyć lub zastąpić table dodatkową właściwością table
delta.ignoreProtocolDefaults
, która umożliwia ignorowanie konfiguracji protokołu platformy Spark, obejmujących domyślne wersje czytników i autorów oraz domyślnie obsługiwane funkcje table. - [SPARK-42070] Zmień wartość domyślną argumentu funkcji Mask z -1 na NULL
- [SPARK-41793] Niepoprawny wynik dla ramek window zdefiniowanych przez klauzulę zakresu dla znaczących cyfr dziesiętnych
- [SPARK-42484] Komunikat o błędzie NiebezpiecznyRowUtils jest lepszy
- [SPARK-42516] Zawsze zapisuj konfigurację strefy czasowej sesji podczas tworzenia views
- [SPARK-42635] Napraw wyrażenie TimestampAdd.
- [SPARK-42622] Wyłączone podstawianie w values
- [SPARK-42534] Napraw klauzulę DB2Dialect Limit
- [SPARK-42121] Dodanie wbudowanych funkcji tablewartościowych posexplode, posexplode_outer, json_tuple i stack
- [SPARK-42045] Tryb SQL ANSI: Funkcja Round/Bround powinna zwrócić błąd dotyczący przepełnienia małej/małej/znaczącej liczby całkowitej
- Aktualizacje zabezpieczeń systemu operacyjnego.
Databricks Runtime 11.3 LTS
Zobacz Databricks Runtime 11.3 LTS.
- 26 listopada 2024 r.
- Różne poprawki błędów.
- 10 października 2024 r.
- Różne poprawki błędów.
- 25 września 2024 r.
- [SPARK-46601] [CORE] Naprawianie błędu dziennika w handleStatusMessage
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- Różne poprawki błędów.
- 17 września 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- 14 sierpnia 2024 r.
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- [SPARK-48463][ML] Umożliwienie StringIndexer obsługi zagnieżdżonych danych wejściowych columns
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 sierpnia 2024 r.
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- 1 sierpnia 2024 r.
- Aby zastosować wymagane poprawki zabezpieczeń, wersja języka Python w środowisku Databricks Runtime 11.3 LTS została uaktualniona z wersji 3.9.5 do wersji 3.9.19.
- 11 lipca 2024 r.
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- [SPARK-47070] Napraw nieprawidłową agregację po ponownym zapisaniu podzapytania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 czerwca 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 21 maja 2024 r.
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 9 maja 2024 r.
- [SPARK-48018][SS] Rozwiązano problem z wartością null groupId powodujący błąd brakującego parametru podczas zgłaszania wyjątku KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Set poprawnie dopuszczać wartość null przy użyciu klucza join w pełni zewnętrznego przy użyciu join
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 kwietnia 2024 r.
- [SPARK-44252][SS] Definiowanie nowej klasy błędów i stosowanie dla przypadku where stanu ładowania z systemu plików DFS kończy się niepowodzeniem
- [SPARK-47135][SS] Implementowanie klas błędów dla wyjątków utraty danych platformy Kafka
- Przywróć "[SPARK-46861][CORE] Unikaj zakleszczenia w daGScheduler"
- [SPARK-47200][SS] Klasa błędu dla błędu funkcji użytkownika ujścia wsadowego foreach
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2024 r.
- [SPARK-47167][SQL] Dodawanie klasy dla anonimowej relacji JDBC
- [SPARK-47125][SQL] Zwracanie wartości null, jeśli funkcja Univocity nigdy nie wyzwala analizowania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Naprawiono problem where, który przy używaniu kolekcji lokalnej jako źródło w poleceniu MERGE mógł skutkować tym, że metryka numSourceRows zgłaszała dwukrotnie poprawną liczbę wierszy.
- [SPARK-45582][SS] Upewnij się, że wystąpienie magazynu nie jest używane po wywołaniu zatwierdzenia w trybie wyjściowym agregacji przesyłania strumieniowego
- 13 lutego 2024 r.
- [SPARK-46794]Remove podzapytania z ograniczeń LogicalRDD.
- [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 31 stycznia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 grudnia 2023 r.
- Aby uniknąć zwiększonego opóźnienia podczas komunikacji za pośrednictwem protokołu TLSv1.3, ta wersja konserwacji zawiera poprawkę do instalacji zestawu JDK 8 w celu naprawienia błędu JDK JDK-8293562.
- [SPARK-46058] Dodaj oddzielną flagę privateKeyPassword.
-
[SPARK-46602] Przekazywanie
allowExisting
podczas tworzenia widoku, gdy widok/table nie istnieje. - pl-PL: [SPARK-46394] Naprawiono Spark.catalogProblemy z .listDatabases() przy schematach ze znakami specjalnymi, gdy
spark.sql.legacy.keepCommandOutputSchema
set jest ustawione na wartość true. -
[SPARK-46538] rozwiązać niejednoznaczny problem z dokumentacją column w
ALSModel.transform
. - [SPARK-39440] Dodaj konfigurację, aby wyłączyć oś czasu zdarzenia.
- [SPARK-46249] Wymagaj blokady wystąpienia na potrzeby uzyskiwania metryk bazy danych RocksDB, aby zapobiec wyścigowi z operacjami w tle.
- [SPARK-46132] Obsługa hasła klucza dla kluczy JKS dla protokołu SSL RPC.
- 14 grudnia 2023 r.
- Naprawiono problem where, w którym znaki podkreślenia poprzedzone ukośnikiem w operacji getColumns, pochodzącej z klientów JDBC lub ODBC, były obsługiwane niepoprawnie i interpretowane jako symbole wieloznaczne.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2023 r.
- Zainstalowano nowy pakiet w
pyarrow-hotfix
celu skorygowania luki W zabezpieczeniach PyArrow RCE. - Rozwiązano problem where podkreślenia ucieczki w operacjach
getColumns
pochodzących z klientów JDBC lub ODBC były błędnie interpretowane jako symbole wieloznaczne. - [SPARK-43973] Interfejs użytkownika przesyłania strumieniowego ze strukturą wyświetla teraz zapytania, które zakończyły się niepowodzeniem.
-
[SPARK-45730] Ulepszone ograniczenia czasowe dla elementu
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Zintegrowana obsługa protokołu SSL w usłudze
TransportContext
. -
[SPARK-45859] Obiekty zdefiniowane przez użytkownika są opóźnione
ml.functions
. -
[SPARK-43718] Naprawiono nullability dla kluczy w
USING
sprzężeniach. -
[SPARK-44846] Usunięto złożone wyrażenia grupowania po .
RemoveRedundantAggregates
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Zainstalowano nowy pakiet w
- 14 listopada 2023 r.
- Partition filtry zapytań przesyłania strumieniowego usługi Delta Lake są wypychane w dół przed ograniczeniem szybkości w celu osiągnięcia lepszego wykorzystania.
- [SPARK-42205] Usunięto możliwości rejestrowania w zdarzeniach uruchamiania etapu i zadania.
-
[SPARK-45545]
SparkTransportConf
dziedziczySSLOptions
po utworzeniu. - Przywróć [SPARK-33861].
-
[SPARK-45541] Dodano
SSLFactory
element . - [SPARK-45429] Dodano klasy pomocnika dla komunikacji RPC SSL.
-
[SPARK-45584] Naprawiono błąd uruchamiania podzapytania z poleceniem
TakeOrderedAndProjectExec
. -
[SPARK-45430]
FramelessOffsetWindowFunction
nie kończy się już niepowodzeniem, gdyIGNORE NULLS
ioffset > rowCount
. -
[SPARK-45427] Dodano ustawienia protokołu SSL protokołu RPC do
SSLOptions
iSparkTransportConf
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- 24 października 2023 r.
-
[SPARK-45426] Dodano obsługę elementu
ReloadingX509TrustManager
. - Różne poprawki.
-
[SPARK-45426] Dodano obsługę elementu
- 13 października 2023 r.
- Zależność Snowflake-jdbc została uaktualniona z wersji 3.13.29 do 3.13.33.
-
[SPARK-45178] Powrót do uruchamiania pojedynczej partii dla
Trigger.AvailableNow
nieobsługiwanych źródeł zamiast używania otoki. -
[SPARK-45084]
StateOperatorProgress
w celu używania dokładnej, odpowiedniej liczby partition. - [SPARK-45346] Parquet schema wnioskowanie uwzględnia teraz flagę uwzględniającą wielkość liter podczas scalania schema.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 września 2023 r.
- Różne poprawki.
- 30 sierpnia 2023 r.
-
[SPARK-44818] Naprawiono wyścig dla oczekujących przerwań zadania wystawionych przed
taskThread
zainicjowaniem. -
[SPARK-44871][11.3-13.0] Naprawiono
percentile_disc
zachowanie. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-44818] Naprawiono wyścig dla oczekujących przerwań zadania wystawionych przed
- 15 sierpnia 2023 r.
-
[SPARK-44485] Zoptymalizowane pod kątem
TreeNode.generateTreeString
. - [SPARK-44504] zadanie konserwacji czyści załadowane providers po błędzie zatrzymania.
-
[SPARK-44464] Naprawiono
applyInPandasWithStatePythonRunner
, aby wyjściowe wiersze miałyNull
jako pierwszą wartość column. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-44485] Zoptymalizowane pod kątem
- 27 lipca 2023 r.
- Rozwiązano problem: where
dbutils.fs.ls()
zwracałINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
, gdy wywoływano ścieżkę do lokalizacji magazynu, która kolidowała z inną lokalizacją magazynu zewnętrznego lub zarządzanego. -
[SPARK-44199]
CacheManager
nie odświeżafileIndex
już niepotrzebnie. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Rozwiązano problem: where
- 24 lipca 2023 r.
- [SPARK-44136] Rozwiązano problem, który menedżer stanu może get zmaterializowany w funkcji wykonawczej zamiast sterownika w flatMapGroupsWithStateExec.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 23 czerwca 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 15 czerwca 2023 r.
- Fotonized
approx_count_distinct
. - Biblioteka Snowflake-jdbc została uaktualniona do wersji 3.13.29, aby rozwiązać problem z zabezpieczeniami.
-
[SPARK-43779]
ParseToDate
teraz ładujeEvalMode
się w głównym wątku. - [SPARK-40862] Obsługa niegregowanych podzapytania w funkcji RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Rozszerzony test błędów liczby podzapytania skalarnych z wyłączonym
decorrelateInnerQuery
. - [SPARK-43098] Naprawiono usterkę count poprawności, gdy podzapytywanie skalarne ma klauzulę grupowania według
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Fotonized
- 2 czerwca 2023 r.
- Analizator JSON w
failOnUnknownFields
trybie usuwa rekord wDROPMALFORMED
trybie i kończy się niepowodzeniem bezpośrednio wFAILFAST
trybie. - Zwiększ wydajność aktualizacji przyrostowych za pomocą
SHALLOW CLONE
platform Iceberg i Parquet. - Rozwiązano problem z automatycznym ładowaniem where różne formaty plików źródłowych były niespójne, gdy podana schema nie zawierała wywnioskowanych partycji. Ten błąd może spowodować nieoczekiwane awarie podczas odczytywania plików z brakującym columns w domniemanych partitionschema.
- [SPARK-43404]Pomiń ponowne korzystanie z pliku sst dla tej samej wersji magazynu stanów bazy danych RocksDB, aby uniknąć błędu niezgodności identyfikatorów.
-
[SPARK-43527] Naprawiono
catalog.listCatalogs
w PySpark. -
[SPARK-43413][11.3-13.0] Naprawiono
IN
podzapytywanieListQuery
wartości null. - [SPARK-43340] Naprawiono brakujące pole śledzenia stosu w dziennikach zdarzeń.
- Analizator JSON w
Databricks Runtime 10.4 LTS
Zobacz Databricks Runtime 10.4 LTS.
- 26 listopada 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 listopada 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 października 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 października 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 września 2024 r.
- [SPARK-46601] [CORE] Naprawianie błędu dziennika w handleStatusMessage
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" (distinct 1) from t" (liczba where t) jest pusta table przez rozszerzenie RewriteDistinctAggregates
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 września 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- 14 sierpnia 2024 r.
- [SPARK-48597][SQL] Wprowadzenie znacznika dla właściwości isStreaming w tekście reprezentacji planu logicznego
- [SPARK-48941][SPARK-48970] Wycofywanie modułu zapisywania uczenia maszynowego/poprawki czytnika
- [SPARK-48463][ML] Make StringIndexer obsługujące zagnieżdżone dane wejściowe columns
- 1 sierpnia 2024 r.
- [SPARK-48896][SPARK-48909][SPARK-48883] Poprawki modułu zapisywania uczenia maszynowego platformy Spark w zapleczu
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 lipca 2024 r.
- [SPARK-48383][SS] Zgłaszanie lepszego błędu w przypadku niedopasowanych partycji w opcji startOffset na platformie Kafka
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 czerwca 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 21 maja 2024 r.
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 9 maja 2024 r.
- [SPARK-48018][SS] Rozwiązano problem z wartością null groupId powodujący błąd brakującego parametru podczas zgłaszania wyjątku KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Set poprawnie dopuszczać wartość null przy użyciu klucza join w pełni zewnętrznego przy użyciu join
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 kwietnia 2024 r.
- [SPARK-47135][SS] Implementowanie klas błędów dla wyjątków utraty danych platformy Kafka
- [SPARK-44252][SS] Definiowanie nowej klasy błędów i stosowanie dla przypadku where stanu ładowania z systemu plików DFS kończy się niepowodzeniem
- [SPARK-47200][SS] Klasa błędu dla błędu funkcji użytkownika ujścia wsadowego foreach
- Przywróć "[SPARK-46861][CORE] Unikaj zakleszczenia w daGScheduler"
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2024 r.
- [SPARK-47125][SQL] Zwracanie wartości null, jeśli funkcja Univocity nigdy nie wyzwala analizowania
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Poprawiono problem where, gdzie użycie kolekcji lokalnej jako źródła w poleceniu MERGE mogło spowodować, że metryka numSourceRows zgłaszała dwukrotnie większą liczbę wierszy niż poprawna.
- [SPARK-45582][SS] Upewnij się, że wystąpienie magazynu nie jest używane po wywołaniu zatwierdzenia w trybie wyjściowym agregacji przesyłania strumieniowego
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 13 lutego 2024 r.
- [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 31 stycznia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 grudnia 2023 r.
- Aby uniknąć zwiększonego opóźnienia podczas komunikacji za pośrednictwem protokołu TLSv1.3, ta wersja konserwacji zawiera poprawkę do instalacji zestawu JDK 8 w celu naprawienia błędu JDK JDK-8293562.
- [SPARK-46058] Dodaj oddzielną flagę privateKeyPassword.
-
[SPARK-46538] rozwiązać niejednoznaczny problem z dokumentacją column w
ALSModel.transform
. - [SPARK-39440] Dodaj konfigurację, aby wyłączyć oś czasu zdarzenia.
- [SPARK-46132] Obsługa hasła klucza dla kluczy JKS dla protokołu SSL RPC.
- 14 grudnia 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2023 r.
- Zainstalowano nowy pakiet w
pyarrow-hotfix
celu skorygowania luki W zabezpieczeniach PyArrow RCE. -
[SPARK-45544] Zintegrowana obsługa protokołu SSL w usłudze
TransportContext
. -
[SPARK-45859] Obiekty zdefiniowane przez użytkownika są opóźnione
ml.functions
. -
[SPARK-43718] Naprawiono nullability dla kluczy w
USING
sprzężeniach. -
[SPARK-45730] Ulepszone ograniczenia czasowe dla elementu
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Usunięto możliwości rejestrowania w zdarzeniach uruchamiania etapu i zadania.
-
[SPARK-44846] Usunięto złożone wyrażenia grupowania po .
RemoveRedundantAggregates
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Zainstalowano nowy pakiet w
- 14 listopada 2023 r.
-
[SPARK-45541] Dodano
SSLFactory
element . -
[SPARK-45545]
SparkTransportConf
dziedziczySSLOptions
po utworzeniu. -
[SPARK-45427] Dodano ustawienia protokołu SSL protokołu RPC do
SSLOptions
iSparkTransportConf
. - [SPARK-45429] Dodano klasy pomocnika dla komunikacji RPC SSL.
-
[SPARK-45584] Naprawiono błąd uruchamiania podzapytania z poleceniem
TakeOrderedAndProjectExec
. - Przywróć [SPARK-33861].
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-45541] Dodano
- 24 października 2023 r.
-
[SPARK-45426] Dodano obsługę elementu
ReloadingX509TrustManager
. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-45426] Dodano obsługę elementu
- 13 października 2023 r.
-
[SPARK-45084]
StateOperatorProgress
używać dokładnej, odpowiedniej liczby przetasowań partition. -
[SPARK-45178] Powrót do uruchamiania pojedynczej partii dla
Trigger.AvailableNow
nieobsługiwanych źródeł zamiast używania otoki. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-45084]
- 10 września 2023 r.
- Różne poprawki.
- 30 sierpnia 2023 r.
-
[SPARK-44818] Naprawiono wyścig dla oczekujących przerwań zadania wystawionych przed
taskThread
zainicjowaniem. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-44818] Naprawiono wyścig dla oczekujących przerwań zadania wystawionych przed
- 15 sierpnia 2023 r.
- [SPARK-44504] Zadanie konserwacyjne czyści załadowane providers w razie wystąpienia błędu zatrzymania.
- [SPARK-43973] Interfejs użytkownika przesyłania strumieniowego ze strukturą jest teraz wyświetlany prawidłowo, gdy zapytania zakończyły się niepowodzeniem.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 23 czerwca 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 15 czerwca 2023 r.
- Biblioteka Snowflake-jdbc została uaktualniona do wersji 3.13.29, aby rozwiązać problem z zabezpieczeniami.
- [SPARK-43098] Naprawiono usterkę count poprawności, gdy podzapytywanie skalarne ma klauzulę grupowania według
- [SPARK-40862] Obsługa niegregowanych podzapytania w funkcji RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Rozszerzony test liczby podzapytania skalarnych z wyłączonym
decorrelateInnerQuery
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- 2 czerwca 2023 r.
- Analizator JSON w
failOnUnknownFields
trybie usuwa rekord wDROPMALFORMED
trybie i kończy się niepowodzeniem bezpośrednio wFAILFAST
trybie. - Rozwiązano problem z analizą danych uratowanych w formacie JSON, aby zapobiec .
UnknownFieldException
- Rozwiązano problem z automatycznym ładowaniem where, gdzie różne formaty plików źródłowych były niespójne, gdy podana schema nie zawierała wywnioskowanych partycji. Ten problem może prowadzić do nieoczekiwanych awarii podczas odczytywania plików z brakującym columns w przewidywanych partitionschema.
- [SPARK-43404] Pomiń ponowne korzystanie z pliku sst dla tej samej wersji magazynu stanów bazy danych RocksDB, aby uniknąć błędu niezgodności identyfikatorów.
-
[SPARK-43413] Naprawiono
IN
wartość null podzapytaniaListQuery
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Analizator JSON w
- 17 maja 2023 r.
- Skanowanie Parquet jest teraz niezawodne w stosunku do OOM podczas skanowania wyjątkowo ustrukturyzowanych plików przez dynamiczne dostosowywanie rozmiaru partii. Metadane plików są analizowane w celu wywłaszczania mniejszego rozmiaru partii i są ponownie obniżane w przypadku ponawiania prób zadania jako ostatecznej sieci bezpieczeństwa.
-
[SPARK-41520] Podziel
AND_OR
wzorzec drzewa na oddzielneAND
iOR
. -
[SPARK-43190]
ListQuery.childOutput
jest teraz zgodny z pomocniczymi danymi wyjściowymi. - Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2023 r.
-
[SPARK-42928] Ustaw
resolvePersistentFunction
synchronizację. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-42928] Ustaw
- 11 kwietnia 2023 r.
- Rozwiązano problem where ewolucji automatycznego modułu ładującego schema mógł przejść do nieskończonej pętli niepowodzenia po wykryciu nowej column w schema zagnieżdżonego obiektu JSON.
-
[SPARK-42937]
PlanSubqueries
teraz ustawia wartośćInSubqueryExec#shouldBroadcast
true. - [SPARK-42967] Naprawiono element SparkListenerTaskStart.stageAttemptId po uruchomieniu zadania po anulowaniu etapu.
- 29 marca 2023 r.
- [SPARK-42668] Przechwyć wyjątek podczas próby zamknięcia skompresowanego strumienia w zatrzymaniu HDFSStateStoreProvider
- [SPARK-42635] Napraw ...
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2023 r.
- [SPARK-41162] Naprawianiejoin anty-i pół-join na potrzeby samodzielnejjoin z agregacjami
- [SPARK-33206] Naprawianie obliczania wagi pamięci podręcznej indeksu shuffle dla małych plików indeksu
-
[SPARK-42484] Ulepszono komunikat o błędzie
UnsafeRowUtils
- Różne poprawki.
- 28 lutego 2023 r.
- Wygenerowano wsparcie dla formatu daty rrrr-MM-dd column. Ta zmiana obsługuje partition przycinanie dla formatu daty rrrr-MM-dd w wygenerowanym columns.
- Użytkownicy mogą teraz odczytywać i zapisywać określone delty tables wymagające wersji 3 Reader i wersji 7 Writer, korzystając z Databricks Runtime 9.1 LTS lub nowszego. Aby odnieść sukces, table cechy wymienione w protokole tablesmuszą być obsługiwane przez bieżącą wersję Databricks Runtime.
- Obsługa wygenerowana column dla date_format rrrr-MM-dd. Ta zmiana obsługuje partition przycinanie dla rrrr-MM-dd jako format daty w wygenerowanym columns.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 16 lutego 2023 r.
- [SPARK-30220] Włącz używanie funkcji Istnieje/W podzapytaniach poza węzłem Filtr
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 31 stycznia 2023 r.
- Table typy tables JDBC są teraz domyślnie zewnętrzne.
- 18 stycznia 2023 r.
- Łącznik usługi Azure Synapse zwraca bardziej opisowy komunikat o błędzie, gdy nazwa column zawiera nieprawidłowe znaki, takie jak białe znaki lub średniki. W takich przypadkach zostanie zwrócony następujący komunikat:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Czyszczenie partii zapisu po zatwierdzeniu magazynu stanów bazy danych RocksDB
- [SPARK-41199] Rozwiązano problem z metrykami, gdy źródło przesyłania strumieniowego DSv1 i źródło przesyłania strumieniowego DSv2 są współużytowane
- [SPARK-41198] Poprawki metryk w zapytaniach przesyłanych strumieniowo having źródła przesyłania strumieniowego CTE i DSv1.
- [SPARK-41339] Zamknij i ponownie utwórz partię zapisu bazy danych RocksDB zamiast czyszczenia.
- [SPARK-41732] Zastosuj oczyszczanie oparte na wzorcu drzewa dla reguły SessionWindowing.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Łącznik usługi Azure Synapse zwraca bardziej opisowy komunikat o błędzie, gdy nazwa column zawiera nieprawidłowe znaki, takie jak białe znaki lub średniki. W takich przypadkach zostanie zwrócony następujący komunikat:
- 29 listopada 2022 r.
- Użytkownicy mogą konfigurować zachowanie wiodących i końcowych białych znaków podczas zapisywania danych przy użyciu łącznika Redshift. Dodano następujące opcje do sterowania obsługą białych znaków:
-
csvignoreleadingwhitespace
, gdy set dotrue
, usuwa wiodące odstępy z values podczas zapisywania, gdytempformat
jest set doCSV
lubCSV GZIP
. Spacje są zachowywane, gdy konfiguracja jest od set dofalse
. Domyślna wartość totrue
. -
csvignoretrailingwhitespace
, gdy set dotrue
, usuwa końcowe białe znaki z values podczas zapisywania, gdytempformat
jest setCSV
lubCSV GZIP
. Odstępy są zachowywane, gdy konfiguracja jest set dofalse
. Domyślna wartość totrue
.
-
- Rozwiązano problem z parsowaniem JSON w Auto Loader, gdy wszystkie columns były pozostawione jako ciągi znaków (
cloudFiles.inferColumnTypes
nie były set lub set dofalse
) i gdy JSON zawierał zagnieżdżone obiekty. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Użytkownicy mogą konfigurować zachowanie wiodących i końcowych białych znaków podczas zapisywania danych przy użyciu łącznika Redshift. Dodano następujące opcje do sterowania obsługą białych znaków:
- 15 listopada 2022 r.
- Uaktualniono wersję apache commons-text do wersji 1.10.0.
-
[SPARK-40646] analizowanie w formacie JSON dla struktur, map i tablic zostało naprawione, więc gdy część rekordu nie jest zgodna z schema, pozostała część rekordu może być nadal analizowana poprawnie zamiast zwracać wartości null. Aby wyrazić zgodę na ulepszone zachowanie, set
spark.sql.json.enablePartialResults
true
. Flaga jest domyślnie wyłączona, aby zachować oryginalne zachowanie. -
[SPARK-40292] Naprawa nazw column w funkcji
arrays_zip
, gdy tablice są przywoływane z zagnieżdżonych struktur - Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 listopada 2022 r.
- Rozwiązano problem where, jeśli table delty miał zdefiniowany przez użytkownika column o nazwie
_change_type
, ale zmień źródło danych zostało wyłączone w tym table, dane w tym column niepoprawnie wypełniały values NULL podczas uruchamianiaMERGE
. - Rozwiązano problem z Auto Loaderem where, plik może być zduplikowany w tej samej mikropartii, gdy włączono
allowOverwrites
. - [SPARK-40697] Dodawanie dopełnienia znaków po stronie odczytu w celu pokrycia zewnętrznych plików danych
- [SPARK-40596] Wypełnianie funkcji wykonawczejDecommission komunikatami w funkcji ExecutorDecommissionInfo
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Rozwiązano problem where, jeśli table delty miał zdefiniowany przez użytkownika column o nazwie
- 18 października 2022 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 października 2022 r.
-
[SPARK-40468] Korekta column przycinania w pliku CSV po wybraniu
_corrupt_record
. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-40468] Korekta column przycinania w pliku CSV po wybraniu
- 22 września 2022 r.
- Użytkownicy mogą set spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
), aby ponownie włączyć wbudowaną funkcję listowania dla Auto Loader w usłudze ADLS Gen2. Wbudowana lista została wcześniej wyłączona z powodu problemów z wydajnością, ale może doprowadzić do zwiększenia kosztów magazynowania dla klientów. - [SPARK-40315] Add hashCode() for Literal of ArrayBasedMapData
- [SPARK-40213] Obsługa konwersji wartości ASCII dla znaków łacińskich-1
- [SPARK-40380] Napraw stałe składanie elementu InvokeLike, aby uniknąć niesererowalnego literału osadzonego w planie
- [SPARK-38404] Ulepszanie rozpoznawania CTE, gdy zagnieżdżone CTE odwołuje się do zewnętrznego CTE
- [SPARK-40089] Naprawianie sortowania niektórych typów dziesiętnych
- [SPARK-39887] RemoveRedundantAliases powinny zachować aliasy, które sprawiają, że dane wyjściowe węzłów projekcji są unikatowe
- Użytkownicy mogą set spark.conf.set(
- 6 września 2022 r.
- [SPARK-40235] Użyj blokady przerywanej zamiast zsynchronizowanej w pliku Executor.updateDependencies().
- [SPARK-40218] ZESTAWY GRUPOWANIA powinny zachować columnsgrupowanie.
- [SPARK-39976] Funkcja ArrayIntersect powinna poprawnie obsługiwać wartość null w wyrażeniu po lewej stronie.
-
[SPARK-40053] Dodaj
assume
do dynamicznych przypadków anulowania, które wymagają środowiska uruchomieniowego języka Python. - [SPARK-35542] Naprawa: Bucketizer utworzony dla wielu columns z parameters splitsArray, inputCols i outputCols nie może być załadowany po zapisaniu.
- [SPARK-40079] Dodaj walidację danych wejściowych ImputerCols dla pustego przypadku wejściowego.
- 24 sierpnia 2022 r.
- [SPARK-39983] Nie buforuj nieserializowane relacje emisji na sterowniku.
- [SPARK-39775] Wyłącz sprawdzanie poprawności domyślnej values podczas analizowania schematów Avro.
- [SPARK-39962] Zastosuj projekcję, gdy atrybuty grupy są puste
- [SPARK-37643] jeśli parametr charVarcharAsString ma wartość true, w przypadku zapytania predykatu typu char należy pominąć regułę rpadding.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 9 sierpnia 2022 r.
- [SPARK-39847] Napraw stan wyścigu w pliku RocksDBLoader.loadLibrary(), jeśli wątek wywołujący zostanie przerwany
- [SPARK-39731] Rozwiązano problem ze źródłami danych CSV i JSON podczas analizowania dat w formacie "yyyMMdd" przy użyciu zasad analizatora czasu POPRAWIONO
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 27 lipca 2022 r.
- [SPARK-39625] Dodaj Dataset.as(StructType).
-
[SPARK-39689]Obsługa 2 znaków
lineSep
w źródle danych CSV. - [SPARK-39104] Element InMemoryRelation#isCachedColumnBuffersLoaded powinien być bezpieczny wątkowo.
- [SPARK-39570] Inline table powinno zezwalać na wyrażenia z aliasem.
- [SPARK-39702] Zmniejsz obciążenie pamięcią funkcji TransportCipher$EncryptedMessage przy użyciu udostępnionego elementu byteRawChannel.
- [SPARK-39575] zastosować ByteBuffer#rewind po ByteBuffer#get w programie AvroDeserializer.
- [SPARK-39476] Wyłącz rozwijanie rzutowania optimize podczas rzutowania z Long na Float/Double lub z Integer na Float.
- [SPARK-38868] Nie propaguj wyjątków z predykatu filtru podczas optymalizowania sprzężeń zewnętrznych.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 20 lipca 2022 r.
- Upewnij się, że operacja delta MERGE jest spójna, gdy źródło nie jest deterministyczne.
- [SPARK-39355] Single column używa cudzysłowów do konstruowania atrybutu UnresolvedAttribute.
- [SPARK-39548] Polecenie CreateView z zapytaniem zawierającym klauzulę window powoduje wystąpienie błędu nieodnalezionej definicji window.
- [SPARK-39419] Napraw klasę ArraySort, aby zgłosić wyjątek, gdy komparator zwraca wartość null.
- Wyłączono automatyczne ładowanie przy użyciu wbudowanych interfejsów API chmury na potrzeby wyświetlania listy katalogów na platformie Azure.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 lipca 2022 r.
- [SPARK-39376] Ukryj zduplikowane columns w rozszerzeniu gwiazdkowym aliasu podzapytania w NATURAL/USING JOIN
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 15 czerwca 2022 r.
- [SPARK-39283] Naprawiono zakleszczenie między elementami TaskMemoryManager i UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] Platforma Spark nie powinna sprawdzać nazw pól podczas odczytywania plików.
- [SPARK-34096] Zwiększ wydajność dla nth_value ignorując wartości null w offsetwindow.
-
[SPARK-36718] Napraw zaewidencjonuj
isExtractOnly
element ZwińProjekt.
- 2 czerwca 2022 r.
- [SPARK-39093] Unikaj błędu kompilacji kodu podczas dzielenia interwałów miesiąca lub interwałów dnia według całkowitej liczby.
- [SPARK-38990] Unikaj wartości NullPointerException podczas oceniania formatu date_trunc/obcinania jako odwołania powiązanego.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 18 maja 2022 r.
- Naprawia potencjalny wyciek pamięci wbudowanej w narzędziu automatycznego ładowania.
- [SPARK-38918] Przycinanie zagnieżdżone column powinno odfiltrować atrybuty, które nie należą do bieżącej relacji.
- [SPARK-37593] Zmniejsz domyślny rozmiar strony przez LONG_ARRAY_OFFSET, jeśli są używane G1GC i ON_HEAP.
- [SPARK-39084] Napraw df.rdd.isEmpty() przy użyciu elementu TaskContext, aby zatrzymać iterator po zakończeniu zadania.
- [SPARK-32268] Dodaj kolumnęPruning w iniekcjiBloomFilter.
- pl-PL: [SPARK-38974] Filtruj zarejestrowane funkcje według podanej nazwy bazy danych w funkcjach list.
- [SPARK-38931] Utwórz katalog główny dfs dla elementu RocksDBFileManager z nieznaną liczbą kluczy w punkcie kontrolnym 1.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 19 kwietnia 2022 r.
- Uaktualniono zestaw JAVA AWS SDK z wersji 1.11.655 do wersji 1.12.1899.
- Rozwiązano problem polegający na tym, że biblioteki o zakresie notesu nie działały w zadaniach przesyłania strumieniowego wsadowego.
- [SPARK-38616] Śledź tekst zapytania SQL w węźle TreeNode katalizatora
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 6 kwietnia 2022 r.
- Następujące funkcje Spark SQL są teraz dostępne w tej wersji:
-
timestampadd()
idateadd()
: Dodaj czas trwania w określonej lekcji do wyrażenia sygnatury czasowej. -
timestampdiff()
idatediff()
: Oblicz różnicę czasu między wyrażeniami sygnatury dwukrotnej w określonej lekcji.
-
- Parquet-MR został uaktualniony do wersji 1.12.2
- Ulepszona obsługa kompleksowych schematów w plikach parquet
- [SPARK-38631] Używa implementacji opartej na języku Java do cofania tarringu w pliku Utils.unpack.
-
[SPARK-38509][SPARK-38481] Cherry-pick trzy
timestmapadd/diff
zmiany. - [SPARK-38523] Poprawka odwołująca się do uszkodzonego rekordu column z pliku CSV.
-
[SPARK-38237] Zezwalaj na
ClusteredDistribution
wymaganie pełnych kluczy klastrowania. - [SPARK-38437] Pobłażliwi serializacji daty/godziny ze źródła danych.
- [SPARK-38180] Zezwalaj na bezpieczne rzutowanie w skorelowanych predykatach równości.
- [SPARK-38155] Nie zezwalaj na odrębne agregowanie w podzapytaniach bocznych z nieobsługiwanymi predykatami.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Następujące funkcje Spark SQL są teraz dostępne w tej wersji:
Databricks Runtime 9.1 LTS
Zobacz Databricks Runtime 9.1 LTS.
- 26 listopada 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 listopada 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 października 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 października 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 września 2024 r.
- pl-PL: [SPARK-49000][SQL] Napraw "select count(distinct 1) from t" where t jest pusta table przez rozszerzenie RewriteDistinctAggregates
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 6 września 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 sierpnia 2024 r.
- [SPARK-49065][SQL] Ponowne łączenie w starszych formaterach/analizatorach musi obsługiwać domyślne strefy czasowe JVM
- 14 sierpnia 2024 r.
- 1 sierpnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 lipca 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 17 czerwca 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 21 maja 2024 r.
- [SPARK-48105][SS] Naprawianie stanu wyścigu między zwalnianiem magazynu stanów i migawek
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 9 maja 2024 r.
- [SPARK-47973][CORE] Witryna wywołania dziennika w pliku SparkContext.stop() i nowszych w pliku SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Set poprawnie dopuszczać wartość null przy użyciu klucza join w pełni zewnętrznego przy użyciu join
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2024 r.
- Różne poprawki błędów.
- 11 kwietnia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 kwietnia 2024 r.
- Przywróć "[SPARK-46861][CORE] Unikaj zakleszczenia w daGScheduler"
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 lutego 2024 r.
- Rozwiązano problem where, który występował przy użyciu kolekcji lokalnej jako źródła w poleceniu MERGE, co mogło spowodować, że metryka numSourceRows zgłaszała dwukrotnie poprawną liczbę wierszy.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 13 lutego 2024 r.
- [SPARK-46861] Unikaj zakleszczenia w DAGScheduler.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 31 stycznia 2024 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 grudnia 2023 r.
- Aby uniknąć zwiększonego opóźnienia podczas komunikacji za pośrednictwem protokołu TLSv1.3, ta wersja konserwacji zawiera poprawkę do instalacji zestawu JDK 8 w celu naprawienia błędu JDK JDK-8293562.
- [SPARK-46058] Dodaj oddzielną flagę privateKeyPassword.
- [SPARK-39440] Dodaj konfigurację, aby wyłączyć oś czasu zdarzenia.
- [SPARK-46132] Obsługa hasła klucza dla kluczy JKS dla protokołu SSL RPC.
- 14 grudnia 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2023 r.
- Zainstalowano nowy pakiet w
pyarrow-hotfix
celu skorygowania luki W zabezpieczeniach PyArrow RCE. -
[SPARK-45859] Obiekty zdefiniowane przez użytkownika są opóźnione
ml.functions
. -
[SPARK-45544] Zintegrowana obsługa protokołu SSL w usłudze
TransportContext
. -
[SPARK-45730] Ulepszone ograniczenia czasowe dla elementu
ReloadingX509TrustManagerSuite
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Zainstalowano nowy pakiet w
- 14 listopada 2023 r.
-
[SPARK-45545]
SparkTransportConf
dziedziczySSLOptions
po utworzeniu. - [SPARK-45429] Dodano klasy pomocnika dla komunikacji RPC SSL.
-
[SPARK-45427] Dodano ustawienia protokołu SSL protokołu RPC do
SSLOptions
iSparkTransportConf
. -
[SPARK-45584] Naprawiono błąd uruchamiania podzapytania z poleceniem
TakeOrderedAndProjectExec
. -
[SPARK-45541] Dodano
SSLFactory
element . - [SPARK-42205] Usunięto możliwości rejestrowania w zdarzeniach uruchamiania etapu i zadania.
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-45545]
- 24 października 2023 r.
-
[SPARK-45426] Dodano obsługę elementu
ReloadingX509TrustManager
. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-45426] Dodano obsługę elementu
- 13 października 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 10 września 2023 r.
- Różne poprawki.
- 30 sierpnia 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 15 sierpnia 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 23 czerwca 2023 r.
- Biblioteka Snowflake-jdbc została uaktualniona do wersji 3.13.29, aby rozwiązać problem z zabezpieczeniami.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 15 czerwca 2023 r.
- [SPARK-43098] Napraw usterkę count poprawności, gdy podzapytywanie skalarne ma klauzulę grupowania według.
-
[SPARK-43156][SPARK-43098] Rozszerz test błędów liczby podzapytania skalarnych z wyłączonym
decorrelateInnerQuery
. - [SPARK-40862] Obsługa niegregowanych podzapytania w funkcji RewriteCorrelatedScalarSubquery.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 2 czerwca 2023 r.
- Analizator JSON w
failOnUnknownFields
trybie usuwa rekord wDROPMALFORMED
trybie i kończy się niepowodzeniem bezpośrednio wFAILFAST
trybie. - Rozwiązano problem z analizą danych uratowanych w formacie JSON, aby zapobiec .
UnknownFieldException
- Rozwiązano problem z automatycznym ładowaniem where, gdzie różne formaty plików źródłowych były niespójne, gdy dostarczona schema nie zawierała wywnioskowanych partycji. Ten problem może spowodować nieoczekiwane awarie podczas odczytywania plików z brakującymi columns w wywnioskowanych partitionschema.
-
[SPARK-37520]
startswith()
Dodawanie funkcji iendswith()
string -
[SPARK-43413] Naprawiono
IN
wartość null podzapytaniaListQuery
. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Analizator JSON w
- 17 maja 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 25 kwietnia 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 11 kwietnia 2023 r.
- Rozwiązano problem z where ewolucją automatycznego modułu ładującego schema, który mógł przejść do nieskończonej pętli niepowodzenia po wykryciu nowej column w schema zagnieżdżonego obiektu JSON.
- [SPARK-42967] Naprawiono element SparkListenerTaskStart.stageAttemptId po uruchomieniu zadania po anulowaniu etapu.
- 29 marca 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 14 marca 2023 r.
-
[SPARK-42484] Ulepszony komunikat o błędzie dla elementu
UnsafeRowUtils
. - Różne poprawki.
-
[SPARK-42484] Ulepszony komunikat o błędzie dla elementu
- 28 lutego 2023 r.
- Użytkownicy mogą teraz odczytywać i zapisywać specyficzne Delta tables, które wymagają użycia "Reader" w wersji 3 i "Writer" w wersji 7, przy użyciu środowiska Databricks Runtime 9.1 LTS lub nowszego. Aby odnieść sukces, funkcje table wymienione w protokole tablesmuszą być obsługiwane przez bieżącą wersję środowiska Databricks Runtime.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 16 lutego 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 31 stycznia 2023 r.
- Table typy tables JDBC są domyślnie teraz ustawione jako zewnętrzne.
- 18 stycznia 2023 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 29 listopada 2022 r.
- Rozwiązano problem z analizowaniem JSON-a w narzędziu Auto Loader, gdy wszystkie columns były pozostawione jako ciągi (
cloudFiles.inferColumnTypes
nie były set lub set dofalse
), a JSON zawierał zagnieżdżone obiekty. - Aktualizacje zabezpieczeń systemu operacyjnego.
- Rozwiązano problem z analizowaniem JSON-a w narzędziu Auto Loader, gdy wszystkie columns były pozostawione jako ciągi (
- 15 listopada 2022 r.
- Uaktualniono wersję apache commons-text do wersji 1.10.0.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Różne poprawki.
- 1 listopada 2022 r.
- Rozwiązano problem where, jeśli table delty miał zdefiniowany przez użytkownika column o nazwie
_change_type
, ale zmień źródło danych zostało wyłączone w tym table, dane w tym column niepoprawnie wypełniały values NULL podczas uruchamianiaMERGE
. - Rozwiązano problem z automatycznym ładowaczem where, gdzie plik może zostać zduplikowany w tej samej mikropartii po włączeniu
allowOverwrites
. - [SPARK-40596] Wypełnianie funkcji wykonawczejDecommission komunikatami w funkcji ExecutorDecommissionInfo
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Rozwiązano problem where, jeśli table delty miał zdefiniowany przez użytkownika column o nazwie
- 18 października 2022 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 5 października 2022 r.
- Różne poprawki.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 września 2022 r.
- Użytkownicy mogą set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") aby ponownie włączyć wbudowaną funkcję listowania dla Auto Loader w usłudze ADLS Gen2. Wbudowana lista została wcześniej wyłączona z powodu problemów z wydajnością, ale może doprowadzić do zwiększenia kosztów magazynowania dla klientów.
- [SPARK-40315] Add hashCode() for Literal of ArrayBasedMapData
- [SPARK-40089] Naprawianie sortowania niektórych typów dziesiętnych
- [SPARK-39887] RemoveRedundantAliases powinny zachować aliasy, które sprawiają, że dane wyjściowe węzłów projekcji są unikatowe
- 6 września 2022 r.
- [SPARK-40235] Użyj blokady przerywanej zamiast zsynchronizowanej w funkcji Executor.updateDependencies()
- [SPARK-35542] Fix: Bucketizer utworzony dla wielu columns z parameters splitsArray, inputCols i outputCols nie można załadować po zapisaniu go
- [SPARK-40079] Dodawanie walidacji danych inputCols imputera dla pustego przypadku wejściowego
- 24 sierpnia 2022 r.
-
[SPARK-39666] Użyj pliku UnsafeProjection.create, aby uwzględniać
spark.sql.codegen.factoryMode
element ExpressionEncoder - [SPARK-39962] Zastosuj projekcję, gdy atrybuty grupy są puste
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-39666] Użyj pliku UnsafeProjection.create, aby uwzględniać
- 9 sierpnia 2022 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 27 lipca 2022 r.
- Upewnij się, że operacja delta MERGE jest spójna, gdy źródło nie jest deterministyczne.
-
[SPARK-39689] Obsługa 2 znaków
lineSep
w źródle danych CSV -
[SPARK-39575] Dodano
ByteBuffer#rewind
po wByteBuffer#get
plikuAvroDeserializer
. - [SPARK-37392] Naprawiono błąd wydajności optymalizatora katalizatora.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 13 lipca 2022 r.
-
[SPARK-39419]
ArraySort
zgłasza wyjątek, gdy komparator zwraca wartość null. - Wyłączono automatyczne ładowanie przy użyciu wbudowanych interfejsów API chmury na potrzeby wyświetlania listy katalogów na platformie Azure.
- Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-39419]
- 5 lipca 2022 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Różne poprawki.
- 15 czerwca 2022 r.
-
[SPARK-39283] Naprawiono zakleszczenie między elementami
TaskMemoryManager
iUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Naprawiono zakleszczenie między elementami
- 2 czerwca 2022 r.
-
[SPARK-34554] Zaimplementuj metodę
copy()
w plikuColumnarMap
. - Aktualizacje zabezpieczeń systemu operacyjnego.
-
[SPARK-34554] Zaimplementuj metodę
- 18 maja 2022 r.
- Naprawiono potencjalny wyciek wbudowanej pamięci w narzędziu automatycznego ładowania.
- Uaktualnij zestaw AWS SDK z wersji 1.11.655 do wersji 1.11.678.
- [SPARK-38918] zagnieżdżone column oczyszczanie powinno odfiltrować atrybuty, które nie należą do bieżącej relacji
-
[SPARK-39084] Poprawka
df.rdd.isEmpty()
przy użyciu poleceniaTaskContext
w celu zatrzymania iteratora po zakończeniu zadania - Aktualizacje zabezpieczeń systemu operacyjnego.
- 19 kwietnia 2022 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- Różne poprawki.
- 6 kwietnia 2022 r.
- [SPARK-38631] Używa implementacji opartej na języku Java do cofania tarringu w pliku Utils.unpack.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 22 marca 2022 r.
- Zmieniono bieżący katalog roboczy notesów w klastrach High Concurrency z włączoną kontrolą dostępu table lub przekazywaniem poświadczeń na katalog domowy użytkownika. Wcześniej usługa Active Directory miała wartość
/databricks/driver
. - [SPARK-38437] Pobłażliwą serializacji daty/godziny ze źródła danych
- [SPARK-38180] Zezwalaj na bezpieczne rzutowanie w skorelowanych predykatach równości
- [SPARK-38155] Nie zezwalaj na odrębne agregowanie w podzapytaniach bocznych z nieobsługiwanymi predykatami
- [SPARK-27442] Usunięto pole wyboru podczas odczytywania lub zapisywania danych w parquet.
- Zmieniono bieżący katalog roboczy notesów w klastrach High Concurrency z włączoną kontrolą dostępu table lub przekazywaniem poświadczeń na katalog domowy użytkownika. Wcześniej usługa Active Directory miała wartość
- 14 marca 2022 r.
- [SPARK-38236] bezwzględne ścieżki plików określone w table tworzenia/zmiany są traktowane jako względne
-
[SPARK-34069] przerwanie wątku zadania, jeśli właściwość lokalna
SPARK_JOB_INTERRUPT_ON_CANCEL
ma set wartość true.
- 23 lutego 2022 r.
- [SPARK-37859]tables SQL utworzonych za pomocą JDBC z platformą Spark 3.1 nie można odczytać z platformą Spark 3.2.
- 8 lutego 2022 r.
- [SPARK-27442] Usunięto pole wyboru podczas odczytywania lub zapisywania danych w parquet.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 1 lutego 2022 r.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 26 stycznia 2022 r.
- Rozwiązano problem z równoczesnymi transakcjami where na Delta tables, które mogły być zatwierdzane w nierealizowalnej kolejności w pewnych rzadkich warunkach.
- Rozwiązano problem, where polecenie
OPTIMIZE
mogło zakończyć się niepowodzeniem, gdy włączono dialekt ANSI SQL.
- 19 stycznia 2022 r.
- Drobne poprawki i ulepszenia zabezpieczeń.
- Aktualizacje zabezpieczeń systemu operacyjnego.
- 4 listopada 2021 r.
- Rozwiązano problem, który mógł powodować niepowodzenie strumieni przesyłania strumieniowego ze strukturą z powodu błędu
ArrayIndexOutOfBoundsException
. - Naprawiono warunek wyścigu, który może spowodować niepowodzenie zapytania z przykładem IOException
java.io.IOException: No FileSystem for scheme
lub który może spowodować, żesparkContext.hadoopConfiguration
modyfikacje nie zostaną zastosowane w zapytaniach. - Łącznik Platformy Apache Spark do udostępniania różnicowego został uaktualniony do wersji 0.2.0.
- Rozwiązano problem, który mógł powodować niepowodzenie strumieni przesyłania strumieniowego ze strukturą z powodu błędu
- 20 października 2021 r.
- Uaktualniono łącznik BigQuery z wersji 0.18.1 do 0.22.2. Spowoduje to dodanie obsługi typu BigNumeric.