Zapytania zagnieżdżone typy w plikach Parquet i JSON przy użyciu bezserwerowej puli SQL w usłudze Azure Synapse Analytics
W tym artykule dowiesz się, jak napisać zapytanie przy użyciu bezserwerowej puli SQL w usłudze Azure Synapse Analytics. Zapytanie odczytuje zagnieżdżone typy Parquet. Typy zagnieżdżone to złożone struktury reprezentujące obiekty lub tablice. Zagnieżdżone typy mogą być przechowywane w:
- Parquet, gdzie można mieć wiele złożonych kolumn, które zawierają tablice i obiekty.
- Hierarchiczne pliki JSON, w których można odczytać złożony dokument JSON jako jedną kolumnę.
- Kolekcje usługi Azure Cosmos DB (obecnie dostępne w publicznej wersji zapoznawczej), w których każdy dokument może zawierać złożone zagnieżdżone właściwości.
Bezserwerowa pula SQL formatuje wszystkie zagnieżdżone typy jako obiekty i tablice JSON. Dzięki temu można wyodrębniać lub modyfikować złożone obiekty przy użyciu funkcji JSON lub analizować dane JSON przy użyciu funkcji OPENJSON.
Oto przykład zapytania, które wyodrębnia wartości skalarne i obiekty z pliku JSON zestawu danych Open Research Dataset COVID-19, który zawiera zagnieżdżone obiekty:
SELECT
title = JSON_VALUE(doc, '$.metadata.title'),
first_author = JSON_QUERY(doc, '$.metadata.authors[0]'),
first_author_name = JSON_VALUE(doc, '$.metadata.authors[0].first'),
complex_object = doc
FROM
OPENROWSET(
BULK 'https://azureopendatastorage.blob.core.windows.net/covid19temp/comm_use_subset/pdf_json/000b7d1517ceebb34e1e3e817695b6de03e2fa78.json',
FORMAT='CSV', FIELDTERMINATOR ='0x0b', FIELDQUOTE = '0x0b', ROWTERMINATOR = '0x0b'
)
WITH ( doc varchar(MAX) ) AS docs;
Funkcja JSON_VALUE
zwraca wartość skalarną z pola w określonej ścieżce. Funkcja JSON_QUERY
zwraca obiekt sformatowany jako JSON z pola w określonej ścieżce.
Ważne
W tym przykładzie użyto pliku z zestawu danych Open Research Dataset covid-19. Zobacz licencję i strukturę danych tutaj.
Wymagania wstępne
Pierwszym krokiem jest utworzenie bazy danych, w której zostanie utworzone źródło danych. Następnie zainicjujesz obiekty, uruchamiając skrypt instalacyjny w bazie danych. Skrypt konfiguracji utworzy źródła danych, poświadczenia w zakresie bazy danych i zewnętrzne formaty plików, które są używane w przykładach.
Zagnieżdżone lub powtarzające się dane projektu
Plik Parquet może zawierać wiele kolumn ze złożonymi typami. Wartości z tych kolumn są formatowane jako tekst JSON i zwracane jako kolumny VARCHAR. Następujące zapytanie odczytuje plik structExample.parquet i pokazuje, jak odczytywać wartości zagnieżdżonych kolumn:
SELECT
DateStruct, TimeStruct, TimestampStruct, DecimalStruct, FloatStruct
FROM
OPENROWSET(
BULK 'parquet/nested/structExample.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
)
WITH (
DateStruct VARCHAR(8000),
TimeStruct VARCHAR(8000),
TimestampStruct VARCHAR(8000),
DecimalStruct VARCHAR(8000),
FloatStruct VARCHAR(8000)
) AS [r];
To zapytanie zwraca następujący wynik. Zawartość każdego zagnieżdżonego obiektu jest zwracana jako tekst JSON.
DateStruct | TimeStruct | Timestamp, struktura | DecimalStruct | FloatStruct |
---|---|---|---|---|
{"Date":"2009-04-25"} | {"Time":"20:51:54.3598000"} | {"Sygnatura czasowa":"5501-04-08 12:13:57.4821000"} | {"Decimal":11143412.25350} | {"Float":0.5} |
{"Date":"1916-04-29"} | {"Time":"00:16:04.6778000"} | {"Sygnatura czasowa":"1990-06-30 20:50:52.6828000"} | {"Decimal":1963545.62800} | {"Float":-2.125} |
Następujące zapytanie odczytuje plik justSimpleArray.parquet. Projektuje wszystkie kolumny z pliku Parquet, w tym zagnieżdżone i powtarzające się dane.
SELECT
SimpleArray
FROM
OPENROWSET(
BULK 'parquet/nested/justSimpleArray.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
) AS [r];
To zapytanie zwróci następujący wynik:
SimpleArray |
---|
[11,12,13] |
[21,22,23] |
Odczytywanie właściwości z kolumn obiektów zagnieżdżonych
Funkcja JSON_VALUE
umożliwia zwracanie wartości z kolumn sformatowanych jako tekst JSON:
SELECT
title = JSON_VALUE(complex_column, '$.metadata.title'),
first_author_name = JSON_VALUE(complex_column, '$.metadata.authors[0].first'),
body_text = JSON_VALUE(complex_column, '$.body_text.text'),
complex_column
FROM
OPENROWSET( BULK 'https://azureopendatastorage.blob.core.windows.net/covid19temp/comm_use_subset/pdf_json/000b7d1517ceebb34e1e3e817695b6de03e2fa78.json',
FORMAT='CSV', FIELDTERMINATOR ='0x0b', FIELDQUOTE = '0x0b', ROWTERMINATOR = '0x0b' ) WITH ( complex_column varchar(MAX) ) AS docs;
Wynik pokazano w poniższej tabeli:
title | first_author_name | body_text | complex_column |
---|---|---|---|
Dodatkowe informacje eko-epidemiolo... | Julien | - Rysunek S1: Phylogeny... | { "paper_id": "000b7d1517ceebb34e1e3e817695b6de03e2fa78", "metadata": { "title": "Supplementary Information An eco-epidemiological study of Morbilli-related paramyxovirus infection in Madagascar bats reveals host-switching as the dominant macro-evolutionary mechanism", "authors": [ { "first": "Julien" |
W przeciwieństwie do plików JSON, które w większości przypadków zwracają jedną kolumnę zawierającą złożony obiekt JSON, pliki Parquet mogą mieć wiele złożonych kolumn. Właściwości kolumn zagnieżdżonych można odczytać przy użyciu JSON_VALUE
funkcji w każdej kolumnie. OPENROWSET
Umożliwia bezpośrednie określenie ścieżek właściwości zagnieżdżonych w klauzuli WITH
. Ścieżki można ustawić jako nazwę kolumny lub dodać wyrażenie ścieżki JSON po typie kolumny.
Poniższe zapytanie odczytuje plik structExample.parquet i pokazuje, jak uwidocznieć elementy zagnieżdżonej kolumny. Istnieją dwa sposoby odwołowania się do wartości zagnieżdżonej:
- Określając wyrażenie ścieżki wartości zagnieżdżonej po specyfikacji typu.
- Formatowanie nazwy kolumny jako ścieżki zagnieżdżonej przy użyciu polecenia "" w celu odwołania się do pól.
SELECT
*
FROM
OPENROWSET(
BULK 'parquet/nested/structExample.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
)
WITH (
[DateValue] DATE '$.DateStruct.Date',
[TimeStruct.Time] TIME,
[TimestampStruct.Timestamp] DATETIME2,
DecimalValue DECIMAL(18, 5) '$.DecimalStruct.Decimal',
[FloatStruct.Float] FLOAT
) AS [r];
Uzyskiwanie dostępu do elementów z powtarzających się kolumn
Następujące zapytanie odczytuje plik justSimpleArray.parquet i używa JSON_VALUE do pobrania elementu skalarnego z powtarzającej się kolumny, takiej jak tablica lub mapa:
SELECT
*,
JSON_VALUE(SimpleArray, '$[0]') AS FirstElement,
JSON_VALUE(SimpleArray, '$[1]') AS SecondElement,
JSON_VALUE(SimpleArray, '$[2]') AS ThirdElement
FROM
OPENROWSET(
BULK 'parquet/nested/justSimpleArray.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
) AS [r];
Oto wynik:
SimpleArray | Pierwszy element | Drugi element | Trzeci element |
---|---|---|---|
[11,12,13] | 11 | 12 | 13 |
[21,22,23] | 21 | 22 | 23 |
Uzyskiwanie dostępu do obiektów podrzędnych z kolumn złożonych
Następujące zapytanie odczytuje plik mapExample.parquet i używa JSON_QUERY do pobrania elementu innego niż skalarny z powtarzającej się kolumny, takiej jak tablica lub mapa:
SELECT
MapOfPersons,
JSON_QUERY(MapOfPersons, '$."John Doe"') AS [John]
FROM
OPENROWSET(
BULK 'parquet/nested/mapExample.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
) AS [r];
Możesz również jawnie odwołać się do kolumn, które mają zostać zwrócone w klauzuli WITH
:
SELECT DocId,
MapOfPersons,
JSON_QUERY(MapOfPersons, '$."John Doe"') AS [John]
FROM
OPENROWSET(
BULK 'parquet/nested/mapExample.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
)
WITH (DocId bigint, MapOfPersons VARCHAR(max)) AS [r];
MapOfPersons
Struktura jest zwracana jako kolumna VARCHAR i sformatowana jako ciąg JSON.
Wartości projektu z powtarzających się kolumn
Jeśli masz tablicę wartości skalarnych (na przykład [1,2,3]
) w niektórych kolumnach, możesz je łatwo rozwinąć i połączyć z głównym wierszem przy użyciu tego skryptu:
SELECT
SimpleArray, Element
FROM
OPENROWSET(
BULK 'parquet/nested/justSimpleArray.parquet',
DATA_SOURCE = 'SqlOnDemandDemo',
FORMAT='PARQUET'
) AS arrays
CROSS APPLY OPENJSON (SimpleArray) WITH (Element int '$') as array_values
Następne kroki
W następnym artykule pokazano, jak wykonywać zapytania dotyczące plików JSON.