Общие шаблоны загрузки данных с помощью COPY INTO
Узнайте распространенные шаблоны для загрузки COPY INTO
данных из источников файлов в Delta Lake.
Существует множество вариантов использования COPY INTO
. Вы также можете использовать временные учетные данные с COPY INTO в сочетании с этими шаблонами.
Все справочные материалы по всем вариантам см. в разделе COPY INTO.
Создание целевых таблиц для COPY INTO
Команда COPY INTO
должна загружать данные в существующую разностную таблицу.
CREATE TABLE IF NOT EXISTS my_table
[(col_1 col_1_type, col_2 col_2_type, ...)]
[COMMENT <table-description>]
[TBLPROPERTIES (<table-properties>)];
В Databricks Runtime 11.3 LTS и более поздних версиях настройка схемы для этих таблиц является необязательной для форматов, поддерживающих эволюцию схемы. Дополнительные сведения см. в разделе "Вывод схемы и эволюция" с помощью COPY INTO .
Загрузка данных JSON с помощью COPY INTO
В следующем примере данные JSON загружаются из пяти файлов в Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения) в таблицу my_json_data
Delta. Эту таблицу необходимо создать перед выполнением COPY INTO
. Если из одного из файлов уже были загружены данные, эти данные для него перезагружены не будут.
COPY INTO my_json_data
FROM 'abfss://container@storageAccount.dfs.core.windows.net/base/path'
FILEFORMAT = JSON
FILES = ('f1.json', 'f2.json', 'f3.json', 'f4.json', 'f5.json')
-- The second execution will not copy any data since the first command already loaded the data
COPY INTO my_json_data
FROM 'abfss://container@storageAccount.dfs.core.windows.net/base/path'
FILEFORMAT = JSON
FILES = ('f1.json', 'f2.json', 'f3.json', 'f4.json', 'f5.json')
Загрузка данных Avro с помощью COPY INTO
В следующем примере данные Avro загружаются в ADLS 2-го поколения с помощью дополнительных выражений SQL в рамках инструкции SELECT
.
COPY INTO my_delta_table
FROM (SELECT to_date(dt) dt, event as measurement, quantity::double
FROM 'abfss://container@storageAccount.dfs.core.windows.net/base/path')
FILEFORMAT = AVRO
Загрузка CSV-файлов с помощью COPY INTO
В следующем примере csv-файлы загружаются из Azure Data Lake Storage 2-го поколения в abfss://container@storageAccount.dfs.core.windows.net/base/path/folder1
таблицу Delta.
COPY INTO target_table
FROM (SELECT key, index, textData, 'constant_value'
FROM 'abfss://container@storageAccount.dfs.core.windows.net/base/path')
FILEFORMAT = CSV
PATTERN = 'folder1/file_[a-g].csv'
FORMAT_OPTIONS('header' = 'true')
-- The example below loads CSV files without headers in ADLS Gen2 using COPY INTO.
-- By casting the data and renaming the columns, you can put the data in the schema you want
COPY INTO target_table
FROM (SELECT _c0::bigint key, _c1::int index, _c2 textData
FROM 'abfss://container@storageAccount.dfs.core.windows.net/base/path')
FILEFORMAT = CSV
PATTERN = 'folder1/file_[a-g].csv'
Вывод схемы и эволюция с помощью COPY INTO
В этом разделе приведены примеры общих конфигураций вывода схемы и конфигураций эволюции COPY INTO
.
Синтаксис
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('inferSchema' = 'true', `mergeSchema` = `true`)
COPY_OPTIONS ('mergeSchema' = 'true');
FORMAT_OPTIONS
Ниже приведены сведения о автоматическом выводе входной схемы с помощьюCOPY INTO
:
inferSchema
: следует ли выводить типы данных синтаксического анализа или предполагать, что все столбцы имеютсяStringType
.mergeSchema
: следует ли выводить схему между несколькими исходными файлами и объединять схему каждого исходного файла.Если исходные файлы имеют ту же схему, Databricks рекомендует использовать параметр по умолчанию для
mergeSchema
(false
FORMAT_OPTIONS
).
COPY_OPTIONS
Следующие возможности доступны для развития целевой схемы с помощьюCOPY INTO
:
mergeSchema
: следует ли развивать схему целевой таблицы Delta на основе входной схемы.Если входная схема и целевая схема совпадают,
mergeSchema
может находитьсяfalse
вCOPY_OPTIONS
.
Вывод и развитие схемы CSV
В следующем примере создается таблица delta без схемы, называемая my_pipe_data
и загружаемая csv-файл с разделителями канала.
mergeSchema
находится true
в FORMAT_OPTIONS
том, что входные файлы могут иметь различия заголовков или разделителей.
CREATE TABLE IF NOT EXISTS my_pipe_data;
COPY INTO my_pipe_data
FROM 'abfss://container@storageAccount.dfs.core.windows.net/base/path'
FILEFORMAT = CSV
FORMAT_OPTIONS ('mergeSchema' = 'true',
'delimiter' = '|',
'header' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');
Игнорирование поврежденных файлов при загрузке данных
Если загружаемые данные не удается прочитать в связи с повреждением, эти файлы можно пропустить, задав ignoreCorruptFiles
true
в FORMAT_OPTIONS
.
Результат выполнения команды COPY INTO
возвращает количество файлов, пропущенных из-за повреждения в столбце num_skipped_corrupt_files
. Эта метрика также отображается в столбце operationMetrics
под заголовком numSkippedCorruptFiles
после запуска DESCRIBE HISTORY
в разностной таблице.
COPY INTO
не отслеживает поврежденные файлы, поэтому, если повреждение исправлено, их можно перезагрузить в последующем запуске. Чтобы посмотреть, какие файлы повреждены, выполните команду COPY INTO
в режиме VALIDATE
.
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
[VALIDATE ALL]
FORMAT_OPTIONS ('ignoreCorruptFiles' = 'true')
Примечание.
ignoreCorruptFiles
доступен в Databricks Runtime 11.3 LTS и выше.