Salvare i dataframe Spark in file TFRecord
Questo articolo mostra come usare spark-tensorflow-connector per salvare i dataframe apache Spark in file TFRecord e caricare TFRecord con TensorFlow.
Il formato di file TFRecord è un semplice formato binario orientato ai record per i dati di training di ML. La classe tf.data.TFRecordDataset consente di trasmettere il contenuto di uno o più file TFRecord come parte di una pipeline di input.
Usare una libreria spark-tensorflow-connector
È possibile usare spark-tensorflow-connector per salvare i dataframe apache Spark in file TFRecord.
spark-tensorflow-connector
è una libreria all'interno dell'ecosistema TensorFlow che consente la conversione tra dataframe Spark e TFRecords (un formato comune per l'archiviazione dei dati per TensorFlow). Con spark-tensorflow-connector, è possibile usare le API del dataframe Spark per leggere i file TFRecords in dataframe e scrivere dataframe come TFRecords.
Nota
La libreria spark-tensorflow-connector
GraphFrames è incluso in Databricks Runtime per Machine Learning. Per usare spark-tensorflow-connector
le versioni e la compatibilità delle note sulla versione di Databricks Runtime, è necessario installare la libreria da Maven. Per informazioni dettagliate, vedere Pacchetto Maven o Spark .
Caricare dati da file TFRecord con TensorFlow
Il notebook di esempio mostra come salvare i dati dai dataframe Apache Spark in file TFRecord e caricare i file TFRecord per il training ml.
È possibile caricare i file TFRecord usando la tf.data.TFRecordDataset
classe . Per informazioni dettagliate, vedere Lettura di un file TFRecord da TensorFlow.