Freigeben über


Erstellen von Ausdrücken im Zuordnungsdatenfluss

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Im Zuordnungsdatenfluss werden viele Transformationseigenschaften als Ausdrücke eingegeben. Diese Ausdrücke bestehen aus Spaltenwerten, Parametern, Funktionen, Operatoren und Literalen, die zur Laufzeit zu einem Spark-Datentyp ausgewertet werden. Die Zuordnung von Datenflüssen verfügt über eine dedizierte Funktion, die Sie bei der Erstellung dieser Ausdrücke unterstützen soll, den so genannten Ausdrucks-Generator. Der Ausdrucks-Generator nutzt die IntelliSense-Codevervollständigung für Hervorhebung, Syntaxüberprüfung und automatische Vervollständigung und soll Ihnen das Erstellen von Datenflüssen erleichtern. In diesem Artikel wird erläutert, wie Sie den Ausdrucks-Generator verwenden, um Ihre Geschäftslogik effektiv zu erstellen.

Ausdrucks-Generator

Öffnen des Ausdrucks-Generators

Der Ausdrucks-Generator kann auf verschiedene Weise geöffnet werden. Diese hängen jeweils vom Kontext der Datenflusstransformation ab. Der häufigste Anwendungsfall ist eine Transformation wie eine abgeleitete Spalte und ein Aggregat, bei denen Benutzer Spalten mithilfe der Ausdruckssprache für Datenflüsse erstellen oder aktualisieren. Sie können den Ausdrucks-Generator öffnen, indem Sie über der Spaltenliste Ausdrucks-Generator öffnen auswählen. Sie können auch auf einen Spaltenkontext klicken und den Ausdrucks-Generator direkt für diesen Ausdruck öffnen.

Öffnen des Ausdrucks-Generators – Abgeleitet

Bei einigen Transformationen wie Filtern wird der Ausdrucks-Generator durch Klicken auf ein blaues Ausdruckstextfeld geöffnet.

Blaues Ausdrucksfeld

Wenn Sie in einer Übereinstimmungs- oder Gruppieren nach-Bedingung auf Spalten verweisen, kann ein Ausdruck Werte aus Spalten extrahieren. Wählen Sie zum Erstellen eines Ausdrucks die Option Berechnete Spalte aus.

Option „Berechnete Spalte“

In Fällen, in denen ein Ausdruck oder ein Literalwert gültige Eingaben sind, können Sie mit Dynamischen Inhalt hinzufügen einen Ausdruck erstellen, der zu einem Literalwert ausgewertet wird.

Option „Dynamischen Inhalt hinzufügen“

Elemente eines Ausdrucks

Bei Zuordnungsdatenflüssen können Ausdrücke aus Spaltenwerten, Parametern, Funktionen, lokalen Variablen, Operatoren und Literalwerten bestehen. Diese Ausdrücke müssen als Spark-Datentyp wie Zeichenfolge, boolescher Wert oder ganze Zahl ausgewertet werden können.

Elemente eines Ausdrucks

Functions

Zuordnungsdatenflüsse verfügen über integrierte Funktionen und Operatoren, die in Ausdrücken verwendet werden können. Eine Liste der verfügbaren Funktionen finden Sie in der Sprachreferenz zu Zuordnungsdatenflüssen.

Benutzerdefinierte Funktionen (Vorschau)

Zuordnungsdatenflüsse unterstützen die Erstellung und Verwendung von benutzerdefinierten Funktionen. Informationen zum Erstellen und Verwenden von benutzerdefinierten Funktionen finden Sie unter Benutzerdefinierte Funktionen (Vorschau) im Zuordnungsdatenfluss.

Angeben von Arrayindizes

Verwenden Sie bei Spalten oder Funktionen, die Arraytypen zurückgeben, eckige Klammern ([]), um auf ein bestimmtes Element zuzugreifen. Wenn der Index nicht vorhanden ist, wird der Ausdruck als NULL ausgewertet.

Ausdrucks-Generator: Array

Wichtig

Bei der Zuordnung von Datenflüssen haben Arrays die Basis 1, d. h., das erste Element hat den Index 1. Beispielsweise greifen Sie mit myArray[1] auf das erste Element eines Arrays mit dem Namen „myArray“ zu.

Eingabeschema

Wenn der Datenfluss in einer seiner Quellen ein definiertes Schema verwendet, können Sie in vielen Ausdrücken anhand des Namens auf eine Spalte verweisen. Wenn Sie die Schemaabweichung verwenden, können Sie mit den Funktionen byName() oder byNames() explizit auf Spalten verweisen oder mithilfe von Spaltenmustern Übereinstimmungen auswählen.

Spaltennamen mit Sonderzeichen

Wenn Sie Spaltennamen mit Sonder- oder Leerzeichen haben, setzen Sie den Namen in geschweifte Klammern, um darauf in einem Ausdruck zu verweisen.

{[dbo].this_is my complex name$$$}

Parameter

Parameter sind Werte, die von einer Pipeline zur Laufzeit an einen Datenfluss übergeben werden. Um auf einen Parameter zu verweisen, klicken Sie entweder in der Ansicht Ausdruckselemente auf den Parameter, oder verweisen Sie darauf mit einem Dollarzeichen vor seinem Namen. Beispielsweise wird mit $parameter1 auf einen Parameter mit dem Namen „parameter1“ verwiesen. Weitere Informationen finden Sie unter Parametrisieren von Zuordnungsdatenflüssen.

Zwischengespeicherte Suche

Eine zwischengespeicherte Suche ermöglicht die Inlinesuche der Ausgabe einer zwischengespeicherten Senke. Für jede Senke stehen zwei Funktionen zur Verfügung: lookup() und outputs(). Die Syntax zum Verweisen auf diese Funktionen lautet cacheSinkName#functionName(). Weitere Informationen finden Sie unter Cachesenken.

lookup() akzeptiert die übereinstimmenden Spalten in der aktuellen Transformation als Parameter und gibt eine komplexe Spalte zurück. Diese entspricht der Zeile mit den übereinstimmenden Schlüsselspalten in der Cachesenke. Die zurückgegebene komplexe Spalte enthält eine untergeordnete Spalte für jede zugeordnete Spalte in der Cachesenke. Ein Beispiel: Sie verfügen über eine Fehlercode-Cachesenke errorCodeCache, die eine Schlüsselspalte mit Codeübereinstimmung und eine Spalte namens Message aufweist. Ein Aufruf von errorCodeCache#lookup(errorCode).Message würde die Meldung zurückgeben, die dem übergebenen Code entspricht.

outputs() akzeptiert keine Parameter und gibt die gesamte Cachesenke als Array komplexer Spalten zurück. Ein Aufruf ist nicht möglich, wenn Schlüsselspalten in der Senke angegeben sind. Dieser Vorgang sollte nur dann verwendet werden, wenn die Cachesenke nur einige wenige Zeilen enthält. Ein gängiger Anwendungsfall ist das Anfügen des Maximalwerts eines Schlüssels, der inkrementell erhöht wird. Wenn die zwischengespeicherte aggregierte Einzelzeile CacheMaxKey die Spalte MaxKey enthält, können Sie durch Aufruf von CacheMaxKey#outputs()[1].MaxKey auf den ersten Wert verweisen.

Zwischengespeicherte Suche

Locals

Wenn Sie Ihre Logik für mehrere Spalten gemeinsam nutzen oder aufteilen möchten, können Sie eine lokale Variable erstellen. Dabei handelt es sich um einen Satz von Logik, der nicht in die folgende Transformation weitergeleitet wird. Lokale Variablen können im Ausdrucks-Generator erstellt werden, indem Sie zu Ausdruckselemente wechseln und Lokale auswählen. Erstellen Sie eine neue Lokale, indem Sie Neu erstellen auswählen.

Lokale erstellen

Lokale Variablen können auf ein beliebiges Ausdruckselement verweisen. Dies schließt Funktionen, Eingabeschemas, Parameter und andere lokale Variablen ein. Wenn auf andere lokale Variablen verwiesen wird, ist die Reihenfolge wichtig, weil sich die referenzierte lokale Variable „über“ der aktuellen befinden muss.

Lokale 2 erstellen

Wenn Sie auf eine lokale Variable in einer Transformation verweisen möchten, klicken Sie entweder in der Ansicht Ausdruckselemente auf die lokale Variable, oder verweisen Sie mit einem Doppelpunkt vor ihrem Namen darauf. Beispielsweise wird auf eine lokale Variable mit dem Namen „local1“ durch :local1 verwiesen. Um eine lokale Definition zu bearbeiten, zeigen Sie in der Ansicht „Ausdruckselemente“ mit der Maus darauf, und klicken Sie auf das Stiftsymbol.

Verwenden lokaler Variablen

Vorschau von Ausdrucksergebnissen

Wenn debug mode aktiviert ist, können Sie mithilfe des Debugclusters interaktiv eine Vorschau des Werts anzeigen, den der Ausdruck ergibt. Wählen Sie neben der Datenvorschau Aktualisieren aus, um die Ergebnisse der Datenvorschau zu aktualisieren. Es wird die Ausgabe für jede Zeile entsprechend den Eingabespalten angezeigt.

Vorschau während der Bearbeitung

Zeichenfolgeninterpolierung

Wenn Sie lange Zeichenfolgen erstellen, die Ausdruckselemente verwenden, verwenden Sie die Zeichenfolgeninterpolation, um problemlos eine komplexe Zeichenfolgenlogik zu erstellen. Durch die Zeichenfolgeninterpolation wird eine übermäßige Verkettung von Zeichenfolgen vermieden, wenn Parameter in Abfragezeichenfolgen einbezogen werden. Verwenden Sie doppelte Anführungszeichen, um Literalzeichenfolgen in Ausdrücke einzuschließen. Sie können Ausdrucksfunktionen, Spalten und Parameter einbeziehen. Wenn Sie eine Ausdruckssyntax verwenden möchten, schließen Sie sie in geschweifte Klammern ein.

Einige Beispiele für Zeichenfolgeninterpolation:

  • "My favorite movie is {iif(instr(title,', The')>0,"The {split(title,', The')[1]}",title)}"

  • "select * from {$tablename} where orderyear > {$year}"

  • "Total cost with sales tax is {round(totalcost * 1.08,2)}"

  • "{:playerName} is a {:playerRating} player"

Hinweis

Bei Verwendung der Syntax für Zeichenfolgeninterpolation in SQL-Quellabfragen muss die Abfragezeichenfolge in einer einzigen Zeile (ohne ‚/n‘) stehen.

Kommentieren von Ausdrücken

Fügen Sie Ihren Ausdrücken Kommentare hinzu. Verwenden Sie dabei eine einzeilige oder eine mehrzeilige Kommentarsyntax.

Die folgenden Beispiele stellen gültige Kommentare dar:

  • /* This is my comment */

  • /* This is a

  • multi-line comment */

Wenn Sie einen Kommentar am Anfang des Ausdrucks einfügen, wird er im Transformationstextfeld angezeigt und dokumentiert Ihre Transformationsausdrücke.

Kommentar im Transformationstextfeld

Reguläre Ausdrücke

Viele Ausdruckssprachfunktionen verwenden die reguläre Ausdruckssyntax. Wenn Sie Funktionen mit regulären Ausdrücken verwenden, versucht der Ausdrucks-Generator, den umgekehrten Schrägstrich (\) als Escapezeichensequenz zu interpretieren. Wenn Sie in Ihrem regulären Ausdruck umgekehrte Schrägstriche verwenden, schließen Sie entweder den gesamten regulären Ausdruck in Backticks (`) ein, oder verwenden Sie einen doppelten umgekehrten Schrägstrich.

Ein Beispiel mit Backticks:

regex_replace('100 and 200', `(\d+)`, 'digits')

Ein Beispiel mit doppelten umgekehrten Schrägstrichen:

regex_replace('100 and 200', '(\\d+)', 'digits')

Tastenkombinationen

Im Folgenden finden Sie eine Liste der Tastenkombination, die im Ausdrucks-Generator unterstützt werden. Beim Erstellen von Ausdrücken sind die meisten IntelliSense-Tastenkombinationen verfügbar.

  • STRG+K, STRG+C: Gesamte Zeile auskommentieren
  • STRG+K, STRG+U: Auskommentierung aufheben
  • F1: Befehle der Editor-Hilfe anzeigen
  • ALT+NACH-UNTEN-TASTE: Aktuelle Zeile nach unten verschieben
  • ALT+NACH-OBEN-TASTE: Aktuelle Zeile nach oben verschieben
  • STRG+LEERTASTE: Kontexthilfe anzeigen

Häufig verwendete Ausdrücke

Konvertieren in Datumsangaben oder Zeitstempel

Wenn Sie Zeichenfolgenliterale in Ihre Zeitstempelausgabe einbeziehen möchten, schließen Sie die Konvertierung in toString() ein.

toString(toTimestamp('12/31/2016T00:12:00', 'MM/dd/yyyy\'T\'HH:mm:ss'), 'MM/dd /yyyy\'T\'HH:mm:ss')

Wenn Sie Millisekunden von einer Epoche in ein Datum oder einen Zeitstempel konvertieren möchten, verwenden Sie toTimestamp(<number of milliseconds>). Wenn die Zeit in Sekunden angezeigt wird, multiplizieren Sie den Wert mit 1.000.

toTimestamp(1574127407*1000l)

Das nachgestellte „l“ am Ende des vorstehenden Ausdrucks gibt eine Konvertierung in einen long-Datentyp als inline-Syntax an.

Zeit aus Epochen- oder Unix-Zeit finden

toLong( currentTimestamp() - toTimestamp('1970-01-01 00:00:00.000', 'yyyy-MM-dd HH:mm:ss.SSS') ) * 1000l

Auswertung der Datenflusszeit

Der Datenfluss wird millisekundengenau verarbeitet. Für 2018-07-31T20:00:00.2170000 wird in der Ausgabe 2018-07-31T20:00:00.217 angezeigt. Im Portal für den Dienst wird der Zeitstempel in der aktuellen Browsereinstellung angezeigt. Dadurch wird „217“ unter Umständen entfernt. Wenn Sie den Datenfluss jedoch vollständig ausführen, wird „217“ (der Teil im Millisekundenbereich) ebenfalls verarbeitet. Sie können „toString(myDateTimeColumn)“ als Ausdruck verwenden und Daten mit vollständiger Genauigkeit in der Vorschau anzeigen. Verarbeiten Sie datetime für alle praktischen Zwecke als datetime und nicht als Zeichenfolge.

Mit dem Erstellen von Datentransformationsausdrücken beginnen.