Optimierung und Zwischenspeicherung von Datasets
KI-/BI-Dashboards sind wertvolle Datenanalyse- und Entscheidungsfindungstools, und effiziente Ladezeiten können das Benutzererlebnis erheblich verbessern. In diesem Artikel wird erläutert, wie Cache- und Datasetoptimierungen Dashboards effizienter und effizienter gestalten.
Abfrageleistung
Sie können Abfragen und deren Leistung im Abfrageverlauf des Arbeitsbereichs untersuchen. Im Abfrageverlauf werden die mit SQL-Warehouses ausgeführten SQL-Abfragen angezeigt. Klicken Sie auf der Randleiste auf Abfrageverlauf, um den Abfrageverlauf anzuzeigen. Weitere Informationen finden Sie unter Abfrageverlauf.
Bei Dashboard-Datasets wendet Azure Databricks Leistungsoptimierungen abhängig von der Ergebnisgröße des Datasets an.
Datasetoptimierungen
Datasets für KI-/BI-Dashboards bieten die folgenden Leistungsoptimierungen:
- Bei einem kleinen Datasetergebnis (weniger als bzw. genau 100.000 Zeilen oder 100 MB, je nachdem, welcher Wert kleiner ist) wird das Datasetergebnis auf den Client gepullt, und die visualisierungsspezifische Filterung und Aggregation wird im Browser durchgeführt. Das Filtern und Aggregieren von Daten für kleine Datasets ist sehr schnell. Wenn Sie also sicherstellen, dass Ihr Dataset klein ist, kann das die Dashboardleistung optimieren. Bei kleinen Datasets wird nur die Datasetabfrage im Abfrageverlauf angezeigt.
- Bei einem großen Datasetergebnis (über 100.000 Zeilen oder 100 MB) wird der Text der Datasetabfrage in eine SQL-
WITH
-Klausel eingeschlossen, und die visualisierungsspezifische Filterung und Aggregation erfolgen in einer Abfrage am Back-End und nicht im Browser. Bei großen Datasets ist die Visualisierungsabfrage im Abfrageverlauf enthalten. - Visualisierungsabfragen, die an das Back-End gesendet werden und für dasselbe Dataset mit denselben
GROUP BY
-Klauseln und Filterprädikaten gelten, werden für die Verarbeitung in einer einzigen Abfrage zusammengefasst. In diesem Fall wird Benutzer*innen im Abfrageverlauf möglicherweise eine kombinierte Abfrage angezeigt, die Ergebnisse für mehrere Visualisierungen abruft.
Zwischenspeicherung und Aktualität von Daten
Dashboards verwalten einen 24-Stunden-Ergebniscache, um die anfänglichen Ladezeiten zu optimieren. Dabei wird das Prinzip der bestmöglichen Leistung angewandt. Das System versucht daher zwar immer, historische Abfrageergebnisse in Verbindung mit Dashboardanmeldeinformationen zu verwenden, um die Leistung zu verbessern, es gibt jedoch einige Fälle, in denen zwischengespeicherte Ergebnisse nicht erstellt oder verwaltet werden können. Zwischengespeicherte Daten verfügen nicht über ein bestimmtes Speicherlimit oder eine feste Abfrageanzahl.
Bei mehrseitigen Dashboards gilt Folgendes:
- Beim Bearbeiten eines Entwurfsdashboards werden alle Datasets geladen und zwischengespeichert.
- Wenn Viewer ein veröffentlichtes Dashboard öffnen, werden nur Datasets ausgeführt und zwischengespeichert, die die aktive Seite unterstützen.
- Wenn ein Zeitplan festgelegt ist, werden alle Datasets entsprechend dem Zeitplan aktualisiert, und diese Ergebnisse werden zwischengespeichert.
In der folgenden Tabelle wird erläutert, wie die Zwischenspeicherung je nach Dashboardstatus und Anmeldeinformationen variiert:
Dashboardtyp | Cachingtyp |
---|---|
Veröffentlichtes Dashboard mit eingebetteten Anmeldeinformationen | Freigegebener Cache. Alle Betrachter sehen dieselben Ergebnisse. |
Entwurfsdashboard oder veröffentlichtes Dashboard ohne eingebettete Anmeldeinformationen | Cache pro Benutzer. Betrachter sehen Ergebnisse basierend auf ihren Datenberechtigungen. |
Dashboards verwenden automatisch zwischengespeicherte Abfrageergebnisse, wenn die zugrunde liegenden Daten nach der letzten Abfrage unverändert bleiben oder die Ergebnisse vor weniger als 24 Stunden abgerufen wurden. Wenn veraltete Ergebnisse vorhanden sind und Parameter auf das Dashboard angewandt wurden, werden Abfragen erneut ausgeführt, sofern nicht dieselben Parameter in den letzten 24 Stunden verwendet wurden. Ebenso fordert das Anwenden von Filtern auf Datasets, die mehr als 100.000 Zeilen überschreiten, eine erneute Ausführung der Abfragen an, sofern nicht dieselben Filter in den letzten 24 Stunden zuvor angewandt wurden.
Geplante Abfragen
Das Hinzufügen eines Zeitplans zu einem veröffentlichten Dashboard mit eingebetteten Anmeldeinformationen kann den anfänglichen Ladevorgang für alle Dashboardbetrachter erheblich beschleunigen.
Für jedes geplante Dashboard-Update geschieht Folgendes:
- Alle SQL-Logik, die Datasets definiert, wird im festgelegten Zeitintervall ausgeführt.
- Ergebnisse füllen den Abfrageergebniscache und helfen, die anfängliche Ladezeit des Dashboards zu verbessern.