Jobb-API 2.0
Viktigt!
Den här artikeln dokumenterar 2.0-versionen av Jobb-API:et. Databricks rekommenderar dock att du använder Jobs API 2.2 för nya och befintliga klienter och skript. Mer information om ändringarna i 2.2-versionen av jobb-API:et finns i Uppdatera från Jobb-API 2.1 till 2.2.
Med JOBB-API:et kan du skapa, redigera och ta bort jobb. Den maximala tillåtna storleken för en begäran till Jobb-API:et är 10 MB.
Mer information om de uppdaterade funktionerna i nyare versioner av Jobb-API:et finns i Uppdatera från Jobb API 2.0 till 2.1 och Uppdatera från Jobb-API 2.1 till 2.2.
Varning
Du bör aldrig hårdkoda hemligheter eller lagra dem i oformaterad text. Använd API:et Hemligheter för att hantera hemligheter i Databricks CLI. Använd verktyget Hemligheter (dbutils.secrets) för att referera till hemligheter i notebook-filer och jobb.
Kommentar
Om du får ett 500-nivåfel när du gör jobb-API-begäranden rekommenderar Databricks att du försöker igen i upp till 10 min (med minst 30 sekunders intervall mellan återförsök).
Viktigt!
För att få åtkomst till Databricks REST API:er måste du autentisera.
Skapa
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/create |
POST |
Skapa ett nytt projekt.
Exempel
Det här exemplet skapar ett jobb som kör en JAR-aktivitet klockan 22:15 varje kväll.
Förfrågan
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .
create-job.json
:
{
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 3600,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan - Innehållet i
create-job.json
med fält som är lämpliga för din lösning.
I det här exemplet används en .netrc-fil och jq.
Response
{
"job_id": 1
}
Begärandestruktur
Viktigt!
- När du kör ett jobb i ett nytt jobbkluster behandlas jobbet som en jobbberäkningsarbetsbelastning (automatiserad) som omfattas av priser för jobbberäkning.
- När du kör ett jobb i ett befintligt allfunktionskluster behandlas det som en arbetsbelastning för All-Purpose Compute (interaktiv) som omfattas av prissättningen för All-Purpose Compute.
Fältnamn | Typ | Beskrivning |
---|---|---|
existing_cluster_id OR new_cluster |
STRING OR NewCluster |
Om existing_cluster_id används ID:t för ett befintligt kluster för alla körningar av det här jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att du kör jobb på nya kluster för bättre tillförlitlighet. Om new_cluster en beskrivning av ett kluster som skapas för varje körning. Om du anger en PipelineTask kan det här fältet vara tomt. |
notebook_task ELLER ELLER spark_jar_task spark_python_task ELLER ELLER spark_submit_task pipeline_task OR run_job_task |
NotebookTask ELLER SparkJarTask ELLER SparkPythonTask ELLER SparkSubmitTask ELLER PipelineTask ELLER RunJobTask | Om notebook_task anger att det här jobbet ska köra en notebook-fil. Det här fältet kanske inte anges tillsammans med spark_jar_task. Om spark_jar_task anger att det här jobbet ska köra en JAR-fil. Om spark_python_task anger att det här jobbet ska köra en Python-fil. Om spark_submit_task anger att det här jobbet ska startas av spark-sändningsskriptet. Om pipeline_task är valt, indikerar det att detta jobb ska köra en Delta Live Tables pipeline. Om run_job_task anger att det här jobbet ska köra ett annat jobb. |
name |
STRING |
Ett valfritt namn för jobbet. Standardvärdet är Untitled . |
libraries |
En matris med bibliotek | Valfria list bibliotek som ska installeras i klustret som ska utföra jobbet. Standardvärdet är ett tomt list. |
email_notifications |
JobEmailNotifications | En valfri set av e-postadresser som meddelas när körningar av det här jobbet börjar och slutförs och när jobbet tas bort. Standardbeteendet är att inte skicka några e-postmeddelanden. |
webhook_notifications |
WebhookNotifications | En valfri set av systemmål som notifieras när detta jobb startar, slutförs eller misslyckas. |
notification_settings |
JobNotificationSettings | Valfria meddelandeinställningar som används när du skickar meddelanden till var och en av jobben email_notifications och webhook_notifications för det här jobbet. |
timeout_seconds |
INT32 |
En valfri tidsgräns som tillämpas på varje körning av det här jobbet. Standardbeteendet är att inte ha någon tidsgräns. |
max_retries |
INT32 |
Ett valfritt maximalt antal gånger för att försöka utföra en misslyckad körning igen. En körning anses vara misslyckad om den FAILED slutförs med result_state ellerINTERNAL_ERROR life_cycle_state . Värdet -1 innebär att försöka igen på obestämd tid och värdet 0 innebär att aldrig försöka igen. Standardbeteendet är att aldrig försöka igen. |
min_retry_interval_millis |
INT32 |
Ett valfritt minimalt intervall i millisekunder mellan starten av den misslyckade körningen och den efterföljande återförsökskörningen. Standardbeteendet är att misslyckade körningar omedelbart görs om. |
retry_on_timeout |
BOOL |
En valfri princip för att ange om ett jobb ska försöka igen när tidsgränsen uppnås. Standardbeteendet är att inte försöka igen vid tidsgränsen. |
schedule |
CronSchedule | Ett valfritt periodiskt schema för det här jobbet. Standardbeteendet är att jobbet körs när det utlöses genom att klicka på Kör nu i jobbgränssnittet eller skicka en API-begäran till runNow . |
max_concurrent_runs |
INT32 |
Ett valfritt högsta tillåtna antal samtidiga körningar av jobbet. Set det här värdet om du vill kunna köra flera körningar av samma jobb samtidigt. Det här är till exempel användbart om du utlöser jobbet enligt ett frekvent schema och vill tillåta på varandra följande körningar att överlappa, eller om du vill utlösa flera körningar som skiljer sig åt genom sina indata parameters. Den här inställningen påverkar endast nya körningar. Anta till exempel att jobbets samtidighet är 4 och att det finns 4 samtidiga aktiva körningar. Om du sedan ställer in samtidigheten på 3 kommer inte någon av de aktiva körningarna att dödas. Men från och med då hoppas nya körningar över om det inte finns färre än 3 aktiva körningar. Det här värdet får inte överstiga 1 000. Om det här värdet anges till 0 hoppas alla nya körningar över. Standardbeteendet är att endast tillåta 1 samtidig körning. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier för det nyligen skapade jobbet. |
List
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/list |
GET |
List alla jobb.
Exempel
Förfrågan
curl --netrc --request GET \
https://<databricks-instance>/api/2.0/jobs/list \
| jq .
Ersätt <databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan, till exempel adb-1234567890123456.7.azuredatabricks.net
.
I det här exemplet används en .netrc-fil och jq.
Response
{
"jobs": [
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
]
}
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
jobs |
En matris med jobb | Jobbens nummer list. |
Ta bort
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/delete |
POST |
Ta bort ett jobb och skicka ett e-postmeddelande till de adresser som anges i JobSettings.email_notifications
. Ingen åtgärd inträffar om jobbet redan har tagits bort. När jobbet har tagits bort visas varken dess information eller dess körningshistorik i jobbgränssnittet eller API:et. Jobbet kommer garanterat att tas bort när den här begäran har slutförts. Körningar som var aktiva innan den här begäran togs emot kan dock fortfarande vara aktiva. De avslutas asynkront.
Exempel
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<job-id>
med jobbets ID, till exempel123
.
I det här exemplet används en .netrc-fil .
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Det kanoniska identifier av jobbet som ska tas bort. Fältet är obligatoriskt. |
Get
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/get |
GET |
Hämta information om ett enda jobb.
Exempel
Förfrågan
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .
Eller:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<job-id>
med jobbets ID, till exempel123
.
I det här exemplet används en .netrc-fil och jq.
Response
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Det kanoniska identifier för jobbet att hämta information om. Fältet är obligatoriskt. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier för det här jobbet. |
creator_user_name |
STRING |
Skaparens användarnamn. Det här fältet tas inte med i svaret om användaren har tagits bort. |
settings |
JobSettings | Inställningar för det här jobbet och alla dess körningar. De här inställningarna kan uppdateras med hjälp av slutpunkterna Reset eller Update. |
created_time |
INT64 |
Den tid då det här jobbet skapades i epok millisekunder (millisekunder sedan 1/1/1970 UTC). |
Reset
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/reset |
POST |
Skriv över alla inställningar för ett visst jobb. Använd Update slutpunkten för att justera update jobbinställningarna delvis.
Exempel
Den här exempelbegäran gör jobb 2 identiskt med jobb 1 i exemplet skapa.
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .
reset-job.json
:
{
"job_id": 2,
"new_settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
}
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan - Innehållet i
reset-job.json
med fält som är lämpliga för din lösning.
I det här exemplet används en .netrc-fil och jq.
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier av jobbet till reset. Fältet är obligatoriskt. |
new_settings |
JobSettings | De nya inställningarna för jobbet. De här inställningarna ersätter helt de gamla inställningarna. Ändringar i fältet JobSettings.timeout_seconds tillämpas på aktiva körningar. Ändringar i andra fält tillämpas endast på framtida körningar. |
Update
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/update |
POST |
Lägg till, ändra eller remove specifika inställningar för ett befintligt jobb. Använd Reset slutpunkt för att skriva över alla jobbinställningar.
Exempel
Den här exempelbegäran tar bort bibliotek och lägger till e-postaviseringsinställningar i jobb 1 som definierats i skapa-exemplet.
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .
update-job.json
:
{
"job_id": 1,
"new_settings": {
"existing_cluster_id": "1201-my-cluster",
"email_notifications": {
"on_start": [ "someone@example.com" ],
"on_success": [],
"on_failure": []
}
},
"fields_to_remove": ["libraries"]
}
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan - Innehållet i
update-job.json
med fält som är lämpliga för din lösning.
I det här exemplet används en .netrc-fil och jq.
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier av jobbet till update. Fältet är obligatoriskt. |
new_settings |
JobSettings | De nya inställningarna för jobbet. Fält på den översta nivån som anges i new_settings , förutom matriser, ersätts helt. Matriser sammanfogas baserat på respektive nyckelfält, till exempel task_key ellerjob_cluster_key och matrisposter med samma nyckel ersätts helt. Förutom matrissammanslagningen stöds inte delvis uppdatering av kapslade fält.Ändringar i fältet JobSettings.timeout_seconds tillämpas på aktiva körningar. Ändringar i andra fält tillämpas endast på framtida körningar. |
fields_to_remove |
En matris med STRING |
Remove fält på den översta nivån i jobbinställningarna. Det går inte att ta bort kapslade fält, förutom poster från matriserna tasks och job_clusters . Följande är till exempel ett giltigt argument för det här fältet:["libraries", "schedule", "tasks/task_1", "job_clusters/Default"] Det här fältet är valfritt. |
Kör nu
Viktigt!
- En arbetsyta är begränsad till 1 000 samtidiga aktivitetskörningar. Ett
429 Too Many Requests
-svar returneras när du begär en körning som inte kan starta omedelbart. - Antalet jobb som en arbetsyta kan skapa på en timme är begränsat till 1 0000 (inklusive "kör skicka"). Den här limit påverkar även jobb som skapats av REST API samt anteckningsflöden.
- En arbetsyta kan innehålla upp till 12 000 sparade jobb.
- Ett jobb kan innehålla upp till 100 aktiviteter.
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/run-now |
POST |
Kör ett jobb nu och returnera den run_id
utlösta körningen.
Dricks
Om du anropar Skapa tillsammans med Kör nukan du använda Körningar skicka slutpunkt i stället, vilket gör att du kan skicka din arbetsbelastning direkt utan having för att skapa ett jobb.
Exempel
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .
run-job.json
:
Ett exempel på en begäran för ett notebook-jobb:
{
"job_id": 1,
"notebook_params": {
"name": "john doe",
"age": "35"
}
}
Ett exempel på en begäran för ett JAR-jobb:
{
"job_id": 2,
"jar_params": [ "john doe", "35" ]
}
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan - Innehållet i
run-job.json
med fält som är lämpliga för din lösning.
I det här exemplet används en .netrc-fil och jq.
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
|
jar_params |
En matris med STRING |
En list av parameters för jobb som utför JAR-uppgifter, t.ex. "jar_params": ["john doe", "35"] .
parameters används för att anropa huvudfunktionen i huvudklassen som anges i Spark JAR-aktiviteten. Om det inte anges på run-now kommer standardvärdet att vara ett tomt list. jar_params kan inte anges tillsammans med notebook_params. JSON-representationen av det här fältet (dvs. {"jar_params":["john doe","35"]} ) får inte överstiga 10 000 byte. |
notebook_params |
En karta över ParamPair | En karta över nycklar till values för jobb med anteckningsuppgift, t.ex."notebook_params": {"name": "john doe", "age": "35"} . Kartan skickas till anteckningsboken och är tillgänglig via dbutils.widgets.get funktion.Om det inte specificeras vid run-now , använder den utlösta körningen jobbets bas parameters.Du kan inte ange notebook_params tillsammans med jar_params. JSON-representationen av det här fältet (dvs. {"notebook_params":{"name":"john doe","age":"35"}} ) får inte överstiga 10 000 byte. |
python_params |
En matris med STRING |
En list av parameters för jobb med Pythonuppgifter, exempelvis "python_params": ["john doe", "35"] .
parameters skickas till Python-filen som kommandoradsargument parameters. Om det anges vid run-now skulle det skriva över parameters som anges i jobbinställningar. JSON-representationen av det här fältet (dvs. {"python_params":["john doe","35"]} ) får inte överstiga 10 000 byte. |
spark_submit_params |
En matris med STRING |
En list av parameters för jobbuppgifter med spark submit-task, t.ex."spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] .
parameters skickas till spark-submit-skriptet som kommandorad parameters. Om det anges vid run-now skulle det skriva över parameters som anges i jobbinställningar. JSON-representationen av det här fältet får inte överstiga 10 000 byte. |
idempotency_token |
STRING |
En valfri token för att garantera idempotensen för jobbkörningsbegäranden. Om det redan finns en körning med den angivna token skapar begäran inte en ny körning, utan returnerar ID:t för den befintliga körningen i stället. Om en körning med den angivna token tas bort returneras ett fel. Om du anger idempotenstoken kan du vid ett fel försöka igen tills begäran har slutförts. Azure Databricks garanterar att exakt en körning startas med den idempotenstoken. Den här token måste innehålla högst 64 tecken. Mer information finns i Så här säkerställer du idempotens för jobb. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Det globalt unika ID:t för den nyligen utlösta körningen. |
number_in_job |
INT64 |
Sekvensnumret för den här körningen bland alla körningar av jobbet. |
Skicka körningar
Viktigt!
- En arbetsyta är begränsad till 1 000 samtidiga aktivitetskörningar. Ett
429 Too Many Requests
-svar returneras när du begär en körning som inte kan starta omedelbart. - Antalet jobb som en arbetsyta kan skapa på en timme är begränsat till 1 0000 (inklusive "kör skicka"). Den här limit påverkar även jobb som skapats av REST API samt anteckningsflöden.
- En arbetsyta kan innehålla upp till 12 000 sparade jobb.
- Ett jobb kan innehålla upp till 100 aktiviteter.
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/submit |
POST |
Skicka en engångskörning. Med den här slutpunkten kan du skicka en arbetsbelastning direkt utan att skapa ett jobb. Använd API:et jobs/runs/get
för att kontrollera körningstillståndet när jobbet har skickats.
Exempel
Förfrågan
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .
submit-job.json
:
{
"run_name": "my spark task",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan - Innehållet i
submit-job.json
med fält som är lämpliga för din lösning.
I det här exemplet används en .netrc-fil och jq.
Response
{
"run_id": 123
}
Begärandestruktur
Viktigt!
- När du kör ett jobb i ett nytt jobbkluster behandlas jobbet som en jobbberäkningsarbetsbelastning (automatiserad) som omfattas av priser för jobbberäkning.
- När du kör ett jobb i ett befintligt allfunktionskluster behandlas det som en arbetsbelastning för All-Purpose Compute (interaktiv) som omfattas av prissättningen för All-Purpose Compute.
Fältnamn | Typ | Beskrivning |
---|---|---|
existing_cluster_id OR new_cluster |
STRING OR NewCluster |
Om existing_cluster_id används ID:t för ett befintligt kluster för alla körningar av det här jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att du kör jobb på nya kluster för bättre tillförlitlighet. Om new_cluster en beskrivning av ett kluster som skapas för varje körning. Om du anger en PipelineTask kan det här fältet vara tomt. |
notebook_task ELLER ELLER spark_jar_task spark_python_task ELLER ELLER spark_submit_task pipeline_task OR run_job_task |
NotebookTask ELLER SparkJarTask ELLER SparkPythonTask ELLER SparkSubmitTask ELLER PipelineTask ELLER RunJobTask | Om notebook_task anger att det här jobbet ska köra en notebook-fil. Det här fältet kanske inte anges tillsammans med spark_jar_task. Om spark_jar_task anger att det här jobbet ska köra en JAR-fil. Om spark_python_task anger att det här jobbet ska köra en Python-fil. Om spark_submit_task anger att det här jobbet ska startas av spark-sändningsskriptet. Om pipeline_task är valt, indikerar det att detta jobb ska köra en Delta Live Tables pipeline. Om run_job_task anger att det här jobbet ska köra ett annat jobb. |
run_name |
STRING |
Ett valfritt namn för körningen. Standardvärdet är Untitled . |
webhook_notifications |
WebhookNotifications | En valfri set av systemmål som notifieras när detta jobb startar, slutförs eller misslyckas. |
notification_settings |
JobNotificationSettings | Valfria meddelandeinställningar som används när du skickar meddelanden till var och en av dem för den här körningen webhook_notifications . |
libraries |
En matris med bibliotek | Valfria list bibliotek som ska installeras i klustret som ska utföra jobbet. Standardvärdet är ett tomt list. |
timeout_seconds |
INT32 |
En valfri tidsgräns som tillämpas på varje körning av det här jobbet. Standardbeteendet är att inte ha någon tidsgräns. |
idempotency_token |
STRING |
En valfri token för att garantera idempotensen för jobbkörningsbegäranden. Om det redan finns en körning med den angivna token skapar begäran inte en ny körning, utan returnerar ID:t för den befintliga körningen i stället. Om en körning med den angivna token tas bort returneras ett fel. Om du anger idempotenstoken kan du vid ett fel försöka igen tills begäran har slutförts. Azure Databricks garanterar att exakt en körning startas med den idempotenstoken. Den här token måste innehålla högst 64 tecken. Mer information finns i Så här säkerställer du idempotens för jobb. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Den kanoniska identifier för den nyligen skickade exekveringen. |
Kör list
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/list |
GET |
List körs i fallande ordning efter starttidpunkten.
Kommentar
Körningar tas bort automatiskt efter 60 dagar. Om du vill referera till dem längre än 60 dagar bör du spara gamla körningsresultat innan de upphör att gälla. Information om hur du exporterar med hjälp av användargränssnittet finns i Exportera jobbkörningsresultat. Information om hur du exporterar med hjälp av jobb-API:et finns i Körningar exportera.
Exempel
Förfrågan
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
Eller:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<job-id>
med jobbets ID, till exempel123
. - "
<true-false>
medtrue
ellerfalse
". -
<offset>
med värdetoffset
. -
<limit>
med värdetlimit
. -
<run-type>
med värdetrun_type
.
I det här exemplet används en .netrc-fil och jq.
Response
{
"runs": [
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/donald@duck.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
],
"has_more": true
}
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
active_only OR completed_only |
BOOL OR BOOL |
Om active_only är true inkluderas endast aktiva körningar i resultatet. Annars visas både aktiva och slutförda körningar. En aktiv körning är en körning i PENDING , RUNNING eller TERMINATING RunLifecycleState. Det här fältet får inte vara true när completed_only är true .Om completed_only är true inkluderas endast slutförda körningar i resultatet. Annars visas både aktiva och slutförda körningar. Det här fältet får inte vara true när active_only är true . |
job_id |
INT64 |
Jobbet för vilket list körs. Om den utelämnas list jobbtjänsten körs från alla jobb. |
offset |
INT32 |
Den offset för den första körningen som ska returneras, i förhållande till den senaste körningen. |
limit |
INT32 |
Antalet körningar som ska returneras. Det här värdet bör vara större än 0 och mindre än 1 000. Standardvärdet är 20. Om en begäran anger en limit på 0 använder tjänsten i stället maximalt limit. |
run_type |
STRING |
Vilken typ av körningar som ska returneras. En beskrivning av körningstyper finns i Kör. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
runs |
En matris med Körning | En lista över list av körningar, från senast startad till tidigast. |
has_more |
BOOL |
Om sant är ytterligare körningar som matchar det angivna filtret tillgängliga för listning. |
Kör get
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/get |
GET |
Hämta metadata för en körning.
Kommentar
Körningar tas bort automatiskt efter 60 dagar. Om du vill referera till dem längre än 60 dagar bör du spara gamla körningsresultat innan de upphör att gälla. Information om hur du exporterar med hjälp av användargränssnittet finns i Exportera jobbkörningsresultat. Information om hur du exporterar med hjälp av jobb-API:et finns i Körningar exportera.
Exempel
Förfrågan
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .
Eller:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<run-id>
med ID:t för körningen, till exempel123
.
I det här exemplet används en .netrc-fil och jq.
Response
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Den kanoniska identifier för körningen som metadata ska hämtas för. Fältet är obligatoriskt. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier för jobbet som innehåller den här körningen. |
run_id |
INT64 |
Den kanoniska identifier av körningen. Det här ID:t är unikt för alla körningar av alla jobb. |
number_in_job |
INT64 |
Sekvensnumret för den här körningen bland alla körningar av jobbet. Det här värdet börjar vid 1. |
original_attempt_run_id |
INT64 |
Om den här körningen är ett nytt försök för ett tidigare körningsförsök innehåller det här fältet run_id för det ursprungliga försöket. annars är det samma som run_id. |
state |
RunState | Körningens resultat- och livscykeltillstånd. |
schedule |
CronSchedule | Cron-schemat som utlöste den här körningen om det utlöstes av den periodiska schemaläggaren. |
task |
JobTask | Den uppgift som utförs av körningen, om någon. |
cluster_spec |
ClusterSpec | En ögonblicksbild av jobbets klusterspecifikation när den här körningen skapades. |
cluster_instance |
ClusterInstance | Klustret som används för den här körningen. Om körningen är satt att använda ett nytt kluster blir det här fältet set när tjänsten jobb har begärt ett kluster för denna körning. |
overriding_parameters |
RunParameters | Den parameters som användes för den här körningen. |
start_time |
INT64 |
Den tid då den här körningen startades i epok millisekunder (millisekunder sedan 1/1/1970 UTC). Det här kanske inte är den tidpunkt då jobbaktiviteten börjar köras, till exempel om jobbet är schemalagt att köras i ett nytt kluster, det är den tidpunkt då anropet för att skapa klustret utfärdas. |
end_time |
INT64 |
Den tid då den här körningen slutade i epok millisekunder (millisekunder sedan 1/1/1970 UTC). Det här fältet kommer att vara set till 0 om jobbet fortfarande pågår. |
setup_duration |
INT64 |
Tiden i millisekunder det tog att set upp klustret. För körningar som körs på nya kluster är detta tiden då klustret skapas, för körningar som körs på befintliga kluster den här gången bör vara mycket kort. Den totala varaktigheten för körningen är summan av setup_duration ,execution_duration , och cleanup_duration . Fältet setup_duration är set till 0 för flera jobbkörningar. Den totala varaktigheten för en multitask-jobbkörning är värdet förrun_duration fält. |
execution_duration |
INT64 |
Den tid i millisekunder det tog att köra kommandona i JAR-filen eller notebook-filen tills de slutfördes, misslyckades, tog timeout, avbröts eller påträffade ett oväntat fel. Den totala varaktigheten för körningen är summan av setup_duration , execution_duration ochcleanup_duration . Fältet execution_duration är set till 0 för flera jobbkörningar. Den totala varaktigheten för en multitask-jobbkörning är värdet för fältet run_duration . |
cleanup_duration |
INT64 |
Den tid i millisekunder det tog att avsluta klustret och rensa eventuella associerade artefakter. Den totala varaktigheten för körningen är summan av setup_duration , execution_duration och cleanup_duration . Fältet cleanup_duration är set till 0 för flera jobbkörningar. Den totala varaktigheten för en multitask-jobbkörning är värdet för fältet run_duration . |
run_duration |
INT64 |
Tiden i millisekunder tog det jobbkörningen och alla dess reparationer att slutföras. Det här fältet är bara set för flera jobbkörningar och inte aktivitetskörningar. Varaktigheten för en aktivitetskörning är summan avsetup_duration , execution_duration och cleanup_duration . |
trigger |
TriggerType | Typen av utlösare som utlöste den här körningen. |
creator_user_name |
STRING |
Skaparens användarnamn. Det här fältet tas inte med i svaret om användaren har tagits bort |
run_page_url |
STRING |
URL:en till detaljsidan för körningen. |
Kör export
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/export |
GET |
Exportera och hämta jobbkörningsaktiviteten.
Kommentar
Endast notebook-körningar kan exporteras i HTML-format. Det går inte att exportera körningar av andra typer.
Exempel
Förfrågan
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .
Eller:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<run-id>
med ID:t för körningen, till exempel123
.
I det här exemplet används en .netrc-fil och jq.
Response
{
"views": [ {
"content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
"name": "my-notebook",
"type": "NOTEBOOK"
} ]
}
Om du vill extrahera HTML-anteckningsboken från JSON-svaret laddar du ned och kör det här Python-skriptet.
Kommentar
Notebook-brödtexten __DATABRICKS_NOTEBOOK_MODEL
i objektet är kodad.
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Den kanoniska identifier för körningen. Fältet är obligatoriskt. |
views_to_export |
ViewsToExport | Vilken views ska exporteras (PROGRAMKOD, DASHBOARDAR eller SAMTLIGA). Standardvärdet är CODE. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
views |
En matris med ViewItem | Det exporterade innehållet i HTML-format (ett för varje visningsobjekt). |
Körningar avbryts
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/cancel |
POST |
Avbryt en jobbkörning. Eftersom körningen avbryts asynkront kan körningen fortfarande köras när den här begäran har slutförts. Körningen avslutas inom kort. Om körningen redan finns i en terminal life_cycle_state
är den här metoden en no-op.
Den här slutpunkten verifierar att parametern run_id
är giltig och för ogiltig parameters returnerar HTTP-statuskod 400.
Exempel
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<run-id>
med ID:t för körningen, till exempel123
.
I det här exemplet används en .netrc-fil .
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Den kanoniska identifier för körningen som ska avbrytas. Fältet är obligatoriskt. |
Körningar avbryter alla
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/cancel-all |
POST |
Avbryt alla aktiva körningar av ett jobb. Eftersom körningen avbryts asynkront förhindrar den inte att nya körningar startas.
Den här slutpunkten verifierar att parametern job_id
är giltig och för ogiltig parameters returnerar HTTP-statuskod 400.
Exempel
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<job-id>
med jobbets ID, till exempel123
.
I det här exemplet används en .netrc-fil .
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Det kanoniska identifier för jobbet som ska avbryta alla körningar. Fältet är obligatoriskt. |
Kör get utdata
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/get-output |
GET |
Hämta utdata och metadata för en enskild aktivitetskörning. När en notebook-uppgift returnerar ett värde via anropet dbutils.notebook.exit() kan du använda den här slutpunkten för att hämta det värdet. Azure Databricks begränsar det här API:et till att returnera de första 5 MB av utdata. Om du vill returnera ett större resultat kan du lagra jobbresultat i en molnlagringstjänst.
Den här slutpunkten verifierar att parametern run_id
är giltig och för ogiltig parameters returnerar HTTP-statuskod 400.
Körningar tas bort automatiskt efter 60 dagar. Om du vill referera till dem längre än 60 dagar bör du spara gamla körningsresultat innan de upphör att gälla. Information om hur du exporterar med hjälp av användargränssnittet finns i Exportera jobbkörningsresultat. Information om hur du exporterar med hjälp av jobb-API:et finns i Körningar exportera.
Exempel
Förfrågan
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .
Eller:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<run-id>
med ID:t för körningen, till exempel123
.
I det här exemplet används en .netrc-fil och jq.
Response
{
"metadata": {
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
},
"notebook_output": {
"result": "the maybe truncated string passed to dbutils.notebook.exit()"
}
}
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Den kanoniska identifier för körningen. För ett jobb med mulitple-aktiviteter är run_id detta en aktivitetskörning. Se Körning get utdata. Fältet är obligatoriskt. |
Svarsstruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
notebook_output OR error |
NotebookOutput ELLER STRING |
Om notebook_output, utdata för en notebook-uppgift, om det är tillgängligt. En notebook-uppgift som avslutas (antingen korrekt eller med ett fel) utan att anropadbutils.notebook.exit() anses ha tomma utdata. Det här fältet kommer att vara set men dess resultatvärde är tomt.Om felet uppstår visas ett felmeddelande som anger varför utdata inte är tillgängliga. Meddelandet är ostrukturerat och dess exakta format kan komma att ändras. |
metadata |
Springa | All information om körningen förutom dess utdata. |
Kör borttagning
Slutpunkt | HTTP-metod |
---|---|
2.0/jobs/runs/delete |
POST |
Ta bort en icke-aktiv körning. Returnerar ett fel om körningen är aktiv.
Exempel
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'
Ersätta:
-
<databricks-instance>
med instansnamnet för Azure Databricks-arbetsytan -
<run-id>
med ID:t för körningen, till exempel123
.
I det här exemplet används en .netrc-fil .
Begärandestruktur
Fältnamn | Typ | Beskrivning |
---|---|---|
run_id |
INT64 |
Den kanoniska identifier för körningen som metadata ska hämtas för. |
Datastrukturer
I detta avsnitt:
- ABFSSStorageInfo
- Autoskalning
- AzureAttributes
- AzureAvailability
- ClusterInstance
- ClusterLogConf
- ClusterSpec
- Klustertaggar
- CronSchedule
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- Jobb
- JobEmailNotifications
- JobNotificationSettings
- JobSettings
- JobTask
- JobsHealthRule
- JobsHealthRules
- Bibliotek
- MavenLibrary
- NewCluster
- NotebookOutput
- NotebookTask
- ParamPair
- PipelineTask
- PythonPyPiLibrary
- RCranLibrary
- Springa
- RunJobTask
- RunLifeCycleState
- RunParameters
- RunResultState
- RunState
- SparkConfPair
- SparkEnvPair
- SparkJarTask
- SparkPythonTask
- SparkSubmitTask
- TriggerType
- ViewItem
- ViewType
- ViewsToExport
- Webhook
- WebhookNotifications
- ArbetsytaStorageInfo
ABFSSStorageInfo
Lagringsinformation för Azure Data Lake Storage (ADLS).
Fältnamn | Typ | Beskrivning |
---|---|---|
destination |
STRING |
Fildestination. Exempel: abfss://... |
Autoskalning
Intervall som definierar minsta och högsta antal klusterarbetare.
Fältnamn | Typ | Beskrivning |
---|---|---|
min_workers |
INT32 |
Det minsta antalet arbetare som klustret kan skalas ned till när det är underutnyttrat. Det är också det första antalet arbetare som klustret kommer att ha när det har skapats. |
max_workers |
INT32 |
Det maximala antalet arbetare som klustret kan skalas upp till när det är överbelastat. max_workers måste vara strikt större än min_workers. |
AzureAttributes
Attribut set när kluster skapas som är relaterade till Azure.
Fältnamn | Typ | Beskrivning |
---|---|---|
first_on_demand |
INT32 |
De första first_on_demand noderna i klustret placeras på begäran-instanser. Det här värdet måste vara större än 0, annars misslyckas verifieringen av klusterskapandet. Om det här värdet är större än eller lika med den aktuella klusterstorleken placeras alla noder på begäran-instanser. Om det här värdet är mindre än den aktuella klusterstorleken first_on_demand placeras noder på begäran-instanser och resten placeras på tillgänglighetsinstanser. Det här värdet påverkar inte klusterstorleken och kan inte muteras under ett klusters livslängd. |
availability |
AzureAvailability | Tillgänglighetstyp som används för alla efterföljande noder förbi dem first_on_demand . |
spot_bid_max_price |
DOUBLE |
Det högsta budpriset som används för Azure Spot-instanser. Du kan set detta till större än eller lika med det aktuella spotpriset. Du kan också ställa in set till -1 (standardvärdet), vilket anger att instansen inte kan avlägsnas baserat på priset. Priset för instansen är det aktuella priset för spotinstanser eller priset för en standardinstans. Du kan visa historiska priser och borttagningsfrekvenser i Azure Portal. |
AzureAvailability
Beteendet för azure-instansens tillgänglighetstyp.
Typ | Beskrivning |
---|---|
SPOT_AZURE |
Använd instanser av oanvänd kapacitet. |
ON_DEMAND_AZURE |
Använd instanser på begäran. |
SPOT_WITH_FALLBACK_AZURE |
Använd helst spotinstanser, men återgå till instanser på begäran om instanser av oanvänd kapacitet inte kan förvärvas (till exempel om Priserna på Azure-spot är för höga eller inte kvoter). Gäller inte för pooltillgänglighet. |
ClusterInstance
Identifierare för klustret och Spark-kontexten som används av en körning. Dessa två values tillsammans identifiera en körningskontext genom tiderna.
Fältnamn | Typ | Beskrivning |
---|---|---|
cluster_id |
STRING |
Den kanoniska identifier för klustret som används av en process. Det här fältet är alltid tillgängligt för körningar i befintliga kluster. För körningar på nya kluster blir det tillgängligt när klustret har skapats. Det här värdet kan användas för att visa loggar genom att bläddra till /#setting/sparkui/$cluster_id/driver-logs . Loggarna fortsätter att vara tillgängliga när körningen är klar.Svaret inkluderar inte det här fältet om identifier inte är tillgängligt ännu. |
spark_context_id |
STRING |
Den kanoniska identifikatorn identifier för Spark-kontexten som används i en körning. Det här fältet fylls i när körningen påbörjas. Det här värdet kan användas för att visa Spark-användargränssnittet genom att bläddra till /#setting/sparkui/$cluster_id/$spark_context_id . Spark-användargränssnittet fortsätter att vara tillgängligt när körningen har slutförts.Svaret inkluderar inte det här fältet om identifier inte är tillgängligt ännu. |
ClusterLogConf
Sökväg till klusterloggen.
Fältnamn | Typ | Beskrivning |
---|---|---|
dbfs |
DBFS-plats för klusterloggen. Målet måste anges. Till exempel: { "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
ClusterSpec
Viktigt!
- När du kör ett jobb i ett nytt jobbkluster behandlas jobbet som en jobbberäkningsarbetsbelastning (automatiserad) som omfattas av priser för jobbberäkning.
- När du kör ett jobb i ett befintligt allfunktionskluster behandlas det som en arbetsbelastning för All-Purpose Compute (interaktiv) som omfattas av prissättningen för All-Purpose Compute.
Fältnamn | Typ | Beskrivning |
---|---|---|
existing_cluster_id OR new_cluster |
STRING OR NewCluster |
Om existing_cluster_id används ID:t för ett befintligt kluster för alla körningar av det här jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att du kör jobb på nya kluster för bättre tillförlitlighet. Om new_cluster en beskrivning av ett kluster som skapas för varje körning. Om du anger en PipelineTask kan det här fältet vara tomt. |
libraries |
En matris med bibliotek | Valfria list bibliotek som ska installeras i klustret som ska utföra jobbet. Standardvärdet är ett tomt list. |
Klustertaggar
Definition av klustertagg.
Typ | Beskrivning |
---|---|
STRING |
Nyckeln för taggen. Nyckeln måste: – Vara mellan 1 och 512 tecken långt - Innehåller inte något av tecknen <>%*&+?\\/ - Inte börja med azure , microsoft , eller windows |
STRING |
Taggens värde. Värdelängden måste vara mindre än eller lika med 256 UTF-8 tecken. |
CronSchedule
Fältnamn | Typ | Beskrivning |
---|---|---|
quartz_cron_expression |
STRING |
Ett Cron-uttryck med Quartz-syntax som beskriver schemat för ett jobb. Mer information finns i Cron-utlösare . Fältet är obligatoriskt. |
timezone_id |
STRING |
Ett Java-timezone-ID. Schemat för ett jobb kommer att fastställas med avseende på denna timezone. Se Java TimeZone för mer information. Fältet är obligatoriskt. |
pause_status |
STRING |
Ange om schemat är pausat eller inte. Antingen "PAUSAD" eller "UNPAUSED". |
DbfsStorageInfo
DBFS-lagringsinformation.
Fältnamn | Typ | Beskrivning |
---|---|---|
destination |
STRING |
DBFS-mål. Exempel: dbfs:/my/path |
FileStorageInfo
Fillagringsinformation.
Kommentar
Den här platstypen är endast tillgänglig för kluster från och med set och använder Databricks Container Services.
Fältnamn | Typ | Beskrivning |
---|---|---|
destination |
STRING |
Fildestination. Exempel: file:/my/file.sh |
InitScriptInfo
Sökväg till ett init-skript.
Anvisningar om hur du använder init-skript med Databricks Container Services finns i Använda ett init-skript.
Kommentar
Fillagringstypen (fältnamn: file
) är endast tillgänglig för kluster set upp med hjälp av Databricks Container Services. Se FileStorageInfo.
Fältnamn | Typ | Beskrivning |
---|---|---|
workspace ELLER dbfs (inaktuell)ELLER abfss |
ArbetsytaStorageInfo DbfsStorageInfo (inaktuell) ABFSSStorageInfo |
Arbetsytans plats för init-skriptet. Målet måste anges. Ett exempel:{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Inaktuell) DBFS-platsen för init-skriptet. Målet måste anges. Ett exempel: { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Azure Data Lake Storage (ADLS) plats för init-skript. Målet måste anges. Till exempel: { "abfss": { "destination" : "abfss://..." } } |
Jobb
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier för det här jobbet. |
creator_user_name |
STRING |
Skaparens användarnamn. Det här fältet tas inte med i svaret om användaren redan har tagits bort. |
run_as |
STRING |
Användarnamnet som jobbet ska köras som.
run_as baseras på de aktuella inställningarna för jobbet och är set för jobbskaparen om åtkomstkontroll är inaktiverad, eller behörigheten is_owner om åtkomstkontroll är aktiverad. |
settings |
JobSettings | Inställningar för det här jobbet och alla dess körningar. De här inställningarna kan uppdateras med hjälp av resetJob metoden . |
created_time |
INT64 |
Den tid då det här jobbet skapades i epok millisekunder (millisekunder sedan 1/1/1970 UTC). |
JobEmailNotifications
Viktigt!
Fälten on_start, on_success och on_failure accepterar endast latinska tecken (ASCII-tecken set). Om du använder icke-ASCII-tecken returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanjis och emojis.
Fältnamn | Typ | Beskrivning |
---|---|---|
on_start |
En matris med STRING |
En list av e-postadresser som ska meddelas när en process påbörjas. Om det inte anges när jobbet skapas är reset, eller update, list tom och meddelanden skickas inte. |
on_success |
En matris med STRING |
En list med e-postadresser som ska meddelas när en körning har slutförts framgångsrikt. En körning anses ha slutförts om den slutar med en TERMINATED och en life_cycle_state SUCCESSFUL .result_state Om det inte anges när jobbet skapas är reset, eller update, list tom och meddelanden skickas inte. |
on_failure |
En matris med STRING |
En list av e-postadresser som ska meddelas när en körning misslyckas. En körning anses ha slutförts utan framgång om den slutar med en INTERNAL_ERROR life_cycle_state eller en SKIPPED , FAILED , eller TIMED_OUT result_state. Om detta inte anges när jobbet skapas reseteller updatelist är tom och meddelanden skickas inte. |
on_duration_warning_threshold_exceeded |
En matris med STRING |
En list av e-postadresser som ska meddelas när varaktigheten för en körning överskrider det tröskelvärde som angetts för måttet RUN_DURATION_SECONDS i fältet health . Om ingen regel för måttet RUN_DURATION_SECONDS anges i health fältet för jobbet skickas inte meddelanden. |
no_alert_for_skipped_runs |
BOOL |
Om det är sant ska du inte skicka e-post till recipients som anges i on_failure om körningen hoppas över. |
Fältnamn | Typ | Beskrivning |
---|---|---|
on_start |
En matris med Webhook | En valfri list lista över systemdestinationer som ska informeras när en process startar. Om det inte anges när jobbet skapas är reset, eller update, list tom och meddelanden skickas inte. Högst 3 mål kan anges för egenskapen on_start . |
on_success |
En matris med Webhook | En valfri list av systemdestinationer som ska meddelas när en körning har slutförts framgångsrikt. En körning anses ha slutförts om den slutar med en TERMINATED och en life_cycle_state SUCCESSFUL .result_state Om det inte anges när jobbet skapas är reset, eller update, list tom och meddelanden skickas inte. Högst 3 mål kan anges för egenskapen on_success . |
on_failure |
En matris med Webhook | En valfri list av systemmål som ska meddelas när en körning slutförs utan framgång. En körning anses ha slutförts utan framgång om den slutar med en INTERNAL_ERROR life_cycle_state eller en SKIPPED , FAILED , eller TIMED_OUT result_state. Om detta inte anges när jobbet skapas reseteller updatelist är tom och meddelanden skickas inte. Högst 3 mål kan anges för egenskapen on_failure . |
on_duration_warning_threshold_exceeded |
En matris med Webhook | Ett valfritt list av systemmål som ska meddelas när varaktigheten för en körning överskrider det tröskelvärde som anges för metriska måttet RUN_DURATION_SECONDS i fältet health . Högst 3 mål kan anges för egenskapen on_duration_warning_threshold_exceeded . |
JobNotificationSettings
Fältnamn | Typ | Beskrivning |
---|---|---|
no_alert_for_skipped_runs |
BOOL |
Om det är sant, skicka inte meddelanden till recipients som anges i on_failure om körningen hoppas över. |
no_alert_for_canceled_runs |
BOOL |
Om detta är sant, skicka inte meddelanden till recipients som anges i on_failure om körningen avbryts. |
alert_on_last_attempt |
BOOL |
Om det är sant ska du inte skicka meddelanden till recipients som anges i on_start för de nya körningarna och skicka inte meddelanden till recipients som anges i on_failure förrän det sista omförsöket av körningen. |
JobSettings
Viktigt!
- När du kör ett jobb i ett nytt jobbkluster behandlas jobbet som en jobbberäkningsarbetsbelastning (automatiserad) som omfattas av priser för jobbberäkning.
- När du kör ett jobb i ett befintligt allfunktionskluster behandlas det som en arbetsbelastning för All-Purpose Compute (interaktiv) som omfattas av prissättningen för All-Purpose Compute.
Inställningar för ett jobb. De här inställningarna kan uppdateras med hjälp av resetJob
metoden .
Fältnamn | Typ | Beskrivning |
---|---|---|
existing_cluster_id OR new_cluster |
STRING OR NewCluster |
Om existing_cluster_id används ID:t för ett befintligt kluster för alla körningar av det här jobbet. När du kör jobb i ett befintligt kluster kan du behöva starta om klustret manuellt om det slutar svara. Vi föreslår att du kör jobb på nya kluster för bättre tillförlitlighet. Om new_cluster en beskrivning av ett kluster som skapas för varje körning. Om du anger en PipelineTask kan det här fältet vara tomt. |
notebook_task ELLER ELLER spark_jar_task spark_python_task ELLER ELLER spark_submit_task pipeline_task OR run_job_task |
NotebookTask ELLER SparkJarTask ELLER SparkPythonTask ELLER SparkSubmitTask ELLER PipelineTask ELLER RunJobTask | Om notebook_task anger att det här jobbet ska köra en notebook-fil. Det här fältet kanske inte anges tillsammans med spark_jar_task. Om spark_jar_task anger att det här jobbet ska köra en JAR-fil. Om spark_python_task anger att det här jobbet ska köra en Python-fil. Om spark_submit_task anger att det här jobbet ska startas av spark-sändningsskriptet. Om pipeline_task är valt, indikerar det att detta jobb ska köra en Delta Live Tables pipeline. Om run_job_task anger att det här jobbet ska köra ett annat jobb. |
name |
STRING |
Ett valfritt namn för jobbet. Standardvärdet är Untitled . |
libraries |
En matris med bibliotek | Valfria list bibliotek som ska installeras i klustret som ska utföra jobbet. Standardvärdet är ett tomt list. |
email_notifications |
JobEmailNotifications | En valfri set av e-postadresser som meddelas när körningar av det här jobbet påbörjas eller slutförs samt när det här jobbet tas bort. Standardbeteendet är att inte skicka några e-postmeddelanden. |
webhook_notifications |
WebhookNotifications | En valfri set av systemmål som notifieras när detta jobb startar, slutförs eller misslyckas. |
notification_settings |
JobNotificationSettings | Valfria meddelandeinställningar som används när du skickar meddelanden till var och en av jobben email_notifications och webhook_notifications för det här jobbet. |
timeout_seconds |
INT32 |
En valfri tidsgräns som tillämpas på varje körning av det här jobbet. Standardbeteendet är att inte ha någon tidsgräns. |
max_retries |
INT32 |
Ett valfritt maximalt antal gånger för att försöka utföra en misslyckad körning igen. En körning anses vara misslyckad om den FAILED slutförs med result_state ellerINTERNAL_ERROR life_cycle_state . Värdet -1 innebär att försöka igen på obestämd tid och värdet 0 innebär att aldrig försöka igen. Standardbeteendet är att aldrig försöka igen. |
min_retry_interval_millis |
INT32 |
Ett valfritt minimalt intervall i millisekunder mellan försök. Standardbeteendet är att misslyckade körningar omedelbart görs om. |
retry_on_timeout |
BOOL |
En valfri princip för att ange om ett jobb ska försöka igen när tidsgränsen uppnås. Standardbeteendet är att inte försöka igen vid tidsgränsen. |
schedule |
CronSchedule | Ett valfritt periodiskt schema för det här jobbet. Standardbeteendet är att jobbet bara körs när det utlöses genom att klicka på "Kör nu" i jobbgränssnittet eller skicka en API-begäran tillrunNow . |
max_concurrent_runs |
INT32 |
Ett valfritt högsta tillåtna antal samtidiga körningar av jobbet. Set det här värdet om du vill kunna köra flera körningar av samma jobb samtidigt. Det här är till exempel användbart om du utlöser jobbet enligt ett frekvent schema och vill tillåta på varandra följande körningar att överlappa, eller om du vill utlösa flera körningar som skiljer sig åt genom sina indata parameters. Den här inställningen påverkar endast nya körningar. Anta till exempel att jobbets samtidighet är 4 och att det finns 4 samtidiga aktiva körningar. Om du sedan ställer in samtidigheten på 3 kommer inte någon av de aktiva körningarna att dödas. Men från och med då hoppas nya körningar över om det inte finns färre än 3 aktiva körningar. Det här värdet får inte överstiga 1 000. Om det här värdet anges till 0 hoppas alla nya körningar över. Standardbeteendet är att endast tillåta 1 samtidig körning. |
health |
JobsHealthRules | En valfri set med hälsoregler som definierats för jobbet. |
JobTask
Fältnamn | Typ | Beskrivning |
---|---|---|
notebook_task ELLER ELLER spark_jar_task spark_python_task ELLER ELLER spark_submit_task pipeline_task OR run_job_task |
NotebookTask ELLER SparkJarTask ELLER SparkPythonTask ELLER SparkSubmitTask ELLER PipelineTask ELLER RunJobTask | Om notebook_task anger att det här jobbet ska köra en notebook-fil. Det här fältet kanske inte anges tillsammans med spark_jar_task. Om spark_jar_task anger att det här jobbet ska köra en JAR-fil. Om spark_python_task anger att det här jobbet ska köra en Python-fil. Om spark_submit_task anger att det här jobbet ska startas av spark-sändningsskriptet. Om pipeline_task är valt, indikerar det att detta jobb ska köra en Delta Live Tables pipeline. Om run_job_task anger att det här jobbet ska köra ett annat jobb. |
JobsHealthRule
Fältnamn | Typ | Beskrivning |
---|---|---|
metric |
STRING |
Anger det hälsomått som utvärderas för en viss hälsoregel. Giltiga values är RUN_DURATION_SECONDS . |
operator |
STRING |
Anger operatorn som används för att jämföra hälsomåttvärdet med det angivna tröskelvärdet. Giltiga values är GREATER_THAN . |
value |
INT32 |
Anger tröskelvärdet som hälsomåttet ska uppfylla för att följa hälsoregeln. |
JobsHealthRules
Fältnamn | Typ | Beskrivning |
---|---|---|
rules |
En matris med JobsHealthRule | En valfri set av hälsoregler som kan definieras för ett jobb. |
Bibliotek
Fältnamn | Typ | Beskrivning |
---|---|---|
jar ELLER ELLER egg ELLER whl pypi ELLER ELLER maven cran |
STRING OR STRING OR OR STRING PYTHONPyPiLibraryOR MavenLibrary OR RCranLibrary |
Om jar, URI för JAR som ska installeras. DBFS- och ADLS-URI:er (abfss ) stöds. Till exempel: { "jar": "dbfs:/mnt/databricks/library.jar" } eller{ "jar": "abfss://<container-path>/library.jar" } . Om ADLS används kontrollerar du att klustret har läsbehörighet i biblioteket.Om ägg, URI av ägget som ska installeras. DBFS- och ADLS-URI:er stöds. Till exempel: { "egg": "dbfs:/my/egg" } eller{ "egg": "abfss://<container-path>/egg" } .Om whl, URI för wheel eller zippad wheels som ska installeras. DBFS- och ADLS-URI:er stöds. Till exempel: { "whl": "dbfs:/my/whl" } eller{ "whl": "abfss://<container-path>/whl" } . Om ADLS används kontrollerar du att klustret har läsbehörighet i biblioteket.
wheel Även filnamnet måste använda rätt konvention. Om zippade wheels ska installeras ska filnamnssuffixet vara .wheelhouse.zip .Om pypi, specifikation av ett PyPI-bibliotek som ska installeras. Det är valfritt att ange fältet repo och om det inte anges används standard-pip-indexet. Till exempel:{ "package": "simplejson", "repo": "https://my-repo.com" } Om maven, specifikation av ett Maven-bibliotek som ska installeras. Till exempel: { "coordinates": "org.jsoup:jsoup:1.7.2" } Om cran, specifikation av ett CRAN-bibliotek som ska installeras. |
MavenLibrary
Fältnamn | Typ | Beskrivning |
---|---|---|
coordinates |
STRING |
Maven-koordinater i Gradle-stil. Exempel: org.jsoup:jsoup:1.7.2 . Fältet är obligatoriskt. |
repo |
STRING |
Maven-lagringsplats för att installera Maven-paketet från. Om det utelämnas genomsöks både Maven Central Repository och Spark Packages. |
exclusions |
En matris med STRING |
List beroenden som ska uteslutas. Exempel: ["slf4j:slf4j", "*:hadoop-client"] .Maven-beroendeundantag: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
NewCluster
Fältnamn | Typ | Beskrivning |
---|---|---|
num_workers OR autoscale |
INT32 ELLER autoskalning |
Om num_workers ska antalet arbetsnoder som klustret ska ha. Ett kluster har en Spark-drivrutin och num_workers köre för totalt num_workers + 1 Spark-noder. Obs! När du läser egenskaperna för ett kluster återspeglar det här fältet önskat antal arbetare i stället för det faktiska aktuella antalet arbetare. Om ett kluster till exempel ändras från 5 till 10 arbetare uppdateras det här fältet omedelbart för att återspegla målstorleken på 10 arbetare, medan de arbetare som anges i spark_info gradvis öka från 5 till 10 när de nya noderna etableras. För autoskalning krävs parameters för att automatiskt skala kluster upp och ned baserat på belastning. |
spark_version |
STRING |
Spark-versionen av klustret. En list av tillgängliga Spark-versioner kan hämtas med hjälp av anropet GET 2.0/clusters/spark-versions. Fältet är obligatoriskt. |
spark_conf |
SparkConfPair | Ett objekt som innehåller en set av valfria, användardefinierade Nyckel/värde-par för Spark-konfiguration. Du kan också skicka in en sträng med extra JVM-alternativ till drivrutinen och körarna viaspark.driver.extraJavaOptions respektive spark.executor.extraJavaOptions .Exempel på Spark-konfigurationer: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
Det här fältet kodar, via ett enda värde, de resurser som är tillgängliga för var och en av Spark-noderna i det här klustret. Spark-noderna kan till exempel etableras och optimeras för minnes- eller beräkningsintensiva arbetsbelastningar. En list av tillgängliga nodtyper kan hämtas med hjälp av GET 2.0/clusters/list-node-types-anrop. Det här fältet, fältet instance_pool_id eller en klusterprincip som anger ett nodtyp-ID eller instanspools-ID krävs. |
driver_node_type_id |
STRING |
Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om det inte anges är drivrutinsnodtypen set som samma värde som node_type_id som definierats ovan. |
custom_tags |
Klustertaggar | Ett objekt som innehåller ett antal set taggar för klusterresurser. Databricks taggar alla klusterresurser (till exempel virtuella datorer) med dessa taggar utöver default_tags. Obs! – Taggar stöds inte på äldre nodtyper som beräkningsoptimerade och minnesoptimerade – Databricks tillåter högst 45 anpassade taggar |
cluster_log_conf |
ClusterLogConf | Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagringsmål. Endast ett mål kan anges för ett kluster. Om konfigurationen anges levereras loggarna till målet varje 5 mins . Målet för drivrutinsloggarna är <destination>/<cluster-id>/driver , medan målet för körloggarna är <destination>/<cluster-id>/executor . |
init_scripts |
En matris med InitScriptInfo | Konfigurationen för lagring av init-skript. Valfritt antal skript kan anges. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf anges skickas init-skriptloggar till<destination>/<cluster-id>/init_scripts . |
spark_env_vars |
SparkEnvPair | Ett objekt som innehåller en set av valfria, användardefinierade nyckel/värde-par för miljövariabler. Nyckel/värde-paret i formuläret (X,Y) exporteras som det är (dvs.export X='Y' ) samtidigt som drivrutinen och arbetstagarna startas.För att ange ytterligare en set av SPARK_DAEMON_JAVA_OPTS rekommenderar vi att du lägger till dem i $SPARK_DAEMON_JAVA_OPTS enligt följande exempel. Detta säkerställer att även alla standarddatabricks-hanterade miljövariabler ingår.Exempel på Spark-miljövariabler: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
enable_elastic_disk |
BOOL |
Lokal lagring med automatisk skalning: när det här klustret är aktiverat hämtar det dynamiskt ytterligare diskutrymme när Spark-arbetarna får ont om diskutrymme. Mer information finns i Aktivera lokal lagring med automatisk skalning. |
driver_instance_pool_id |
STRING |
Det valfria ID för instanspoolen som ska användas för drivrutinsnoden. Du måste också ange instance_pool_id . Mer information finns i API:et för instanspooler. |
instance_pool_id |
STRING |
Det valfria ID för instanspoolen som ska användas för klusternoder. Om driver_instance_pool_id finns,instance_pool_id används endast för arbetsnoder. Annars används den för både drivrutinsnoden och arbetsnoderna. Mer information finns i API:et för instanspooler. |
NotebookOutput
Fältnamn | Typ | Beskrivning |
---|---|---|
result |
STRING |
Värdet som skickades till dbutils.notebook.exit(). Azure Databricks begränsar det här API:et till att returnera de första 1 MB av värdet. För ett större resultat kan ditt jobb lagra resultaten i en molnlagringstjänst. Det här fältet saknas om dbutils.notebook.exit() det aldrig anropades. |
truncated |
BOOLEAN |
Om resultatet trunkerades eller inte. |
NotebookTask
Alla utdataceller är föremål för storleken 8 MB. Om utdata från en cell har en större storlek avbryts resten av körningen och körningen markeras som misslyckad. I så fall kan en del av innehållets utdata från andra celler också saknas.
Om du behöver hjälp med att hitta cellen som ligger utanför limitkör du notebook-filen mot ett kluster för alla syften och använder den här tekniken för automatisk lagring av notebook-filer.
Fältnamn | Typ | Beskrivning |
---|---|---|
notebook_path |
STRING |
Den absoluta sökvägen för anteckningsboken som ska köras på Azure Databricks-arbetsytan. Den här sökvägen måste börja med ett snedstreck. Fältet är obligatoriskt. |
revision_timestamp |
LONG |
Tidsstämpeln för revisionen av notebook-filen. |
base_parameters |
En karta över ParamPair | Bas parameters som ska användas för varje körning av denna uppgift. Om körningen initieras av ett anrop till run-now med parameters angivet, kommer de två parameters mapparna att slås samman. Om samma nyckel anges i base_parameters och i run-now används värdet från run-now .Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. Om en notebook tar en parameter som inte anges i jobbets base_parameters eller åsidosättning run-now av parameters, används standardvärdet från notebooken.Hämta dessa parameters i en anteckningsbok med hjälp av dbutils.widgets.get. |
ParamPair
Namnbaserad parameters för jobb som utför notebook-uppgifter.
Viktigt!
Fälten i den här datastrukturen accepterar endast latinska tecken (ASCII-tecken set). Om du använder icke-ASCII-tecken returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanjis och emojis.
Typ | Beskrivning |
---|---|
STRING |
Parameternamn. Överför till dbutils.widgets.get för att återhämta värdet. |
STRING |
Parametervärde. |
PipelineTask
Fältnamn | Typ | Beskrivning |
---|---|---|
pipeline_id |
STRING |
Det fullständiga namnet på Delta Live Tables-pipelineuppgiftsom ska utföras. |
PythonPyPiLibrary
Fältnamn | Typ | Beskrivning |
---|---|---|
package |
STRING |
Namnet på PyPI-paketet som ska installeras. En valfri exakt versionsspecifikation stöds också. Exempel: simplejson och simplejson==3.8.0 . Fältet är obligatoriskt. |
repo |
STRING |
Förrådet där paketet where kan hittas. Om det inte anges används standard-pip-indexet. |
RCranLibrary
Fältnamn | Typ | Beskrivning |
---|---|---|
package |
STRING |
Namnet på CRAN-paketet som ska installeras. Fältet är obligatoriskt. |
repo |
STRING |
Förrådet där paketet where kan hittas. Om det inte anges används cran-standardlagringsplatsen. |
Springa
All information om en körning förutom dess utdata. Utdata kan hämtas separat med getRunOutput
metoden .
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT64 |
Den kanoniska identifier för jobbet som innehåller den här körningen. |
run_id |
INT64 |
Den kanoniska identifier av körningen. Det här ID:t är unikt för alla körningar av alla jobb. |
creator_user_name |
STRING |
Skaparens användarnamn. Det här fältet tas inte med i svaret om användaren redan har tagits bort. |
number_in_job |
INT64 |
Sekvensnumret för den här körningen bland alla körningar av jobbet. Det här värdet börjar vid 1. |
original_attempt_run_id |
INT64 |
Om den här körningen är ett nytt försök för ett tidigare körningsförsök innehåller det här fältet run_id för det ursprungliga försöket. annars är det samma som run_id. |
state |
RunState | Körningens resultat- och livscykeltillstånd. |
schedule |
CronSchedule | Cron-schemat som utlöste den här körningen om det utlöstes av den periodiska schemaläggaren. |
task |
JobTask | Den uppgift som utförs av körningen, om någon. |
cluster_spec |
ClusterSpec | En ögonblicksbild av jobbets klusterspecifikation när den här körningen skapades. |
cluster_instance |
ClusterInstance | Klustret som används för den här körningen. Om körningen är satt att använda ett nytt kluster blir det här fältet set när tjänsten jobb har begärt ett kluster för denna körning. |
overriding_parameters |
RunParameters | Den parameters som användes för den här körningen. |
start_time |
INT64 |
Den tid då den här körningen startades i epok millisekunder (millisekunder sedan 1/1/1970 UTC). Det här kanske inte är den tidpunkt då jobbaktiviteten börjar köras, till exempel om jobbet är schemalagt att köras i ett nytt kluster, det är den tidpunkt då anropet för att skapa klustret utfärdas. |
setup_duration |
INT64 |
Den tid det tog att set upp klustret i millisekunder. För körningar som körs på nya kluster är detta tiden då klustret skapas, för körningar som körs på befintliga kluster den här gången bör vara mycket kort. |
execution_duration |
INT64 |
Den tid i millisekunder det tog att köra kommandona i JAR-filen eller notebook-filen tills de slutfördes, misslyckades, tog timeout, avbröts eller påträffade ett oväntat fel. |
cleanup_duration |
INT64 |
Den tid i millisekunder det tog att avsluta klustret och rensa eventuella associerade artefakter. Den totala varaktigheten för körningen är summan av setup_duration, execution_duration och cleanup_duration. |
end_time |
INT64 |
Den tid då den här körningen slutade i epok millisekunder (millisekunder sedan 1/1/1970 UTC). Det här fältet kommer att vara set till 0 om jobbet fortfarande pågår. |
trigger |
TriggerType | Typen av utlösare som utlöste den här körningen. |
run_name |
STRING |
Ett valfritt namn för körningen. Standardvärdet är Untitled . Den maximala tillåtna längden är 4 096 byte i UTF-8-kodning. |
run_page_url |
STRING |
URL:en till detaljsidan för körningen. |
run_type |
STRING |
Typ av körning. - JOB_RUN - Normal jobbkörning. En körning som skapats med Kör nu.- WORKFLOW_RUN – Arbetsflödeskörning. En körning som skapats med dbutils.notebook.run.- SUBMIT_RUN – Skicka körning. En körning som skapats med Kör nu. |
attempt_number |
INT32 |
Sekvensnumret för det här körningsförsöket för en utlöst jobbkörning. Det första försöket för en körning har en attempt_number på 0. Om det första körningsförsöket misslyckas och jobbet har en återförsöksprincip (max_retries > 0) skapas efterföljande körningar med ett original_attempt_run_id av det ursprungliga försökets ID och en inkrementell attempt_number . Körningar görs bara på nytt tills de lyckas och maxvärdet attempt_number är detsamma som max_retries värdet för jobbet. |
RunJobTask
Fältnamn | Typ | Beskrivning |
---|---|---|
job_id |
INT32 |
Unikt identifier för jobbet som ska köras. Fältet är obligatoriskt. |
RunLifeCycleState
Livscykeltillståndet för en körning. Tillåtna tillståndsövergångar är:
-
QUEUED
->PENDING
-
PENDING
- -->RUNNING
>TERMINATING
>TERMINATED
-
PENDING
->SKIPPED
-
PENDING
->INTERNAL_ERROR
-
RUNNING
->INTERNAL_ERROR
-
TERMINATING
->INTERNAL_ERROR
Stat/län | Beskrivning |
---|---|
QUEUED |
Körningen har utlösts men har placerats i kö eftersom den har nått någon av följande gränser: – Maximalt antal samtidiga aktiva körningar på arbetsytan. – Den maximala samtidiga Run Job aktiviteten körs på arbetsytan.– Maximalt antal samtidiga körningar av jobbet. Jobbet eller körningen måste ha kö aktiverat innan det kan nå det här tillståndet. |
PENDING |
Körningen har utlösts. Om de konfigurerade maximala samtidiga körningarna av jobbet redan har nåtts övergår körningen omedelbart till SKIPPED tillståndet utan att förbereda några resurser. Annars pågår förberedelsen av klustret och körningen. |
RUNNING |
Uppgiften för den här körningen körs. |
TERMINATING |
Uppgiften för den här körningen har slutförts och kluster- och körningskontexten rensas. |
TERMINATED |
Uppgiften för den här körningen har slutförts och kluster- och körningskontexten har rensats. Det här tillståndet är terminal. |
SKIPPED |
Den här körningen avbröts eftersom en tidigare körning av samma jobb redan var aktiv. Det här tillståndet är terminal. |
INTERNAL_ERROR |
Ett exceptionellt tillstånd som indikerar ett fel i jobbtjänsten, till exempel nätverksfel under en lång period. Om en körning på ett nytt kluster slutar i INTERNAL_ERROR tillståndet avslutar jobbtjänsten klustret så snart som möjligt. Det här tillståndet är terminal. |
RunParameters
Parameters för den här körningen. Endast en av jar_params, python_params
, eller notebook_params ska anges i run-now
begäran, beroende på typen av jobbaktivitet.
Jobb med Spark JAR-uppgifter eller Python-uppgifter tar en list av positionsbaserade parameters, och jobb med anteckningsboksuppgifter använder en nyckelvärdekarta.
Fältnamn | Typ | Beskrivning |
---|---|---|
jar_params |
En matris med STRING |
En list av parameters för jobb med Spark JAR-uppgifter, till exempel "jar_params": ["john doe", "35"] .
parameters används för att anropa huvudfunktionen i huvudklassen som anges i Spark JAR-aktiviteten. Om det inte anges på run-now kommer standardvärdet att vara ett tomt list. jar_params kan inte anges tillsammans med notebook_params. JSON-representationen av det här fältet (dvs. {"jar_params":["john doe","35"]} ) får inte överstiga 10 000 byte.Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. |
notebook_params |
En karta över ParamPair | En karta över nycklar till values för jobb med anteckningsuppgift, t.ex."notebook_params": {"name": "john doe", "age": "35"} . Kartan skickas till anteckningsboken och är tillgänglig via dbutils.widgets.get funktion.Om det inte specificeras vid run-now , använder den utlösta körningen jobbets bas parameters.notebook_params kan inte anges tillsammans med jar_params. Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. JSON-representationen av det här fältet (dvs. {"notebook_params":{"name":"john doe","age":"35"}} ) får inte överstiga 10 000 byte. |
python_params |
En matris med STRING |
En list av parameters för jobb med Pythonuppgifter, exempelvis "python_params": ["john doe", "35"] .
parameters skickas till en Python-fil som kommandoradsargument parameters. Om det anges vid run-now skulle det skriva över parameters som anges i jobbinställningar. JSON-representationen av det här fältet (dvs. {"python_params":["john doe","35"]} ) får inte överstiga 10 000 byte.Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. Dessa parameters endast acceptera latinska tecken (ASCII-tecken set). Om du använder icke-ASCII-tecken returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanjis och emojis. |
spark_submit_params |
En matris med STRING |
En list av parameters för jobbuppgifter med spark submit-task, t.ex."spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] .
parameters skickas till spark-submit-skriptet som kommandoradsparameter parameters. Om det anges vid run-now skulle det skriva över parameters som anges i jobbinställningar. JSON-representationen av det här fältet (dvs. {"python_params":["john doe","35"]} ) får inte överstiga 10 000 byte.Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. Dessa parameters endast acceptera latinska tecken (ASCII-tecken set). Om du använder icke-ASCII-tecken returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanjis och emojis. |
RunResultState
Körningens resultattillstånd.
- Om
life_cycle_state
=TERMINATED
: om körningen hade en aktivitet är resultatet garanterat tillgängligt och anger resultatet av aktiviteten. - Om
life_cycle_state
=PENDING
,RUNNING
, ellerSKIPPED
, är resultattillståndet inte tillgängligt. - If
life_cycle_state
=TERMINATING
eller lifecyclestate =INTERNAL_ERROR
: resultattillståndet är tillgängligt om körningen hade en uppgift och lyckades starta den.
När det är tillgängligt ändras aldrig resultattillståndet.
Stat/län | Beskrivning |
---|---|
SUCCESS |
Uppgiften har slutförts. |
FAILED |
Uppgiften slutfördes med ett fel. |
TIMEDOUT |
Körningen stoppades efter att tidsgränsen nåtts. |
CANCELED |
Körningen avbröts på användarbegäran. |
RunState
Fältnamn | Typ | Beskrivning |
---|---|---|
life_cycle_state |
RunLifeCycleState | En beskrivning av en körnings aktuella plats i körningslivscykeln. Det här fältet är alltid tillgängligt i svaret. |
result_state |
RunResultState | Resultattillståndet för en körning. Om det inte är tillgängligt inkluderar svaret inte det här fältet. Mer information om tillgängligheten för result_state finns i RunResultState . |
user_cancelled_or_timedout |
BOOLEAN |
Om en körning avbröts manuellt av en användare eller av schemaläggaren på grund av tidsgränsen för körningen. |
state_message |
STRING |
Ett beskrivande meddelande för det aktuella tillståndet. Det här fältet är ostrukturerat och det exakta formatet kan komma att ändras. |
SparkConfPair
Nyckel/värde-par för Spark-konfiguration.
Typ | Beskrivning |
---|---|
STRING |
Ett namn på konfigurationsegenskapen. |
STRING |
Värdet för konfigurationsegenskapen. |
SparkEnvPair
Nyckel/värde-par för Spark-miljövariabel.
Viktigt!
När du anger miljövariabler i ett jobbkluster accepterar fälten i den här datastrukturen endast latinska tecken (ASCII-tecken set). Om du använder icke-ASCII-tecken returneras ett fel. Exempel på ogiltiga, icke-ASCII-tecken är kinesiska, japanska kanjis och emojis.
Typ | Beskrivning |
---|---|
STRING |
Ett miljövariabelnamn. |
STRING |
Miljövariabelvärdet. |
SparkJarTask
Fältnamn | Typ | Beskrivning |
---|---|---|
jar_uri |
STRING |
Inaktuell sedan 04/2016. Ange ett jar via fältet libraries i stället. Ett exempel finns i Skapa. |
main_class_name |
STRING |
Det fullständiga namnet på klassen som innehåller huvudmetoden som ska köras. Den här klassen måste finnas i en JAR som tillhandahålls som ett bibliotek. Koden ska använda SparkContext.getOrCreate för att hämta en Spark-kontext. Annars misslyckas körningen av jobbet. |
parameters |
En matris med STRING |
Parameters skickas till huvudmetoden. Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. |
SparkPythonTask
Fältnamn | Typ | Beskrivning |
---|---|---|
python_file |
STRING |
URI:n för Python-filen som ska köras. DBFS-sökvägar stöds. Fältet är obligatoriskt. |
parameters |
En matris med STRING |
Kommandoraden parameters skickas till Python-filen. Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. |
SparkSubmitTask
Viktigt!
- Du kan bara anropa Spark-skicka uppgifter i nya kluster.
- I specifikationen
libraries
new_cluster ochspark_conf
stöds inte. Använd i stället--jars
och--py-files
för att lägga till Java- och Python-bibliotek och--conf
för att set Spark-konfigurationen. -
master
,deploy-mode
ochexecutor-cores
konfigureras automatiskt av Azure Databricks. du kan inte ange dem i parameters. - Som standard använder Spark-sändningsjobbet allt tillgängligt minne (exklusive reserverat minne för Azure Databricks-tjänster). Du kan set,
--driver-memory
och--executor-memory
till ett mindre värde för att lämna utrymme för användning utanför heap-minnet. - Argumenten
--jars
,--py-files
,--files
stöder DBFS-sökvägar.
Om du till exempel antar att JAR-filen har laddats upp till DBFS kan du köra SparkPi
genom att ange följande parameters.
{
"parameters": [
"--class",
"org.apache.spark.examples.SparkPi",
"dbfs:/path/to/examples.jar",
"10"
]
}
Fältnamn | Typ | Beskrivning |
---|---|---|
parameters |
En matris med STRING |
Kommandoradspost parameters skickades till Spark submit. Använd Vad är en referens för dynamiskt värde? till setparameters som innehåller information om jobbkörningar. |
TriggerType
Det här är den typ av utlösare som kan utlösa en körning.
Typ | Beskrivning |
---|---|
PERIODIC |
Scheman som regelbundet utlöser körningar, till exempel en cron-schemaläggare. |
ONE_TIME |
En gång utlöses som utlöser en enda körning. Detta inträffar när du utlöste en enda körning på begäran via användargränssnittet eller API:et. |
RETRY |
Anger en körning som utlöses som ett nytt försök av en tidigare misslyckad körning. Detta inträffar när du begär att köra jobbet igen om det uppstår fel. |
ViewItem
Det exporterade innehållet är i HTML-format. Om vyn som ska exporteras till exempel är instrumentpaneler returneras en HTML-sträng för varje instrumentpanel.
Fältnamn | Typ | Beskrivning |
---|---|---|
content |
STRING |
Innehållet i vyn. |
name |
STRING |
Namnet på visningsobjektet. När det gäller kodvyn, anteckningsbokens namn. När det gäller instrumentpanelsvyn är instrumentpanelens namn. |
type |
ViewType | Typ av visningsobjekt. |
ViewType
Typ | Beskrivning |
---|---|
NOTEBOOK |
Objekt för anteckningsboksvy. |
DASHBOARD |
Objekt för instrumentpanelsvy. |
ViewsToExport
Visa för export: antingen kod, alla instrumentpaneler eller alla.
Typ | Beskrivning |
---|---|
CODE |
Kodvy för notebook-filen. |
DASHBOARDS |
Instrumentpanel views i datorn. |
ALL |
Alla views i anteckningsboken. |
Webhook
Fältnamn | Typ | Beskrivning |
---|---|---|
id |
STRING |
Identifier refererar till en destination för systemmeddelanden. Fältet är obligatoriskt. |
WebhookNotifications
Fältnamn | Typ | Beskrivning |
---|---|---|
on_start |
En matris med Webhook | En valfri list lista över systemdestinationer som ska informeras när en process startar. Om det inte anges när jobbet skapas är reset, eller update, list tom och meddelanden skickas inte. Högst 3 mål kan anges för egenskapen on_start . |
on_success |
En matris med Webhook | En valfri list av systemdestinationer som ska meddelas när en körning har slutförts framgångsrikt. En körning anses ha slutförts om den slutar med en TERMINATED och en life_cycle_state SUCCESSFUL .result_state Om det inte anges när jobbet skapas är reset, eller update, list tom och meddelanden skickas inte. Högst 3 mål kan anges för egenskapen on_success . |
on_failure |
En matris med Webhook | En valfri list av systemmål som ska meddelas när en körning slutförs utan framgång. En körning anses ha slutförts utan framgång om den slutar med en INTERNAL_ERROR life_cycle_state eller en SKIPPED , FAILED , eller TIMED_OUT result_state . Om detta inte anges när jobbet skapas reseteller updatelist är tom och meddelanden skickas inte. Högst 3 mål kan anges för egenskapen on_failure . |
on_duration_warning_threshold_exceeded |
En matris med Webhook | Ett valfritt list av systemmål som ska meddelas när varaktigheten för en körning överskrider det tröskelvärde som anges för metriska måttet RUN_DURATION_SECONDS i fältet health . Högst 3 mål kan anges för egenskapen on_duration_warning_threshold_exceeded . |
ArbetsytaStorageInfo
Lagringsinformation för arbetsyta.
Fältnamn | Typ | Beskrivning |
---|---|---|
destination |
STRING |
Fildestination. Exempel: /Users/someone@domain.com/init_script.sh |