Referens för poolkonfiguration
I den här artikeln beskrivs de tillgängliga inställningarna när du skapar en pool med hjälp av användargränssnittet. Information om hur du använder Databricks CLI för att skapa en pool finns i Databricks CLI-kommandon. Information om hur du använder REST-API:et för att skapa en pool finns i API:et för instanspooler.
Kommentar
Om din arbetsbelastning stöder serverlös beräkning rekommenderar Databricks att du använder serverlös beräkning i stället för pooler för att dra nytta av alltid på, skalbar beräkning. Se Ansluta till serverlös beräkning.
Poolstorlek
När du skapar en pool kan du ange tre parametrar för att kontrollera dess storlek: minsta inaktiva instanser, maximal kapacitet och automatisk avslutning av instanser för inaktiv instans.
Minsta inaktiva instanser
Det minsta antalet instanser som poolen håller inaktiv. Dessa instanser avslutas inte, oavsett inställningarna för automatisk avslutning. Om ett kluster använder inaktiva instanser från poolen etablerar Azure Databricks ytterligare instanser för att upprätthålla minimivärdet.
Maxkapacitet
Det maximala antalet instanser som poolen kan etablera. Om värdet anges begränsar det här värdet alla instanser (inaktiva + används). Om ett kluster som använder poolen begär fler instanser än det här talet under autoskalning misslyckas begäran med ett INSTANCE_POOL_MAX_CAPACITY_FAILURE
fel.
Den här konfigurationen är valfri. Azure Databricks rekommenderar att du endast anger ett värde under följande omständigheter:
- Du har en instanskvot som du måste hålla dig under.
- Du vill skydda en uppsättning arbete från att påverka en annan uppsättning arbete. Anta till exempel att din instanskvot är 100 och att du har team A och B som behöver köra jobb. Du kan skapa pool A med max 50 och pool B med högst 50 så att de två teamen delar 100-kvoten rättvist.
- Du måste begränsa kostnaden.
Automatisk avslutning av inaktiv instans
Tiden i minuter över det värde som anges i Minsta inaktiva instanser som instanser kan vara inaktiva innan de avslutas av poolen.
Instanstyper
En pool består av både inaktiva instanser som hålls redo för nya kluster och instanser som används av kluster som körs. Alla dessa instanser är av samma instansprovidertyp som väljs när du skapar en pool.
Det går inte att redigera en pools instanstyp. Kluster som är kopplade till en pool använder samma instanstyp för drivrutins- och arbetsnoderna. Olika typer av instanstyper passar olika användningsfall, till exempel minnesintensiva eller beräkningsintensiva arbetsbelastningar.
Azure Databricks tillhandahåller alltid ett års utfasningsmeddelande innan stödet för en instanstyp upphör.
Kommentar
Om dina säkerhetskrav omfattar beräkningsisolering väljer du en Standard_F72s_V2 instans som arbetstyp. Dessa instanstyper representerar isolerade virtuella datorer som använder hela den fysiska värden och tillhandahåller den isoleringsnivå som krävs för att stödja till exempel IL5-arbetsbelastningar (US Department of Defense Impact Level 5).
Förinstallerad Databricks Runtime-version
Du kan påskynda klusterstarter genom att välja en Databricks Runtime-version som ska läsas in på inaktiva instanser i poolen. Om en användare väljer den körningen när de skapar ett kluster som backas upp av poolen startas klustret ännu snabbare än ett poolbaserat kluster som inte använder en förinstallerad Databricks Runtime-version.
Om du ställer in det här alternativet på Ingen fördröjs klusterstarter, eftersom databricks Runtime-versionen laddas ned på begäran till inaktiva instanser i poolen. När klustret släpper instanserna i poolen förblir Databricks Runtime-versionen cachelagrad på dessa instanser. Nästa klusterskapandeåtgärd som använder samma Databricks Runtime-version kan dra nytta av det här cachelagringsbeteendet, men det är inte garanterat.
Förinstallerad Docker-avbildning
Docker-avbildningar stöds med pooler om du använder API:et för instanspooler för att skapa poolen.
Pooltaggar
Med pooltaggar kan du enkelt övervaka kostnaden för molnresurser som används av olika grupper i din organisation. Du kan ange taggar som nyckel/värde-par när du skapar en pool, och Azure Databricks tillämpar dessa taggar på molnresurser som virtuella datorer och diskvolymer samt DBU-användningsrapporter.
För enkelhetens skull tillämpar Azure Databricks tre standardtaggar på varje pool: Vendor
, DatabricksInstancePoolId
och DatabricksInstancePoolCreatorId
. Du kan också lägga till anpassade taggar när du skapar en pool. Du kan lägga till upp till 41 anpassade taggar.
Anpassade taggar
Om du vill lägga till ytterligare taggar i poolen går du till fliken Flikar längst ned på sidan Skapa pool . Klicka på knappen + Lägg till och ange sedan nyckel/värde-paret.
Poolstödda kluster ärver standard- och anpassade taggar från poolkonfigurationen. Detaljerad information om hur pooltaggar och klustertaggar fungerar tillsammans finns i Övervaka användning med hjälp av taggar.
Automatisk skalning av lokal lagring
Det kan ofta vara svårt att uppskatta hur mycket diskutrymme ett visst jobb tar. För att spara dig från att behöva uppskatta hur många gigabyte hanterad disk som ska anslutas till poolen vid skapandetillfället aktiverar Azure Databricks automatiskt automatisk skalning av lokal lagring på alla Azure Databricks-pooler.
Med lokal lagring med automatisk skalning övervakar Azure Databricks mängden ledigt diskutrymme som är tillgängligt på poolens instanser. Om en instans körs för lågt på disken ansluts en ny hanterad disk automatiskt innan diskutrymmet tar slut. Diskar är anslutna till en gräns på 5 TB totalt diskutrymme per virtuell dator (inklusive den virtuella datorns ursprungliga lokala lagring).
De hanterade diskar som är anslutna till en virtuell dator kopplas endast från när den virtuella datorn returneras till Azure. Hanterade diskar kopplas alltså aldrig från en virtuell dator så länge de ingår i en pool.
Oanvända instanser
Om du vill spara kostnader kan du välja att använda instanser av oanvänd kapacitet genom att kontrollera alternativknappen Alla oanvänd kapacitet .
Kluster i poolen startas med spotinstanser för alla noder, drivrutin och arbetare (i motsats till hybriddrivrutinen på begäran och instansarbetare för oanvänd kapacitet för kluster som inte är pooler).
Om spotinstanser avlägsnas på grund av otillgänglighet ersätter inte instanser på begäran borttagna instanser.