佈建輸送量中的每秒權杖範圍有何含義？

發行項
12/27/2024

本文說明 Databricks 如何及為何針對基礎模型 API 的布建輸送量工作負載測量每秒的令牌。

大型語言模型（LLM）的效能通常以每秒的令牌來測量。設定提供端點的生產模型時，請務必考慮應用程式傳送至端點的要求數目。這樣做可協助您瞭解端點是否需要設定為調整規模，以免影響延遲。

為部署已布建輸送量的端點設定向外延展範圍時，Databricks 發現使用令牌進入系統的輸入比較容易。

什麼是令牌？

LLM 會以所謂的令牌來讀取和 generate 文字。令牌可以是單字或子字，而將文字分割成標記的確切規則會因模型而異。例如，您可以使用在線工具來查看 Llama 的 Tokenizer 如何將單字轉換成令牌。

為何以每秒令牌的方式測量 LLM 效能？

傳統上，服務端點是根據每秒並行要求數目（RPS）來設定。不過，LLM 推斷要求會根據傳入的令牌數目和產生多少令牌，而可能需要不同的時間，這在要求之間可能會不平衡。因此，決定您的端點需要相應放大多少，需要根據要求的內容來測量端點規模 - 令牌。

不同的使用案例具有不同的輸入和輸出權杖比例：

輸入內容的不同長度：雖然有些要求可能只牽涉到幾個輸入令牌，例如簡短的問題，但有些要求可能會牽涉到數百個甚至數千個令牌，例如摘要的長檔。這種變化使得僅根據 RPS 挑戰來設定服務端點，因為它不會考慮不同要求的不同處理需求。
視使用案例而定，輸出長度不同：LLM 的不同使用案例可能會導致截然不同的輸出令牌長度。產生輸出令牌是 LLM 推斷中最耗費時間的部分，因此這可能會大幅影響輸送量。例如，摘要涉及較短的 pithier 回應，但文字產生，例如撰寫文章或產品描述，可以 generate 更長的答案。

如何 select 端點的每秒令牌範圍？

布建的輸送量服務端點會根據每秒可傳送至端點的令牌範圍來設定。端點會相應增加和減少，以處理生產應用程式的負載。您每小時會根據端點調整為的令牌範圍，以每小時計費。

瞭解布建輸送量端點上每秒哪些令牌範圍最適合您的使用案例，就是使用代表性數據集執行負載測試。請參閱進行您自己的 LLM 端點基準檢驗。

需要考慮兩個重要因素：

Databricks 如何測量 LLM 每秒的令牌效能

Databricks 會針對代表擷取增強產生使用案例時常見的摘要工作工作負載，對端點進行基準檢驗。具體而言，工作負載包含：
- 2048 輸入令牌
- 256 個輸出令牌
顯示的令牌範圍會結合 輸入和輸出令牌輸送量，而且根據預設，optimize 來平衡輸送量和延遲。

Databricks 基準檢驗，使用者可以以每個要求 1 的批次大小同時將每秒許多令牌傳送至端點。這會模擬多個同時叫用端點的要求，這更準確地表示您在生產環境中實際使用端點的方式。
自動調整的運作方式

模型服務具有快速自動調整系統，可調整基礎計算，以符合應用程式每秒的令牌需求。 Databricks 會以每秒令牌區塊的方式相應增加布建的輸送量，因此只有在您使用布建輸送量時，才會向您收取額外的布建輸送量費用。