次の方法で共有


ai_summarize 関数

適用対象:「はい」のチェック マーク Databricks SQL 「はい」のチェック マーク Databricks Runtime

重要

この機能はパブリック プレビュー段階にあります。

このプレビューでは:

  • 基になる言語モデルでは複数の言語を処理できますが、これらの関数は英語用にチューニングされています。
  • 基になる Foundation Model API にはレート制限があります。 これらの制限を更新するには、「Foundation Model API の制限」を参照してください。
  • レート制限のため、この関数は 100 行未満の小さなデータセットでテストするように設計されています。 データが 100 行を超えるユース ケースの場合、Databricks では、ai_query とプロビジョニングされたスループット エンドポイントの使用をお勧めします。 ai_queryを使用したバッチ LLM 推論の実行を参照してください。

ai_summarize() 関数を使うと、最先端の生成 AI モデルを呼び出し、SQL を使って特定のテキストの概要を生成できます。 この関数では、Databricks Foundation Model API によって利用できるチャット モデル提供エンドポイントを使います。

要件

重要

現時点で使用できる基になるモデルは、 Apache 2.0 ライセンス、Copyright © The Apache Software Foundation または LLAMA 3.1 Community License Copyright © Meta Platforms, Inc. に基づきライセンスされます。すべての権限が予約されています。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

Databricks では、該当する使用条件に準拠するために、これらのライセンスを確認することをお勧めしています。 Databricks の内部ベンチマークに従ってパフォーマンスが向上するモデルが将来出現した場合、Databricks によってモデルが変更される可能性があります (および、このページで提供されている該当するライセンスの一覧)。

現在、 Meta-Llama-3.1-70B-Instruct はこれらの AI 関数を実行する基になるモデルです。

Note

Databricks Runtime 15.1 以上では、この関数は Databricks ノートブック内でサポートされ、これには Databricks ワークフロー内でタスクとして実行されるノートブックも含まれます。

構文

ai_summarize(content[, max_words])

引数

  • content: STRING 式、要約するテキスト。
  • max_words: 返される要約テキスト内のベスト エフォート目標の単語数を表す、省略可能な負ではない整数式。 既定値は 50 です。 0 に設定すると、単語数の制限はありません。

返品

STRING です。

contentNULL の場合、結果は NULL です。

> SELECT ai_summarize(
    'Apache Spark is a unified analytics engine for large-scale data processing. ' ||
    'It provides high-level APIs in Java, Scala, Python and R, and an optimized ' ||
    'engine that supports general execution graphs. It also supports a rich set ' ||
    'of higher-level tools including Spark SQL for SQL and structured data ' ||
    'processing, pandas API on Spark for pandas workloads, MLlib for machine ' ||
    'learning, GraphX for graph processing, and Structured Streaming for incremental ' ||
    'computation and stream processing.',
    20
  );
 "Apache Spark is a unified, multi-language analytics engine for large-scale data processing
 with additional tools for SQL, machine learning, graph processing, and stream computing."