Compartir a través de


Referencia técnica del algoritmo Bayes naive de Microsoft

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación proporcionado por Microsoft SQL Server SQL Server Analysis Services para su uso en el modelado predictivo. Este algoritmo calcula la probabilidad condicional entre columnas de entrada y de predicción y supone que las columnas son independientes. Esta suposición de independencia conduce al nombre Bayes naive.

Implementación del algoritmo Bayes naive de Microsoft

Este algoritmo es menos intenso desde el punto de vista computacional que otros algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería de datos para detectar relaciones entre columnas de entrada y columnas predecibles. El algoritmo considera cada par de valores de atributos de entrada y de atributos de salida.

La descripción de las propiedades matemáticas del Teorema de Bayes queda fuera del ámbito de esta documentación; para obtener más información, vea el documento de Microsoft Research titulado Redes bayesianas: la combinación de conocimiento y datos estadísticos.

Para obtener una descripción de cómo se ajustan las probabilidades de todos los modelos para tener en cuenta los posibles valores que faltan, vea Valores que faltan (Analysis Services - Minería de datos).

Selección de características

El algoritmo Bayes naive de Microsoft realiza la selección automática de características para limitar el número de valores que se tienen en cuenta al compilar el modelo. Para obtener más información, vea Selección de características (minería de datos).

Algoritmo Método de análisis Comentarios
Bayes naive Entropía de Shannon

Bayesiano con prioridad K2

Dirichlet bayesiano con prioridad uniforme (predeterminado)
Bayes naive solo acepta atributos discretos o de datos discretos, por lo que no puede utilizar la puntuación de grado de interés.

El algoritmo está diseñado para reducir al mínimo el tiempo de proceso y seleccionar eficazmente los atributos que tienen la importancia máxima; sin embargo, puede controlar los datos que el algoritmo utiliza estableciendo los parámetros como se indica a continuación:

  • Para limitar los valores que se utilizan como entradas, disminuya el valor de MAXIMUM_INPUT_ATTRIBUTES.

  • Para limitar el número de atributos analizados por el modelo, disminuya el valor de MAXIMUM_OUTPUT_ATTRIBUTES.

  • Para limitar el número de valores que pueden considerarse para cualquier un atributo, disminuya el valor de MINIMUM_STATES.

Personalizar el algoritmo Bayes naive

El algoritmo Bayes naive de Microsoft admite varios parámetros que afectan al comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. También puede establecer marcas de modelado en las columnas de modelo para controlar cómo se procesan los datos, o establecer marcas en la estructura de minería de datos para especificar cómo se deberían administrar los valores nulos o que faltan.

Establecer parámetros del algoritmo

El algoritmo Bayes naive de Microsoft admite varios parámetros que afectan al rendimiento y la precisión del modelo de minería de datos resultante. Estos parámetros se describen en la tabla siguiente.

MAXIMUM_INPUT_ATTRIBUTES
Especifica el número máximo de atributos de entrada que el algoritmo puede procesar antes de invocar la selección de características. La función de selección de atributos de entrada se deshabilita cuando este valor se establece en 0.

El valor predeterminado es 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Especifica el número máximo de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. La característica de selección de atributos de salida se deshabilita cuando este valor se establece en 0.

El valor predeterminado es 255.

MINIMUM_DEPENDENCY_PROBABILITY
Especifica la probabilidad de dependencia mínima entre los atributos de entrada y salida. Este valor se utiliza para limitar el tamaño del contenido generado por el algoritmo. El valor de esta propiedad puede establecerse en un valor comprendido entre 0 y 1. Los valores mayores reducen el número de atributos en el contenido del modelo.

El valor predeterminado es 0,5.

MAXIMUM_STATES
Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo usa los estados más populares del atributo y trata los estados restantes como ausentes.

El valor predeterminado es 100.

Marcas de modelado

El algoritmo de árboles de decisión de Microsoft admite las siguientes marcas de modelado. Al crear la estructura o el modelo de minería de datos, se definen las marcas de modelado que especifican cómo se tratan los valores de cada columna durante el análisis. Para obtener más información, vea Modeling Flags (Data Mining) (Marcas de modelado [minería de datos]).

Marca de modelado Descripción
MODEL_EXISTENCE_ONLY Significa que la columna se tratará como si tuviera dos estados posibles: ausente y existente. Un valor NULL es un valor ausente.

Se aplica a la columna del modelo de minería de datos.
NOT NULL Indica que la columna no puede contener un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL durante el entrenamiento del modelo.

Se aplica a la columna de la estructura de minería de datos.

Requisitos

Un modelo de árbol de Bayes naive debe contener una columna de clave, al menos un atributo de predicción y al menos un atributo de entrada. Ningún atributo puede ser continuo; si los datos contienen datos numéricos continuos, se omitirán o se convertirán en discretos.

Columnas de entrada y de predicción

El algoritmo Bayes naive de Microsoft admite las columnas de entrada específicas y las columnas de predicción que se enumeran en la tabla siguiente. Para obtener más información sobre lo que significan los tipos de contenido cuando se usan en un modelo de minería de datos, vea Tipos de contenido (minería de datos).

Columna Tipos de contenido
Atributo de entrada Cíclico, discreto, discretizado, clave, tabla y ordenado
Atributo de predicción Cíclico, discreto, discretizado, tabla y ordenado

Nota:

Se admiten los tipos de contenido Cyclical y Ordered, pero el algoritmo los trata como valores discretos y no realiza un procesamiento especial.

Consulte también

Microsoft Naive Bayes Algorithm
Ejemplos de consultas del modelo Bayes naive
Contenido del modelo de minería de datos para los modelos Bayes naive (Analysis Services - Minería de datos)