XGBoost

Plantilla:Ficha de software

XGBoost ^[1] (eXtreme Gradient Boosting) es una biblioteca de software de código abierto que proporciona un marco de regularización de potenciación de gradiente para C++, Java, Python,^[2] R,^[3] Julia,^[4] Perl,^[5] y Scala. . Funciona en Linux, Microsoft Windows,^[6] y macOS.^[7] El propósito del proyecto es ofrecer una biblioteca distribuida, portátil y escalable para potenciación de gradiente. Esta biblioteca puede operar tanto en una única máquina como en entornos de procesamiento distribuido Apache Hadoop, Apache Spark, Apache Flink y Dask.^[8]^[9]

A mediados de la década de 2010, XGBoost ganó mucha popularidad y atención al ser el algoritmo elegido por una gran cantidad de equipos ganadores de competiciones de aprendizaje automático.^[10]

Historia

XGBoost comenzó inicialmente como un proyecto de investigación de Tianqi Chen ^[11] como parte del grupo Distributed (Deep) Machine Learning Community (DMLC). Se hizo muy conocido en los círculos de competencia de ML después de su uso en la solución ganadora del Higgs Machine Learning Challenge . Poco después, se crearon los paquetes Python y R, y XGBoost ahora tiene implementaciones de paquetes para Java, Scala, Julia, Perl y otros lenguajes. Esto permitió un mayor alcance de la biblioteca, atrayendo a más usuarios y contribuyendo a su creciente popularidad en la comunidad de Kaggle, donde ha sido empleada en numerosas competiciones.^[10]

Rápidamente se integró con otros paquetes, lo que facilitó su uso en sus respectivas comunidades. Ahora se ha integrado con scikit-learn para usuarios de Python y con el paquete caret para usuarios de R. También se puede integrar en marcos de Data Flow como Apache Spark, Apache Hadoop y Apache Flink utilizando Rabit ^[12] y XGBoost4J resumidos.^[13] XGBoost también está disponible en OpenCL para FPGA.^[14]

Aunque el modelo XGBoost suele alcanzar una precisión superior a la de un solo árbol de decisión, esto se logra a expensas de la capacidad de interpretación intrínseca de los árboles individuales. Mientras que seguir el camino de un árbol de decisión para comprender su decisión es relativamente sencillo y autoexplicativo, hacer lo mismo para cientos o miles de árboles resulta considerablemente más complejo.

Características

Características destacadas de XGBoost que lo diferencian de otros algoritmos de potenciación de gradiente incluyen:^[15]^[16]^[17]

Penalización inteligente de árboles
Reducción proporcional de nodos hoja
Potenciación de Newton
Parámetro adicional de aleatorización
Implementación en sistemas individuales y distribuidos, y cálculo fuera de línea
Selección automática de características
Esbozo ponderado de cuantiles justificado teóricamente para cálculos eficientes
Impulso de estructura de árbol paralelo con esparsidad
Estructura de bloques caché eficiente para el entrenamiento de árboles de decisión

El algoritmo

XGBoost funciona mediante una aproximación de Taylor de segundo orden en la función de pérdida para establecer la conexión con el método de Newton Raphson.

Un algoritmo XGBoost genérico no regularizado es:Plantilla:Framebox Entradas: conjunto de entrenamiento ${(x_{i}, y_{i})}_{i = 1}^{N}$ , una función de pérdida diferenciable $L (y, F (x))$ , un número de modelos de aprendizaje débiles $M$ y una tasa de aprendizaje $α$ .

Algoritmo:

Inicializar modelo con un valor constante: ${\hat{f}}_{(0)} (x) = \underset{θ}{\arg \min} \sum_{i = 1}^{N} L (y_{i}, θ) .$
Para Plantilla:Mvar = 1 hasta Plantilla:Mvar:
1. Calcular los 'gradientes' y los 'hessianos': $\begin{matrix} {\hat{g}}_{m} (x_{i}) & = {[\frac{\partial L (y_{i}, f (x_{i}))}{\partial f (x_{i})}]}_{f (x) = {\hat{f}}_{(m - 1)} (x)} . \\ {\hat{h}}_{m} (x_{i}) & = {[\frac{\partial^{2} L (y_{i}, f (x_{i}))}{\partial f (x_{i})^{2}}]}_{f (x) = {\hat{f}}_{(m - 1)} (x)} . \end{matrix}$
2. Ajustar un modelo base (o un modelo de aprendizaje débil, como un árbol) utilizando el conjunto de entrenamiento ${x_{i}, - \frac{{\hat{g}}_{m} (x_{i})}{{\hat{h}}_{m} (x_{i})}}_{i = 1}^{N}$ resolviendo el problema de optimización a continuación: ${\hat{ϕ}}_{m} = \underset{ϕ \in Φ}{\arg \min} \sum_{i = 1}^{N} \frac{1}{2} {\hat{h}}_{m} (x_{i}) {[ϕ (x_{i}) - \frac{{\hat{g}}_{m} (x_{i})}{{\hat{h}}_{m} (x_{i})}]}^{2} .$ ${\hat{f}}_{m} (x) = α {\hat{ϕ}}_{m} (x) .$
3. Actualizar el modelo: ${\hat{f}}_{(m)} (x) = {\hat{f}}_{(m - 1)} (x) + {\hat{f}}_{m} (x) .$
Salida $\hat{f} (x) = {\hat{f}}_{(M)} (x) = \sum_{m = 0}^{M} {\hat{f}}_{m} (x) .$

Plantilla:Frame-footer

Aplicaciones de XGBoost

XGBoost es apto para el manejo de relaciones no lineales y su poder predictivo es bueno. Esto lo vuelve un algoritmo eficaz para aplicar a los datos del mercado financiero.^[18]

Referencias

Plantilla:Listaref

Plantilla:Control de autoridades

[source-code-1] Plantilla:Cita web

[xgboost-python-2] Plantilla:Cita web

[xgboost-cran-3] Plantilla:Cita web

[xgboost-julia-4] Plantilla:Cita web

[xgboost-perl-5] Plantilla:Cita web

[xgboost-windows-6] Plantilla:Cita web

[xgboost-macos-7] Plantilla:Cita web

[Dask-docs-8] Plantilla:Cita web

[9] Plantilla:Cita web

[xgboost-competition-winners-10] 10,0 ^10,1 Plantilla:Cita web

[history-11] Plantilla:Cita web

[rabit-12] Plantilla:Cita web

[xgboost4j-13] Plantilla:Cita web

[xgboost_FPGA-14] Plantilla:Cita web

[15] Plantilla:Cita web

[16] Plantilla:Cita web

[17] Plantilla:Cita web

[18] Plantilla:Cita web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

XGBoost

Sumario

Historia

Características

El algoritmo

Aplicaciones de XGBoost

Referencias

Menú de navegación

XGBoost

Historia

Características

El algoritmo

Aplicaciones de XGBoost

Referencias

Menú de navegación

Buscar