Saltar al contenido

¿Qué es el error fuera de bolsa en Random Forests?

Solución:

Intentaré explicar:

Suponga que nuestro conjunto de datos de entrenamiento está representado por T y suponga que el conjunto de datos tiene M características (o atributos o variables).

T = {(X1,y1), (X2,y2), ... (Xn, yn)}

y

Xi is input vector {xi1, xi2, ... xiM}

yi is the label (or output or class). 

resumen de RF:

El algoritmo Random Forest es un clasificador basado principalmente en dos métodos:

  • Harpillera
  • Método subespacial aleatorio.

Supongamos que decidimos tener S número de árboles en nuestro bosque, primero creamos S conjuntos de datos de "same size as original" creado a partir del remuestreo aleatorio de datos en T con reemplazo (n veces para cada conjunto de datos). Esto resultará en {T1, T2, ... TS} conjuntos de datos. Cada uno de estos se denomina conjunto de datos de arranque. Debido a “con reemplazo” cada conjunto de datos Ti puede tener registros de datos duplicados y a Ti pueden faltar varios registros de datos de los conjuntos de datos originales. Se llama Bootstrapping. (en.wikipedia.org/wiki/Bootstrapping_(statistics))

El empaquetamiento es el proceso de tomar bootstraps y luego agregar los modelos aprendidos en cada bootstrap.

Ahora, RF crea S árboles y usos m (=sqrt(M) or =floor(lnM+1)) subcaracterísticas aleatorias de M posibles características para crear cualquier árbol. Esto se llama método subespacial aleatorio.

Entonces para cada Ti conjunto de datos de arranque creas un árbol Ki. Si desea clasificar algunos datos de entrada D = {x1, x2, ..., xM} lo dejas pasar por cada árbol y produce S salidas (una para cada árbol) que se pueden denotar por Y = {y1, y2, ..., ys}. La predicción final es un voto mayoritario en este conjunto.

Error fuera de la bolsa:

Después de crear los clasificadores (S árboles), para cada (Xi,yi) en el conjunto de entrenamiento original, es decir T, seleccionar todo Tk que no incluye (Xi,yi). Este subconjunto, preste atención, es un conjunto de conjuntos de datos de boostrap que no contiene un registro particular del conjunto de datos original. Este conjunto se denomina ejemplos fuera de bolsa. Existen n dichos subconjuntos (uno para cada registro de datos en el conjunto de datos original T). El clasificador OOB es la suma de votos ÚNICAMENTE sobre Tk tal que no contenga (xi,yi).

La estimación fuera de bolsa para el error de generalización es la tasa de error del clasificador fuera de bolsa en el conjunto de entrenamiento (compárelo con yi‘s).

¿Por qué es importante?

El estudio de estimaciones de error para clasificadores embolsados ​​en Breiman
[1996b], proporciona evidencia empírica para demostrar que la estimación fuera de bolsa es tan precisa como usar un conjunto de prueba del mismo tamaño que el conjunto de entrenamiento. Por lo tanto, el uso de la estimación del error fuera de la bolsa elimina la necesidad de reservar un equipo de prueba.1

(Gracias @Rudolf por las correcciones. Sus comentarios a continuación).

En la implementación original de Breiman del algoritmo de bosque aleatorio, cada árbol se entrena en aproximadamente 2/3 de los datos de entrenamiento totales. A medida que se construye el bosque, cada árbol se puede probar (similar a dejar una validación cruzada) en las muestras que no se usaron en la construcción de ese árbol. Esta es la estimación de error fuera de bolsa: una estimación de error interno de un bosque aleatorio a medida que se está construyendo.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *