Esta duda se puede abordar de diversas formas, sin embargo te enseñamos la solución más completa para nosotros.
Solución:
Capacitación una red neuronal simplemente se refiere a encontrar valores para cada celda en el matrices de peso (de los cuales hay dos para un NN que tiene una capa oculta) de modo que se minimicen las diferencias al cuadrado entre los datos observados y predichos. En la práctica, los pesos individuales que comprenden las dos matrices de peso se ajustan con cada iteración (sus valores iniciales a menudo se establecen en valores aleatorios). Esto también se denomina modelo en línea, a diferencia del modelo por lotes en el que los pesos se ajustan después de muchas iteraciones.
Pero ¿Cómo se deben ajustar los pesos?–es decir, ¿en qué dirección +/-? ¿Y por cuánto?
Ahí es donde entran las derivadas. A gran valor para la derivada resultará en un gran ajuste al peso correspondiente. Esto tiene sentido porque si la derivada es grande significa que estás lejos de un mínimo. Dicho de otra manera, los pesos se ajustan en cada iteración en la dirección del descenso más pronunciado (valor más alto de la derivada) en la superficie de la función de costo definida por el error total (observado versus predicho).
Después de calcular el error en cada patrón (restando el valor real de la variable de respuesta o el vector de salida del valor predicho por el NN durante esa iteración), cada peso en las matrices de peso se ajusta en proporción al gradiente de error calculado.
Debido a que el cálculo del error comienza al final de la NN (es decir, en la capa de salida al restar lo observado de lo predicho) y continúa hacia el frente, se llama backprop.
Más generalmente, la derivada (o degradado para problemas multivariables) es utilizado por la técnica de optimización (para backprop, el gradiente conjugado es probablemente el más común) para localizar los mínimos del objetivo (también conocido como pérdida) función.
Funciona de esta manera:
La primera derivada es el punto de una curva tal que una recta tangente a él tiene una pendiente de 0.
Entonces, si está caminando alrededor de una superficie 3D definida por la función objetivo y camina hacia un punto donde la pendiente = 0, entonces está en la parte inferior: ha encontrado un mínimos (ya sea global o local) para la función.
Pero la primera derivada es más importante que eso. También te dice si vas en la dirección correcta para alcanzar la función mínima.
Es fácil ver por qué esto es así si piensa en lo que sucede con la pendiente de la línea tangente cuando el punto en la curva/superficie se mueve hacia abajo hacia la función mínima.
La pendiente (de ahí el valor de la derivada de la función en ese punto) disminuye gradualmente. En otras palabras, para minimizar una función, sigue la derivada–es decir, si el valor está disminuyendo, entonces se está moviendo en la dirección correcta.
La fórmula de actualización de peso que cita no es solo una expresión arbitraria. Se produce asumiendo una función de error y minimizándola con descenso de gradiente. La derivada de la función de activación está ahí debido, esencialmente, a la regla de la cadena del cálculo.
Es más probable que los libros sobre redes neuronales tengan la derivación de la regla de actualización en retropropagación. Por ejemplo, Introducción a la teoría de la computación neuronal por Hertz, Krogh y Palmer.
Al final de todo puedes encontrar las reseñas de otros administradores, tú también tienes la libertad de insertar el tuyo si lo deseas.