Después de mucho batallar hemos dado con la solución de este contratiempo que muchos lectores de esta web han presentado. Si quieres compartir algo más no dejes de dejar tu información.
Solución:
Encontré las explicaciones de Bertsekas bastante simples y útiles para comprender muchas cosas diferentes en el análisis convexo y la optimización. Es posible que desee consultar su libro “Teoría de la optimización convexa”, o sus notas para el curso del MIT, que también cubren la conjugación.
La breve explicación en la página 7 de las notas es la siguiente:
Descripción dual de funciones convexas
- Defina una función convexa cerrada por su epígrafe.
- Describe el epígrafe mediante hiperplanos.
- Asociar hiperplanos con puntos de cruce (función conjugada).
Descripción primordial: valores $ f (x) $. Descripción dual: puntos de cruce $ f ^ * (y) $.
Para mí la mejor interpretación es económica. Interpretar $ f (x) $ como el costo de producir la cantidad $ x $ de algún producto e interpretar $ y $ como el precio de mercado por unidad. Es fácil ver eso $ f ^ * (y) $ representa el beneficio óptimo a precios dados $ y $. La cantidad $ xy $ representa ingresos por ventas y $ f (x) $ representa los costos de producción.
Ahora para la interpretación geométrica. Si dibuja la gráfica de los costos de producción $ f (x) $ y asumiéndolo convexo, continuo y diferenciable, verá que el punto de producción óptima, dados los precios $ y $, es dado por $ y – f ‘(x) = 0 $, y esto se puede encontrar gráficamente con una regla, buscando la tangente en la curva de costos con la misma pendiente $ y $. Si coloca la regla en ese punto tangente, se puede ver que la intersección de la regla con el eje vertical dará $ – (xy – f (x)) $.
Este es un dispositivo de cálculo muy útil. Proporcionado solo con el gráfico de $ f (x) $ y una regla, el analista puede girar la regla y encontrar cuál es la ganancia óptima para cada precio posible. Esto se puede trazar en otra hoja de papel. Entonces dado cualquier precio $ y $ puede encontrar cuál fue el beneficio óptimo. Sin darse cuenta, ha descubierto la función conjugada.
Voy a intentar una explicación muy básica e intuitivamente comprensible. Por supuesto, esto simplificará demasiado las cosas, pero entiendo que es lo que se pidió.
El punto de la conjugado convexo es representar una función $ f $ como un conjunto de hiperplanos tangentes. Los parámetros de todos los hiperplanos tangentes están codificados en el conjugado convexo función $ f ^ * $.
Hagamos las cosas más fáciles de entender cubriendo el caso 1D. En ese caso nuestro $ f ^ * $ se llama transformación de Legendre y nuestros hiperplanos se convierten en líneas simples. La generalización a los funcionales multidimensionales es relativamente sencilla.
Aquí está la transformación de Legendre:
$ f ^ * (y) = sup (yx – f (x)) $
El dominio de $ f ^ * $ es valores de pendiente, el codominio son compensaciones y (como en una ecuación de línea simple $ ax + b $). Por eso $ f ^ * $ codifica un conjunto de líneas. Primero vamos a evaluar $ f ^ * $ en un solo punto $ y $.
$ f ^ * $ en un punto $ y $ es el valor de diferencia más grande entre $ f $ y una recta que pasa por el origen con pendiente $ y $.
Tenga en cuenta que este valor puede seguir siendo negativo. En inglés simple, es el grado en el que $ yx $ “supera” $ f (x) $ en valor. Si tu función $ f $ va “arriba” $ yx $ (por ejemplo $ f (x) = x ^ 2 + 1 $ y $ y = 0.5 $) entonces el valor $ f ^ * (y) $ será negativo. Si su función va “por debajo” $ yx $ su valor será positivo.
El “valor superior” es importante porque en el caso convexo es un parámetro de una línea tangente a $ f $: el desplazamiento y.
Imaginar $ f ^ * (y) $ no solo por un valor único $ y $ pero para todo el dominio, imagen $ f (x) $ y una línea a través del origen que gira alrededor del origen, como una hélice. Para cada rotación incremental graficamos el valor de diferencia más grande entre $ f $ y la línea en un nuevo sistema de coordenadas (donde $ y $ puede ir a lo largo del eje xy $ f ^ * (y) $ puede ir a lo largo del eje y). El gráfico resultante muestra toda la transformación de Legendre de $ f $.
El artículo de Wikipedia sobre las transformaciones de Legendre también tiene más buena información, como:
Si la función convexa $ f $ se define en toda la línea y es diferenciable en todas partes, entonces $ f ^ * (y) $ se puede interpretar como el negativo de la intersección con el eje y de la recta tangente a la gráfica de f que tiene pendiente $ y $.
Entonces $ f ^ * $ puede verse como un mapa donde la entrada es una pendiente y la salida es un desplazamiento y en el sistema de coordenadas de $ f $. Por lo tanto $ f ^ * $ contiene la información de cuánto necesito para compensar una línea con una pendiente particular de modo que se convierta en una tangente a $ f $. El conjunto de todas las líneas compensadas en y por sus respectivas cantidades cubre el área en y debajo $ f $.
No es demasiado difícil imaginar por qué ese truco en particular solo funciona para funciones convexas.
PD: Si $ f $ es convexo, hay una definición mucho más fácil de la transformación de Legendre que evita todo el asunto superior:
$ f ^ * (f ‘(x)) = x * f’ (x) -f (x) $
En un lenguaje sencillo: para $ x $ Nosotros calculamos $ f ‘(x) $ y definir $ f ^ * $ a $ f ‘(x) $ como la intersección y negativa de la recta tangente.