Estudiar métodos de optimización numérica, especialmente los aplicados para entrenar a los modelos de inteligencia artificial, donde básicamente se espera encontrar un conjunto adecuado de parámetros que se ajusten a una función objetivo o a un modelo probabilístico.
El aprendizaje reforzado se centra en la interacción directa con el medio ambiente y que se asemeja más al aprendizaje humano que a las técnicas tradicionales de aprendizaje supervisado y no supervisado. En este marco el sistema elige qué acción realizar en cada momento por lo que se encuentra interactuando con el entorno de manera dinámica. Algunas de sus aplicaciones más destacadas del aprendizaje reforzado, las cuales incluyen: la robótica, el desarrollo de videojuegos y la personalización de productos informáticos como Amazon o Netflix.
Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.
Para conocer más sobre fundamentos matemáticos para el aprendizaje automático, te recomendamos leer:
Khan Academy. (s.f.). Introducción a los multiplicadores de Lagrange. Recuperado de https://es.khanacademy.org/math/multivariable-calculus/applications-of-multivariable-derivatives/constrained-optimization/a/lagrange-multipliers-single-constraint
Implementa soluciones de programación dinámica para resolver problemas de optimización utilizando el lenguaje de programación Python.
La ecuación fundamental de la programación dinámica se usa para resolver problemas de optimización iterativa. El “problema de la mochila” es uno de los ejemplos clásicos que se utilizan para demostrar el funcionamiento de este tipo de modelos.
Partiendo del ejemplo mostrado durante el tema, desarrolla la segunda parte del algoritmo en Python para determinar cuáles son las piezas específicas que se deben seleccionar.
Asegúrate de: