Jun 23, 2023
Optimización de mezcla de fluidos con aprendizaje de refuerzo
Informes científicos volumen 12,
Scientific Reports volumen 12, Número de artículo: 14268 (2022) Citar este artículo
2471 Accesos
2 citas
103 Altmetric
Detalles de métricas
La mezcla de fluidos es crucial en varios procesos industriales. En este estudio, centrándonos en las características de que el aprendizaje por refuerzo (RL) es adecuado para la optimización global en el tiempo, proponemos utilizar RL para la optimización de mezcla de fluidos de campos escalares pasivos. Para el problema de mezcla de fluidos bidimensional descrito por las ecuaciones de advección-difusión, un mezclador capacitado realiza una mezcla exponencialmente rápida sin ningún conocimiento previo. El estiramiento y el plegado por parte del mezclador capacitado alrededor de los puntos de estancamiento son esenciales en el proceso de mezcla óptimo. Además, este estudio presenta un método de aprendizaje de transferencia físicamente razonable del mezclador entrenado: reutilizar un mezclador entrenado en un determinado número de Péclet para el problema de mezcla en otro número de Péclet. Con base en los resultados de optimización de la mezcla laminar, discutimos las aplicaciones del método propuesto a los problemas de mezcla industrial, incluida la mezcla turbulenta.
La mezcla de fluidos juega un papel fundamental en diversos procesos industriales. Sin embargo, la mayoría de los procesos de mezcla están diseñados empíricamente mediante el uso de métodos de prueba y error a través de experimentos físicos, en lugar de optimización matemática. Aunque la turbulencia es un "mezclador efectivo"1, en algunos casos (p. ej., un biorreactor o un mezclador en los procesos de la industria alimentaria), el mezclado turbulento no es apropiado porque los flujos de cizallamiento fuertes dañan los materiales que se mezclan. Además, mantener flujos turbulentos en micromezcladores es difícil debido a los bajos números de Reynolds; esto requiere una mezcla mejorada por flujos laminares. Por lo tanto, la optimización de la mezcla por flujos laminares es crucial. Varios estudios analíticos han evaluado la eficiencia de los protocolos de mezcla laminar2,3,4,5, por ejemplo, probando los límites exponenciales de la velocidad de mezcla; sin embargo, la investigación sobre métodos de optimización constructiva sigue siendo limitada.
Este estudio propone una optimización de mezcla basada en el aprendizaje por refuerzo (RL) como método constructivo. Para ilustrar la efectividad del algoritmo RL para la optimización de la mezcla de fluidos, primero resumimos su marco matemático. El algoritmo RL está formulado en términos del proceso de decisión de Markov (MDP)6,7: \(M= \{ {S}, {A}, p_{0}, P, R\}\), donde S denota el conjunto de estados, \({S}=\{s_1, \cdots s_{|{S}|} \}\); A denota el conjunto de acciones, \({A}=\{ a_{1}, \cdots a_{|{A}|} \}\); \(p_{0}\) denota la distribución de probabilidad del estado inicial, \(p_{0}: {S} \rightarrow [0,1]\); P denota la probabilidad de transición, \(P: {S} \times {S}\times {A} \rightarrow [0,1]\); y R denota la función de recompensa, \(R:{S} \times {A} \rightarrow \mathbb {R}\). El estado inicial, \(s_{0}\), está determinado por \(p_{0}(\cdot)\), y en el siguiente paso, el estado está determinado por la probabilidad de transición, \(P(\cdot |s_{0},a_{0})\), que requiere la acción, \(a_0\). La acción está determinada por la política, \(\pi : {S} \rightarrow {A}\), como \(a=\pi (s)\). El algoritmo RL se implementa para determinar la política óptima, \(\pi ^*\), para el MDP dado, que maximiza la expectativa de la recompensa acumulada, \(\sum _{t=0}^{\infty } \ gama ^{t} R_{t+1}\). Aquí, \(\gamma \in (0,1)\) denota el factor de descuento y \(R_{t+1}:=R(s_{t},a_{t})\).
El algoritmo RL maximiza la recompensa acumulativa (es decir, global en el tiempo) en lugar de la recompensa instantánea, \(R_{t}\) (es decir, local en el tiempo). Por lo tanto, es adecuado para problemas de optimización global en el tiempo. El diseño de protocolos de mezcla eficientes es uno de los problemas de optimización global en el tiempo, ya que el campo escalar final depende del orden temporal de las acciones en todo el proceso de mezcla, que incluye el estiramiento y el plegado por flujos de fluidos y su acoplamiento con la difusión molecular. Un ejemplo ilustrativo se presentó en Asuntos de Historia de Villermaux8. A pesar de la efectividad de los algoritmos RL para resolver una amplia gama de problemas en mecánica de fluidos9,10,11, incluida la fusión nuclear12 y el modelado de turbulencia13, el problema de la mezcla de fluidos sigue sin explorarse.
El algoritmo RL es adecuado para problemas de optimización global en el tiempo, pero no para problemas con un espacio de estado de alta dimensión en general, lo que se conoce como la maldición de la dimensionalidad6. En particular, la alta dimensionalidad del espacio de estado para la mezcla de fluidos hace que la implementación del algoritmo RL sea un desafío. Este estudio investiga un problema de optimización formulado por Mathew et al.2, en el que el campo de velocidad viene dado por la superposición de los campos prescritos. Esto reduce la dimensión del espacio de estado para el movimiento del fluido a uno2; un solo parámetro, denotado por \(\theta \) más adelante, determina el estado del movimiento del fluido. Este problema de optimización se basó en un experimento físico utilizando el flujo impulsado electromagnéticamente14. El método de descenso de gradiente conjugado se introdujo como un prototipo de la optimización de mezcla de fluidos2. Para garantizar que el algoritmo RL pueda manejar el campo de flujo con un grado de libertad reducido, nos enfocamos en el mismo problema de optimización.
En este artículo, demostramos por primera vez que el algoritmo RL es adecuado para optimizaciones de mezcla de fluidos. Este algoritmo identifica un control de flujo efectivo, lo que da como resultado una mezcla exponencialmente rápida sin conocimiento previo. Los mecanismos detrás de la mezcla eficiente se descubren centrándose en el flujo alrededor de los puntos fijos desde el punto de vista de la teoría de sistemas dinámicos15,16. Este estudio también propone un método de aprendizaje de transferencia efectivo para el mezclador capacitado al considerar el efecto de difusión en la mezcla. Con base en los resultados de optimización de la mezcla laminar, discutimos las aplicaciones del método propuesto a los problemas de mezcla industrial, incluida la mezcla turbulenta, en la sección "Conclusión y discusión".
Consideramos el siguiente problema de optimización formulado por Mathew et al.2 como el problema de referencia, en el que el campo de velocidad, \(u(x,y,t) = \alpha _{1}(t) u_{1}(x ,y) + \alpha _{2}(t) u_{2}(x,y)\), se usa. Aquí, \(u_1(x,y) = (-\sin (2 \pi x)\cos (2 \pi y), \cos (2 \pi x) \sin (2 \pi y))\) y \(u_2(x,y) = u_1(x-0.25,y-0.25)\) (ver Fig. 1a). La evolución temporal del escalar pasivo, c(x, y, t), se describe mediante las ecuaciones de advección-difusión en el toro bidimensional, \(\mathbb {T}^2\) (la condición de frontera periódica):
donde \(\text {Pe} \in (0,\infty ]\) representa el número de Péclet. Como restricción en el control de flujo, la integral de tiempo de la energía cinética, \(\frac{1}{2} \ int _0^{1} \int _{\mathbb {T}^2} u^{2} d\mathbf{x} dt = \int _0^{1} \alpha _i(t) R_{ij} \alpha _j (t) dt =:\mathscr {E}\), es fijo, donde \(R_{ij}:= \frac{1}{2} \int _{\mathbb {T}^2} u_i \cdot u_j d\mathbf{x}~~(i=1,2,~j=1,2)\). Ponemos \(\alpha (t)=2\sqrt{\mathscr {E}} (\cos \ theta (t), \sin \theta (t))\), por lo que la restricción siempre se cumple. También establecemos \(\mathscr {E}=1.25\) como en Mathew et al.2. En este problema, el campo de velocidad, u(x, y, t), está determinado por un único parámetro, \(\theta (t)\), denominado parámetro de flujo.
Optimización de la mezcla de fluidos utilizando el algoritmo de aprendizaje por refuerzo (RL): (a) campos vectoriales de velocidad de \(u_{1}(x,y)\) (izquierda) y \(u_{2}(x,y)\) (derecha) en el toro bidimensional, \(\mathbb {T}^2\); (b) instantáneas de la evolución temporal del campo escalar, c(x, t), advectadas por el flujo optimizado; (c) varianza mixta, \(\Phi _{n}(t)~(t \in [0,1])\), para el enésimo episodio (\(n=1\), 800, 1600, 2400 , 3200 y 4000); (d) mezcla-varianza, \(\Phi _{n}(t=1)\), al final de cada episodio.
La varianza del campo escalar se usa a menudo para medir el grado de mezcla. Sin embargo, como es una cantidad conservada en ausencia de difusión (es decir, \(\frac{d}{dt} \int _{\mathbb {T}^2} c^{p}dx \equiv 0~~( \forall p \in \mathbb {N})\)), no es adecuado como medida del proceso de mezcla. En su lugar, empleamos la varianza mixta definida por \(\Phi (c)=\Vert c \Vert ^2_{H^{-1/2}} := \sum _{k} \frac{1}{\ sqrt{1+ (2 \pi \Vert k \Vert )^2}} | c_k |^2\), donde \(c_k\) denota el coeficiente de Fourier del campo escalar17. La varianza mixta es equivalente a la norma mixta que se introdujo originalmente para caracterizar la propiedad multiescala del campo escalar mixto17. Además, Mathew et al.17 demostraron la equivalencia entre el decaimiento de \(\Phi (c)\), la débil convergencia en \(L^{2}\), y la mezcla de sistemas dinámicos ergódicos en el Teorema 3.2 (ver también Lin et al.3 para la extensión del teorema). Para resumir el problema de optimización, usamos el algoritmo RL para determinar la función, \(\theta : [0,1] \rightarrow \mathbb {R}\), que minimiza la varianza de mezcla al final del proceso de mezcla, \(\Phi ( c (\cdot , t=1))\).
Realizamos una simulación numérica de las ecuaciones de advección-difusión (Ec. 1) utilizando el esquema de Runge-Kutta de cuarto orden para la integración temporal con \(\Delta t=0.001\) y el método espectral de Fourier para la discretización espacial con una cuadrícula de \(250 \times 250\), que es el mismo que el utilizado en Mathew et al.2.
Aquí, consideramos la optimización de la función de valor de acción (función Q) \(Q^{\pi }(s,a):= \mathbb {E}[ \sum _{t=0}^{\infty } \gamma ^{t} R_{t+1}|S_{0}=s, A_{0}=a]\) en lugar de la política \(\pi \), y obtener la función Q óptima, \(Q ^*: {S} \times {A} \rightarrow \mathbb {R}\). El teorema del punto fijo de Banach asegura matemáticamente que tal función Q óptima existe como un punto fijo del operador de Bellman6,7. Obtenemos la política óptima como \(\pi ^{*}(s) := \mathrm{argmax}_{a \in {A}} Q^{*}(s,a)\).
Como implementación estándar del algoritmo RL, empleamos la red Q profunda18, que se aproxima a la función Q mediante el uso de la red neuronal profunda denotada por \(Q^w: \mathbb {R}^{N_s} \times {A} \ flecha derecha \mathbb {R}\). Aquí, \(N_s\) y w denotan la dimensión del espacio de estado y los pesos de conexión en la red neuronal, respectivamente. Las entradas a la red son el campo escalar, c(x, y, t), y el campo de velocidad, u(x, y, t). Los valores de estos campos en \(\mathbb {T}^2\) se observan en la cuadrícula \(83\times 83\), y el estado, s, del MDP se define como los valores observados de la velocidad campo, \(u(x_{i}, y_{i}, t)~~(i =1,\ldots , N_O)\), donde \(N_O=83\times 83\), y los del escalar campos en los últimos cinco pasos; es decir, \(s_{t} := (u (x_{i},y_{i}, t), \{ c(x_{i}, y_{i}, \tau ) \}_{\tau = t,~t- \Delta t_{O},\ldots ,~t - 4 \Delta t_{O}}) \in \mathbb {R}^{N_s}\), y \(\Delta t_O\) denota el intervalo de tiempo de las observaciones sucesivas. Por lo tanto, la dimensión del espacio de estados es \(N_s=7 \times N_O\). La red consta de cuatro capas ocultas, y cada función de activación es ReLU como Mnih et al.18. El factor de descuento es \(\gamma =0.99\). Los detalles más detallados de la estructura de la red Q profunda y sus implementaciones se describen en la "Información complementaria". La distribución inicial, \(p_{0}\), viene dada por la función delta tal que \(\theta (0)=0\) y \(c(x,y,0)=\sin (2 \pi y)\).
El intervalo de tiempo de las observaciones sucesivas es \(\Delta t_O=0.004\), que es el mismo valor utilizado en el problema de referencia2, y \(\Delta t_Q=5 \Delta t_O\), donde \(\Delta t_Q\ ) denota el intervalo de tiempo de las sucesivas actualizaciones de la función Q. Por lo tanto, para cada período de \(\Delta t_Q\), el algoritmo RL observa los campos escalares determinados por las ecuaciones de advección-difusión (Ec. 1) con el campo de velocidad fijo. Luego, se actualiza la función Q, es decir, los pesos en la red neuronal. Una sola unidad de episodio corresponde a un solo proceso de mezcla, es decir, resolver el problema de valor inicial de las ecuaciones de advección-difusión (Ec. 1) para \(0 \le t \le 1\). El número total, \(N_{e}\), de episodios para el entrenamiento es \(N_{e}=4000\). Los resultados con el mayor número de episodios, \(N_{e} = 5000\), son cualitativamente idénticos a los de \(N_{e} = 4000\).
Como la acción, A, del MDP, el algoritmo RL puede cambiar el valor del parámetro de flujo, \(\theta (t)~~(0\le t\le 1)\). El campo de velocidad, u(x, y, t), está determinado por el parámetro único \(\theta (t)\), y el control de flujo se realiza cambiando \(\theta (t)\). La discretización del cambio temporal del parámetro de flujo es \(\theta (t + \Delta t_{Q}) = \theta (t) + \omega \Delta t_{Q}\) con \(\omega \in \ { 0, \omega _{+}, \omega _{-}\}(={A})\), donde \(\omega _{+}=\pi /(4\Delta t_{Q})\ ) y \(\omega _{-}=-\pi /(4\Delta t_{Q})\). La acción, \(\omega \), se selecciona siguiendo el método \(\varepsilon \)-greedy6,7,18, que cambia el valor de \(\varepsilon \) linealmente de 1 a 0,001.
La función de recompensa, R, se define mediante el uso de la varianza mixta, \(\Phi \), que se establece como una función monótonamente decreciente de \(\Phi \) para garantizar que el valor más pequeño de \(\Phi \ ) representa un mejor campo escalar mixto:
donde \(\tilde{\Phi }\), \(\Phi _{0}\) y \(\Phi _{T}\) denotan un umbral, un valor inicial y un valor objetivo de la mezcla. varianza, respectivamente. Por definición, \(R=-1\) inicialmente, y \(R = +1\) si la varianza mixta, \(\Phi \), alcanza el valor objetivo. Los valores de \(\tilde{\Phi }\) y \(\Phi _{T}\) se establecen en función del número de Péclet: \((\tilde{\Phi },~\Phi _{T}) =(1 \times 10^{-2},~4 \times 10^{-3})\) para \(\text {Pe} =\infty \) y \((\tilde{\Phi },~ \Phi _{T})=(5 \times 10^{-3},~1 \times 10^{-4})\) para \(\text {Pe}=100\).
Los resultados de la optimización se presentan en ausencia de difusión (\(\text {Pe}=\infty \)). La política óptima, \(\pi ^*: \mathbb {R}^{N_s} \rightarrow {A}\), aproximada por la red Q profunda, se obtiene de la optimización basada en RL. A partir de entonces, el vector de estado, \(s_t \in \mathbb {R}^{N_s}\), determina la acción óptima a través de \(\omega _t = \pi ^*(s_t)\). Esto determina el campo de velocidad durante el siguiente intervalo, \(\Delta t_Q\), que avanza el campo escalar, y el proceso continúa hasta la siguiente observación. Este controlador de flujo basado en la política óptima, \(\pi ^*\), se denomina mezclador entrenado. La Figura 1b muestra de los paneles de izquierda a derecha que el mezclador entrenado hace que el campo escalar, c(x, t), evolucione en el tiempo. Aquí, los colores blanco y negro corresponden a los valores alto y bajo del campo escalar, respectivamente. El mezclador entrenado produce una estructura en capas compleja del campo escalar. La siguiente subsección presenta una descripción detallada de los estiramientos y plegados sucesivos de la interfaz entre los dos colores.
La varianza mixta, \(\Phi _{n}(t)~~(n=1,\ldots, 4000)\), se muestra en la Fig. 1c. Durante la etapa inicial del entrenamiento, (es decir, en la primera mitad de los episodios totales como \(n=1, 800,\) y 1600), el algoritmo RL con el método \(\epsilon \)-voraz elige acciones al azar. Aunque este "mezclador aleatorio" puede disminuir la varianza de la mezcla, tal mezcla es ineficaz, como se explica a continuación.
Mathew et al.2 informaron que el método de descenso de gradiente conjugado propuesto resultó en \(\Phi (t=1) \simeq 6 \times 10^{-3}\); este valor de la varianza mixta se utiliza para la comparación como referencia. En la primera mitad de los episodios totales, la varianza de mezcla al final del proceso de mezcla, \(\Phi _{n}(t=1)\), es mayor que el valor de referencia; es decir, el entrenamiento insuficiente del mezclador da como resultado una mezcla ineficiente. Por el contrario, \(\Phi _{n}(t=1)\) se reduce en la última mitad de los episodios totales, \(n=2400\), 3200 y 4000. En particular, \(3 \times 10^ {-3}< \Phi _n(t=1) < 4 \times 10^{-3}\) para \(n=4000\), que son casi idénticos (un poco más pequeños que) el valor de referencia. Curiosamente, la varianza mixta disminuye exponencialmente rápido para \(0.3 \le t \le 1\) para los últimos episodios como \(n=3200\) y \(n=4000\). Si bien aquí nos enfocamos en la comparación cuantitativa utilizando la varianza mixta, existen algunas diferencias cualitativas entre el método de Mathew et al.2 y nuestro método basado en RL. En la sección "Conclusión y discusión", ilustramos las ventajas significativas del método basado en RL.
La Figura 1d presenta la varianza de mezcla al final de cada proceso de mezcla, \(\Phi _n(t=1)\), que fluctúa debido a los métodos codiciosos de \(\varepsilon\) y al hecho de que la política, \ (Q^{w}\), no converge. Sin embargo, la fluctuación disminuye a medida que avanza el episodio; véanse también las Figs. S1 y S2 en la "Información Complementaria". El algoritmo RL reduce significativamente la varianza mixta, \(\Phi _n(t=1)\); es decir, la optimización basada en RL mejora efectivamente la mezcla.
El parámetro de flujo en el episodio n se denota por \(\theta _{n}(t)\). En la primera mitad del entrenamiento, \(n<2000\), el parámetro de flujo, \(\theta _{n}(t)\), evoluciona aleatoriamente en el tiempo debido a los métodos codiciosos de \(\varepsilon \) y el hecho de que la política no es convergente. Sin embargo, a medida que avanza el episodio, \(\theta _{n}(t)\) converge en una sola función, \(\theta ^*(t)\), excepto en la etapa final del proceso, como se muestra en Figura 2a. La serie de tiempo de \(\theta _{n}(t)\) consta de ondas cuadradas, ya que el campo de velocidad (es decir, \(\theta _{n}(t)\)) está fijo en cada intervalo, \ (\Delta t_Q\). El proceso de mezcla óptimo por parte del mezclador capacitado correspondiente a \(\theta ^{*}(t)\) se divide en las siguientes tres etapas:
Etapa inicial (\(0< t \le 0.3\)): el parámetro de flujo es una constante; \(\theta ^{*}(t) =\pi /4\), que indica el flujo estacionario, \(u(x,y)= - c \sin 2 \pi (x+y),~ v(x ,y)= c \sin 2 \pi (x+y)~~(c:\text {const.})\). El vector de velocidad es paralelo a la línea diagonal; por ejemplo, el flujo a lo largo de la línea, \(x+y=1/4\), atraviesa el dominio, \(\mathbb {T}^2\), con el vector de velocidad \((u,v)=( -c,c)\).
Etapa intermedia (\(0.3 < t \le 0.7\)): el parámetro de flujo cambia linealmente; \(\theta ^{*}(t) = \omega ^{*} t~~(\omega ^{*} \simeq 16)\), indicando el flujo temporalmente periódico con una frecuencia angular constante.
Etapa final (\(0.7 < t \le 1\)): no hay características comunes de la evolución temporal del parámetro de flujo.
Características del mezclador entrenado. (a) Serie de tiempo del parámetro de flujo, \(\theta _{n}(t)\), para el n-ésimo episodio: \(n=2000\), 3000 y 4000. El eje vertical es \( \theta _{n}(t)/\pi \) y las líneas de puntos horizontales representan \(k/4~(k \in \mathbb {Z})\). Recuadro: la varianza mixta, \(\Phi (t=1)\), en el caso del parámetro de flujo con la frecuencia angular constante, \(\theta (t)= \omega t\). La línea horizontal discontinua-punteada indica el valor de la variación de la mezcla por parte del mezclador capacitado. ( b ) Evolución temporal del campo vectorial de velocidad por el mezclador entrenado. La línea azul y el punto rojo representan la línea material y uno de los puntos fijos, respectivamente: \(t=0,~0.1,~0.2,~0.3,~0.36,~0.46,~0.54\), y 0.68. (c) Funciones de densidad de probabilidad de la varianza mixta, \(\Phi (t=1)\), por el mezclador completamente aleatorizado y los mezcladores parcialmente aleatorizados I y II de los paneles de arriba a abajo. (d) Campos escalares, \(c(x,t=1)\), al final del proceso de mezclado por el mezclador entrenado (izquierda) y el mezclador completamente aleatorizado (derecha).
Las diferentes evoluciones temporales del parámetro de flujo, \(\theta (t)\), en la etapa final dan como resultado el valor casi idéntico de las varianzas mixtas, \(\Phi (t=1)\), al final del proceso Por lo tanto, el proceso esencial en la mezcla no es la etapa final sino las etapas inicial y media. Los experimentos numéricos que respaldan este punto se presentan en la siguiente subsección.
La figura 2b presenta la evolución temporal de los campos de velocidad correspondientes al parámetro de flujo obtenido en el episodio final, es decir, \(\theta _{n}(t)~(n=4000)\). La línea azul en cada panel indica la línea de material advectada por el flujo, que inicialmente se ubica junto con la línea \(y=0.5\). Los paneles superiores de la Fig. 2b representan el flujo en la etapa inicial, donde la línea de material se alarga para tener la longitud diagonal del dominio. Posteriormente, el flujo es temporalmente periódico en las etapas intermedias, que se muestran en los paneles inferiores de la Fig. 2b. Cada campo de velocidad tiene ocho puntos fijos (de estancamiento), \(u_1\) y \(u_2\). La mitad de ellos son elípticos; es decir, la matriz jacobiana tiene valores propios puramente imaginarios. La otra mitad son puntos de silla; es decir, la matriz jacobiana tiene valores propios reales15,16. Enfocamos uno de ellos en \((x,y)=(0.5,0.5)\), que está representado por el punto rojo en cada panel de la Fig. 2b como referencia. La línea material alrededor del punto fijo se estira a lo largo de las direcciones propias inestables cuando el punto fijo es una silla de montar, mientras que se pliega (aproximadamente \(\pi /2\) rotación) cuando el punto fijo es elíptico. El estiramiento y el plegado locales alrededor de los ocho puntos fijos ocurren simultáneamente, lo que da como resultado una mezcla eficiente. El uso del protocolo específico por parte del mezclador entrenado con la frecuencia angular constante, \(\theta (t)=\omega ^{*} t\), se explica en la sección de "Conclusión y discusión".
Sorprendentemente, el período del flujo en la etapa intermedia, \(2\pi /\omega ^*\), que determina el período del cambio sucesivo de los tipos silla y elíptico de los puntos fijos, es óptimo en el siguiente sentido . Aparte del algoritmo RL, realizamos simulaciones numéricas del campo escalar advectado por el flujo determinado por \(\theta (t)= \omega t\) con una frecuencia angular constante, \(\omega \), a lo largo del proceso de mezcla , \(0\le t \le 1\). El recuadro de la Fig. 2a muestra \(\Phi (t=1)\) evaluado para \(\omega \in [0,30]\). El mínimo de \(\Phi (t=1)\) en esta configuración se obtiene en \(\omega \simeq \omega ^{*}\). Esto implica que el algoritmo RL determina la frecuencia angular óptima, \(\omega ^{*}\), sin ningún conocimiento previo, y el mezclador entrenado usa el flujo temporalmente periódico con el período óptimo en la etapa intermedia del proceso.
Para caracterizar el flujo del mezclador capacitado en las etapas inicial y media, presentamos tres procesos de mezcla diferentes, llamados mezcladores aleatorios:
Mezclador completamente aleatorio: Utiliza el controlador aleatorio que toma una de las tres acciones, \(\omega \in \{ 0, \omega _{+}, \omega _{-}\}\), de forma independiente, con la misma probabilidades para todas las etapas (\(0 \le t \le 1\)).
Mezclador parcialmente aleatorizado I: Utiliza el mezclador entrenado para la etapa inicial (\(0 \le t < 0.3\)), y luego cambia para usar el controlador aleatorio para \(0.3 \le t \le 1\).
Mezclador parcialmente aleatorizado II: Utiliza el mezclador entrenado para las etapas inicial y media (\(0 \le t < 0.7\)), y luego cambia para usar el controlador aleatorio para \(0.7 \le t \le 1\).
Las simulaciones numéricas se realizan 200 veces de forma independiente para cada control. La Fig. 2c presenta las funciones de densidad de probabilidad (PDF) de la varianza mixta, \(\Phi (t=1)\), al final del proceso de mezcla. La línea continua gris indica el valor de la varianza de la mezcla por parte del mezclador entrenado, \(\Phi _{n}(t=1)~(n=4000)\) (consulte la Fig. S1 en la "Información complementaria" para el PDF relacionado del mezclador capacitado).
El panel superior de la Fig. 2c muestra el PDF en el caso del mezclador completamente aleatorizado, donde las variaciones de mezcla son mayores que el valor de referencia del mezclador entrenado. Los paneles izquierdo y derecho de la Fig. 2d representan el estado final del campo escalar, \(c(x,t=1)\), producido por el mezclador entrenado y un mezclador completamente aleatorizado que presenta la varianza de mezcla, \( \Phi (t=1)\), cercano al valor medio de la PDF. Los videos 1 y 2 en la "Información complementaria" corresponden a los campos escalares mezclados por el mezclador entrenado y el mezclador completamente aleatorizado, respectivamente. Grandes manchas sin mezclar permanecen en el campo escalar producido por el mezclador completamente aleatorio. Es decir, el mezclador de entrenamiento con el algoritmo RL es efectivo. El segundo panel de la Fig. 2c muestra la PDF en el caso del mezclador I parcialmente aleatorizado, que es más efectivo que el mezclador completamente aleatorizado. Sin embargo, existe una brecha sustancial entre los resultados del mezclador parcialmente aleatorizado I y los del mezclador entrenado. Esto indica que el proceso de mezcla durante la etapa intermedia también es crucial. Finalmente, el tercer panel de la Fig. 2c muestra la PDF producida por el mezclador II parcialmente aleatorizado. Los resultados son casi idénticos a los obtenidos con el mezclador entrenado. Por lo tanto, la eficacia del mezclador parcialmente aleatorizado II es la misma que la del mezclador entrenado. Estas observaciones demuestran que el proceso de mezclado durante las etapas inicial y media es esencial para la eficiencia del mezclado, mientras que el proceso de mezclado durante la etapa final no lo es.
Esta subsección considera el efecto de difusión en la optimización de RL de la mezcla descrita por las ecuaciones de advección-difusión (Ec. 1) con números de Péclet finitos. Los detalles de la configuración del problema son idénticos a los de las secciones anteriores, excepto por los valores de los números de Péclet. La optimización basada en RL se aplica al problema de mezcla para el caso de \(\text {Pe}=10^2, 10^3\), y \(10^4\), que son tan efectivos como para el caso de \(\text {Pe}=\infty \), independientemente de los números de Péclet. Por ejemplo, en \(\text {Pe}=100\), la varianza mixta, \(\Phi _{n}(t)\), disminuye más rápido para los últimos episodios, como se muestra en el recuadro de la Fig. 3b, donde \(n=1,600,1200,1800,2400\), y las curvas 3000 y más ligeras (más gruesas) corresponden a una n más grande. Observamos que las curvas de \(\Phi _{n}(t)\) para \(n\ge 1200\) son casi iguales, lo que implica que el algoritmo RL converge para encontrar la política óptima en \(n=1200 \). Curiosamente, esta convergencia es más rápida que el caso de \(\text {Pe}=\infty \) (Fig. 1c). El número de episodios necesarios para la convergencia es \(n \simeq 3000\) en \(\text {Pe}=\infty \); sin embargo, \(n \simeq 1200\) parece ser suficiente para la convergencia alrededor de \(\text {Pe}=100\).
Mezcla-varianza \(\Phi (t)\) para \(0 \le t \le 1\) en (a) \(\text {Pe} =\infty \) y en (b) \(\text { Pe} =100\). Las líneas azul gruesa y roja delgada representan los resultados del mezclador entrenado en \(\text {Pe}_T =\infty \) y \(\text {Pe}_T =100\), respectivamente. Las líneas sólidas, discontinuas y discontinuas corresponden a los resultados con diferentes números aleatorios utilizados para el aprendizaje. Recuadro: la varianza mixta \(\Phi _{n}(t)\) en \(\text {Pe} =100\) y \(\text {Pe}_{T} = 100\) para el n -ésimo episodio: \(n=1, 600, 1200, 1800, 2400\), y 3000, donde las curvas más claras (más gruesas) corresponden a n más grandes.
El efecto de difusión aparece en los controles de flujo en las etapas posteriores. Si el mezclador genera con éxito estructuras de capas finas en una etapa temprana, el control del flujo se vuelve menos importante en las etapas posteriores de la mezcla debido al efecto de difusión. En otras palabras, con un número de Péclet bajo, una vez que el algoritmo RL encuentra el control de mezcla óptimo en una etapa temprana de la mezcla, no se aprende nada, ya que la difusión reduce rápidamente la varianza de la mezcla, independientemente del control del mezclador. Esto puede resultar en la convergencia más rápida observada anteriormente. Las implicaciones de la convergencia rápida en los números de Péclet bajos para el mezclador de entrenamiento se dan en la sección "Conclusión y discusión".
Este efecto de difusión implica la transferibilidad asimétrica de un mezclador entrenado; es decir, un mezclador entrenado en un número de Péclet alto se puede usar para mezclar en un número de Péclet más bajo, mientras que lo contrario no es cierto. Sea \(\text {Pe}_T\) el número de Péclet donde se entrena el mezclador, y la transferibilidad asimétrica se reformula de la siguiente manera: el mezclador entrenado se puede reutilizar para el mismo proceso de mezcla para el rango de \((0 ,\text {Pe}_T]\). La figura 3a presenta la varianza mixta, \(\Phi (t)\), para \(0 \le t \le 1\) en \(\text {Pe} = \infty \). Las líneas azules gruesas indican los resultados para el caso de \(\text {Pe}_T =\infty \), y las líneas rojas finas indican los resultados para el caso de \(\text {Pe}_T =100\). En la Fig. 3a,b, las líneas sólidas, discontinuas y discontinuas indican los resultados con diferentes números aleatorios para el aprendizaje. Los mezcladores que entrenaron en \(\text {Pe}_T =\infty \) darse cuenta de la mezcla exponencialmente rápida para todo el proceso cuando lo usamos para \(\text {Pe}=\infty \). Por otro lado, los mezcladores que entrenaron en \(\text {Pe}_T =100\) se dan cuenta la mezcla exponencialmente rápida solo durante la primera mitad del proceso, pero no se mezcla durante la segunda mitad.
La Fig. 3b presenta la varianza mixta, \(\Phi (t)\), para \(0 \le t \le 1\) en \(\text {Pe} =100\). Similar a la Fig. 3a, las líneas azules gruesas representan los resultados para el caso de \(\text {Pe}_T =\infty \), y las líneas rojas delgadas representan los resultados para el caso de \(\text {Pe} _T =100\). A diferencia del caso de \(\text {Pe}=\infty \), no existe diferencia significativa entre los resultados para los casos de \(\text {Pe}_T =100\) y \(\text {Pe}_T = \infty \), y ambos casos realizan la mezcla exponencialmente rápida. En resumen, los mezcladores de \(\text {Pe}_T=\infty \) se pueden usar para mezclar en \(\text {Pe}=100\), mientras que lo contrario no es cierto. Por lo tanto, se puede usar un mezclador entrenado en un número de Péclet más alto para el proceso de mezcla para una gama más amplia de \(\text {Pe}\).
Al ilustrar por qué el algoritmo RL es adecuado para la optimización de la mezcla de fluidos, demostramos, como prueba de concepto, que el mezclador entrenado con el algoritmo RL es efectivo para el problema bidimensional de mezcla de fluidos (Fig. 1), que allana el camino para el desarrollo de la formación de mezcladores basada en RL. El método propuesto se evaluó cuantitativamente centrándose en el problema de referencia de la optimización de la mezcla estudiado en el trabajo pionero2. Además de la comparación de los valores de varianza mixta, notamos que nuestro método basado en RL resuelve el problema de optimización en condiciones más restrictivas en comparación con el método propuesto por Mathew et al.2. Por ejemplo, en nuestro entorno, el número de estados del campo de velocidad está restringido a ocho, \(\theta = 0,\pi /4, \ldots , 7\pi /4\). Además, el método propuesto es más flexible; es decir, utiliza solo el campo escalar y de velocidad como entrada a la red neuronal. Siempre que estos campos puedan observarse, las implementaciones físicas son posibles en principio, incluso si se desconocen las ecuaciones de evolución de estos campos. Por ejemplo, los problemas de mezcla de fluidos granulares o viscoelásticos son esenciales; sin embargo, la ecuación de evolución de un material tan complejo no ha sido necesariamente establecida y, por lo tanto, el método de descenso del gradiente conjugado2 no puede aplicarse a estos problemas fundamentales de la industria. Por otro lado, el método basado en RL no tiene ecuaciones, por lo que es aplicable si los datos sensoriales de los estados de mezcla están disponibles como entrada a la red neuronal.
El proceso de mezclado optimizado se dividió en tres etapas distintas. Es particularmente interesante notar que, en la etapa intermedia, el flujo optimizado es temporalmente periódico con la frecuencia angular constante. Aquí, discutimos por qué el algoritmo RL hace que la frecuencia angular sea constante. Los puntos fijos en ambos campos de velocidad, \(u_{1}\) y \(u_{2}\), están ubicados en la misma posición y están colocados homogéneamente en el dominio, \(\mathbb {T}^{2 }\). Si la frecuencia angular no es constante, el período de conmutación entre los tipos de silla y elíptico del punto fijo puede diferir en cada ubicación. Esta diferencia espacial hace que el campo escalar no sea homogéneo. La falta de homogeneidad aumenta la amplitud del coeficiente de Fourier del número de onda pequeño, lo que aumenta la varianza de la mezcla. En consecuencia, la variación temporal de la frecuencia angular da como resultado el mayor valor de la varianza mixta. El algoritmo RL emplea la frecuencia angular constante para evitar este efecto no deseado. La justificación detallada de la citada interpretación es uno de los trabajos futuros.
Otro trabajo futuro relacionado es comprender la mezcla óptima con más detalle. Por ejemplo, afirmamos que la variación aleatoria del parámetro de flujo en la etapa final (\(t>0.7\)) no es esencial para una mezcla óptima, en el sentido de que los resultados del mezclador parcialmente aleatorio II (Fig. 2c) y el mezclador capacitado (Fig. S1 en la "Información complementaria") son casi idénticos. Sin embargo, existe una pequeña diferencia entre estos PDF, lo que sugiere que la aleatorización de las acciones en la etapa final puede eliminar algunas acciones, que el algoritmo RL considera esenciales, en el proceso de mezcla optimizado.
Para la aplicación práctica, la reducción de los costos de aprendizaje es crucial. A pesar de la efectividad del aprendizaje por transferencia para reducir el costo de aprendizaje, su aplicación a los problemas de mecánica de fluidos sigue siendo limitada19. En este sentido, este estudio ha introducido la noción físicamente razonable de la transferibilidad asimétrica del mezclador entrenado. La demostración en este estudio (Fig. 3) indica que, en términos de transferencia de aprendizaje, el número de Péclet del dominio fuente \(\text {Pe}_{T}\) debe ser lo más alto posible, si el mezclador entrenado se requiere reutilizar para una gama más amplia. Si el mezclador está entrenado en un número de Péclet alto, puede aprender a mezclar el campo escalar para crear las estructuras de rayas finas. Si el mezclador capacitado se transfiere a un número de Péclet más bajo, crea estructuras finas al comienzo del proceso de mezcla. Luego, suavizar tales estructuras por difusión reduce la variación de la mezcla, independientemente de las acciones del mezclador entrenado en la etapa posterior. Por lo tanto, la transferencia del mezclador entrenado de un número de Péclet alto a uno más bajo es efectiva.
Con respecto a otro aspecto de los costos de aprendizaje, hemos encontrado que el aprendizaje de mezclar a un número de Péclet más bajo converge más rápido (Recuadro de la Fig. 3b). Por lo tanto, si se requiere un aprendizaje rápido en un número de Péclet, el número de Péclet del dominio de origen \(\text {Pe}_{T}\) debe ser lo más bajo posible. Considerando junto con la discusión en el párrafo anterior, las discusiones anteriores sugieren una compensación entre amplia transferibilidad y aprendizaje rápido; en otras palabras, existe un número de Péclet óptimo del dominio de origen que equilibra estas dos ventajas en cada aplicación. Aunque este estudio se limita a la transferencia del mezclador entrenado sobre los diferentes números de Péclet, los desarrollos futuros de métodos de aprendizaje de transferencia de mezcladores entrenados pueden ser significativos.
Existen grandes brechas entre el problema matemático del juguete discutido en este estudio y los problemas de mezcla existentes en los procesos industriales. Sin embargo, los resultados de este estudio indican algunas direcciones para superar estas brechas. Primero, discutimos las implicaciones de este estudio para la mezcla turbulenta. La turbulencia comprende pares de vórtices coherentes contrarrotantes a múltiples escalas20, y una fuerte mezcla turbulenta surge de la mezcla efectiva alrededor de tales pares de vórtices en cada escala1. Como se observa en el método de aprendizaje por transferencia, la mezcla escalar ocurre de escalas más grandes a más pequeñas. Dado que la escala de tiempo de la mezcla turbulenta es más corta para las escalas más pequeñas, la eficiencia total de la mezcla está determinada por la mezcla a la escala más grande. Por lo tanto, medir la velocidad y el campo escalar a la escala más grande puede ser suficiente para el método de entrenamiento propuesto. A pesar de la brecha significativa entre la mezcla laminar y la turbulenta, los conocimientos del presente estudio serán útiles para entrenar mezcladores con flujos turbulentos.
Además, en la industria pueden tener que considerarse los flujos multifásicos y/o térmicos con reacciones químicas, lo que aumenta la complejidad de la dinámica del flujo. En tales casos, la incorporación de conocimientos previos, como las ecuaciones de evolución o algunas restricciones físicas en la optimización basada en RL, puede ser efectiva, como se analiza en Brunton11. Como otra tarea futura para la optimización basada en RL en problemas de mezcla industrial, será importante estudiar la robustez del control de mezcla con la política obtenida con respecto a los cambios en el campo escalar inicial. Además, mientras que la red Q profunda se emplea como primer paso en este estudio, sería necesaria una implementación más específica y avanzada del algoritmo RL para flujos tan complejos. Ampliar el método propuesto para incorporar conocimientos sobre mecánica de fluidos y técnicas de implementación de RL adecuadas puede mejorar aún más la mezcla incluso en procesos industriales con flujos laminares y turbulentos.
Los conjuntos de datos utilizados y/o analizados durante el estudio actual están disponibles del autor correspondiente a pedido razonable.
Goto, S. & Kida, S. Reynolds: dependencia del número de línea y estiramiento de la superficie en turbulencia: efectos de plegado. J. Mecánica de fluidos. 586, 59–81 (2007).
Artículo ADS MathSciNet Google Scholar
Mathew, G., Mezic, I., Grivopoulos, S., Vaidya, U. y Petzold, L. Control óptimo de la mezcla en flujos de fluidos Stokes. J. Mecánica de fluidos. 580, 261–281 (2007).
Artículo ADS MathSciNet CAS Google Scholar
Lin, Z., Thiffeault, J.-L. & Doering, CR Estrategias de agitación óptimas para la mezcla escalar pasiva. J. Mecánica de fluidos. 675, 465–476 (2011).
Artículo ADS MathSciNet CAS Google Scholar
Seis, C. Mezcla máxima por flujos de fluidos incompresibles. No linealidad 26, 3279–3289 (2013).
Artículo ADS MathSciNet Google Scholar
Alberti, G., Crippa, G. & Mazzucato, AL Mezcla autosimilar exponencial por flujos incompresibles. Mermelada. Matemáticas. Soc. 32, 445–490 (2019).
Artículo MathSciNet Google Académico
Szepesvàri, C. Algoritmos para el aprendizaje por refuerzo. (Conferencias de síntesis sobre inteligencia artificial y aprendizaje automático Morgan y Claypool Publishers, 2010)
Sutton, RS & Barto, AG Aprendizaje por refuerzo: una introducción (MIT Press, 2018).
Matemáticas Google Académico
Villermaux, E. Mezclar versus agitar. Ana. Mec. de fluido Rev. 51, 245–273 (2019).
Artículo ADS MathSciNet Google Scholar
Garnier, P. et al. Una revisión sobre el aprendizaje de refuerzo profundo para la mecánica de fluidos. computar Fluidos 225, 104973–104996 (2021).
Artículo MathSciNet Google Académico
Brunton, SL, Noack, BR & Koumoutsakos, P. Aprendizaje automático para mecánica de fluidos. Ana. Mec. de fluido Rev. 52, 477–508 (2020).
Artículo ANUNCIOS Google Académico
Brunton, SL Aplicación del aprendizaje automático al estudio de la mecánica de fluidos. Acta Mechanica Sinica. 37, 1718–1726. https://doi.org/10.1007/s10409-021-01143-6 (2021).
Artículo ANUNCIOS Google Académico
Degrave, J. et al. Control magnético de plasmas tokamak a través del aprendizaje de refuerzo profundo. Naturaleza 602, 414–419 (2022).
Artículo ADS CAS Google Académico
Novati, G., de Laroussilhe, HL & Koumoutsakos, P. Automatización del modelado de turbulencias mediante el aprendizaje por refuerzo de múltiples agentes. Nat. Mach. Intel. 3, 87–96 (2021).
Artículo Google Académico
Rothstein, D., Henry, E. & Gollub, J. Patrones persistentes en la mezcla de fluidos caóticos transitorios. Naturaleza 401, 770–772 (1999).
Artículo ADS CAS Google Académico
Wiggins, S. & Ottino, JM Fundamentos de la mezcla caótica. Filosofía Trans. R. Soc. largo Serie A Matemáticas. física Ing. ciencia 362, 937–970 (2004).
Artículo ADS MathSciNet Google Scholar
Aref, H. et al. Fronteras de advección caótica. Rev. Física moderna. 89, 025007 (2017).
Artículo ADS MathSciNet Google Scholar
Mathew, G., Mezic, I. & Petzold, L. Una medida multiescala para mezclar. Physica D Fenómenos no lineales 211, 23–46 (2005).
Artículo ADS MathSciNet CAS Google Scholar
Mnih, V. et al. Control a nivel humano a través del aprendizaje de refuerzo profundo. Naturaleza 518, 529–533 (2015).
Artículo ADS CAS Google Académico
Inubushi, M. & Goto, S. Transferir el aprendizaje de la dinámica no lineal y su aplicación a la turbulencia de fluidos. física Rev. E. 102, 043301(8) (2020).
Artículo ANUNCIOS Google Académico
Goto, S., Saito, Y. & Kawahara, G. Jerarquía de tubos de vórtice antiparalelos en turbulencias espacialmente periódicas con altos números de Reynolds. física Rev. Fluidos 2, 064603 (2017).
Artículo ANUNCIOS Google Académico
Descargar referencias
Este trabajo fue parcialmente apoyado por JSPS Grant-in-Aid for Early-Career Scientists No. 19K14591 y JSPS Grants-in-Aid for Scientific Research Nos. 19KK0067, 20H02068, 20K20973 y 22K03420.
Estos autores contribuyeron por igual: Mikito Konishi y Susumu Goto.
Escuela de Posgrado en Ciencias de la Ingeniería, Universidad de Osaka, Osaka, 560-8531, Japón
Mikito Konishi, Masanobu Inubushi y Susumu Goto
Departamento de Matemáticas Aplicadas, Universidad de Ciencias de Tokio, Tokio, 162-8601, Japón
Masanobu Inubushi
También puede buscar este autor en PubMed Google Scholar
También puede buscar este autor en PubMed Google Scholar
También puede buscar este autor en PubMed Google Scholar
MK y MI concibieron y realizaron los experimentos numéricos; MK, MI y SG analizaron los resultados. Todos los autores revisaron el manuscrito.
Correspondencia a Masanobu Inubushi.
Los autores declaran no tener conflictos de intereses.
Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.
Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.
Reimpresiones y permisos
Konishi, M., Inubushi, M. & Goto, S. Optimización de mezcla de fluidos con aprendizaje de refuerzo. Informe científico 12, 14268 (2022). https://doi.org/10.1038/s41598-022-18037-7
Descargar cita
Recibido: 25 de marzo de 2022
Aceptado: 04 agosto 2022
Publicado: 22 agosto 2022
DOI: https://doi.org/10.1038/s41598-022-18037-7
Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:
Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.
Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt
Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.