banner
Hogar / Blog / Datos
Blog

Datos

Dec 20, 2023Dec 20, 2023

Scientific Reports volumen 13, Número de artículo: 7517 (2023) Citar este artículo

405 Accesos

1 Altmetric

Detalles de métricas

La automatización completa de la fabricación de materiales con alta productividad es un problema clave en el procesamiento de algunos materiales. En el crecimiento de cristal de zona flotante (FZ), que es un proceso de fabricación de obleas de semiconductores como el silicio, un operador controla de forma adaptativa los parámetros de entrada de acuerdo con el estado del proceso de crecimiento de cristal. Dado que la dinámica de operación del crecimiento de cristales FZ es complicada, la automatización suele ser difícil y, por lo general, el proceso se controla manualmente. Aquí demostramos el control automatizado del crecimiento del cristal FZ mediante el aprendizaje de refuerzo utilizando la dinámica predicha por el modelo de mezcla gaussiana (GMM) a partir de un pequeño número de trayectorias. Nuestro método propuesto para construir el modelo de control está completamente basado en datos. Usando un programa emulador para el crecimiento de cristales FZ, mostramos que el modelo de control construido por nuestro modelo propuesto puede seguir con mayor precisión la trayectoria de crecimiento ideal que las trayectorias de demostración creadas por la operación humana. Además, revelamos que la optimización de políticas cerca de las trayectorias de demostración realiza un control preciso siguiendo la trayectoria ideal.

La aplicación de la informática nos ha permitido realizar optimizaciones, automatizaciones y avances eficientes en el procesamiento de materiales1,2,3,4,5,6,7,8,9. El diseño de condiciones y entornos para el procesamiento de materiales se ha optimizado de manera eficiente utilizando modelos sustitutos construidos por redes neuronales u otros algoritmos de aprendizaje automático1,2,6,10,11,12,13. La optimización bayesiana puede reducir con éxito el número de ensayos para la adquisición de condiciones favorables para el procesamiento de materiales14,15,16,17. Por otro lado, el procesamiento de algunos materiales requiere un control manual de acuerdo con la información obtenida durante la operación y es difícil de automatizar. Por ejemplo, en el crecimiento de cristales de zona flotante (FZ), que se utiliza para producir obleas de silicio y diversos tipos de materiales cristalinos, como semiconductores, óxidos, metales y compuestos intermetálicos, un operador controla de forma adaptativa los parámetros de entrada para mantener las condiciones preferidas para crecimiento monocristalino mediante el seguimiento del estado de la masa fundida en la cámara 18,19,20,21,22,23,24,25,26,27,28. En el presente estudio, nuestro objetivo fue construir un modelo de control para la operación automatizada del crecimiento de cristales FZ a partir de un pequeño número de trayectorias de operación.

El crecimiento de cristal FZ se desarrolló para producir monocristales de silicio de alta pureza sin que la zona fundida toque ningún material extraño. A pesar de su ventaja en el crecimiento de cristales de alta pureza, la ampliación del diámetro del cristal es difícil en comparación con otras técnicas de crecimiento de cristales, como el método Czochralski. Se fabrican obleas de silicio relativamente pequeñas mediante el crecimiento de cristales FZ utilizando calentamiento por radiofrecuencia. La Figura 1 muestra una ilustración esquemática del crecimiento de cristales FZ. En este método, parte de una varilla policristalina se calienta para crear una masa fundida FZ, y la varilla superior (alimentación) y la varilla inferior (semilla) se mueven hacia abajo para mantener la masa fundida FZ por tensión superficial; finalmente, el cristal crece en la vara de la semilla. Un operador controla los parámetros de entrada, como la potencia de calentamiento y la velocidad de la varilla de alimentación, para que la masa fundida FZ no se separe ni gotee. Además, el operador debe formar una determinada forma en la que primero se reduce el diámetro del cristal (llamado "estrechamiento") y luego se aumenta el diámetro del cristal para obtener un solo cristal. Dado que la dinámica del estado de fusión que depende de los parámetros de entrada no es lineal y es complicada, es difícil simular el proceso de crecimiento de cristales FZ, como se ha logrado con otros métodos de crecimiento de cristales29,30,31,32,33. Por lo tanto, es necesario predecir la dinámica del crecimiento del cristal FZ a partir de las trayectorias de operación. Debido a la dificultad de adquirir numerosas trayectorias de operación para el crecimiento de cristales FZ, recientemente propusimos la adaptación del modelo de mezcla gaussiana (GMM) para predecir la dinámica del crecimiento de cristales FZ, y demostramos que GMM puede predecir con precisión las trayectorias de operación a partir de solo cinco trayectorias utilizadas. para entrenamiento34. En el presente estudio, construimos un modelo de control mediante el aprendizaje por refuerzo utilizando la optimización de políticas proximales (PPO) y la dinámica predicha por GMM.

Ilustración esquemática del crecimiento de cristales en zona flotante. Una masa fundida de zona flotante con la altura h está formada por la potencia del calentador P. Una alimentación con diámetro d0 y un cristal se mueven hacia abajo con velocidades v y u0, respectivamente. Como resultado, crece un cristal con un diámetro d.

Para el control del crecimiento de cristales FZ con un pequeño número de trayectorias de demostración, aplicamos el aprendizaje por refuerzo mediante PPO con la dinámica predicha por GMM. Aquí describimos cómo construir un modelo de control para el crecimiento de cristales FZ combinando GMM y PPO basado en la literatura35. El estado de fusión de la zona flotante en el tiempo (t + 1), que se supone que está compuesto por la altura (h) y el diámetro del cristal crecido (d) y se describe como st+1 = (ht+1, dt +1), está determinado por el estado de la masa fundida en el tiempo t (st), y los parámetros de entrada, que incluyen la potencia (P) y la velocidad de movimiento de la alimentación (v), por ejemplo, y se describe como en = ( Pt, vt).

f representa la verdadera dinámica para el crecimiento de cristales FZ. Una vez que se construye el GMM a partir de las trayectorias de demostración, el estado de la masa fundida en el momento (t + 1) se puede predecir mediante el estado de la masa fundida y los parámetros de entrada en el momento t:

El circunflejo (^) representa que se predice el valor, y \({\varvec{f}}_{{{\varvec{GMM}}}}\) representa un modelo dinámico entrenado por GMM. Los detalles de la formación de GMM se describen en la Ref. 34. En PPO, las políticas parametrizadas funcionan \(\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\ varvec{t}}} {|}{\varvec{s}}_{{\varvec{t}}} } \right)\) con el vector de parámetros \({\varvec{\theta}}_{{\varvec {p}}}\), que genera valores de entrada en desde el estado actual xt como una distribución de probabilidad, se optimiza iterativamente utilizando un objetivo sustituto recortado \(L^{CLIP} \left( {{\varvec{\theta}} _ {{\varvec{p}}} } \right)\) en lugar de un gradiente de política35,36,37.

\(\in\) es un hiperparámetro que determina una región recortada. \(A\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) es el función de ventaja descrita a continuación:

donde \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) es la función de valor de acción de estado y \(V\left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) es la función de valor de estado. Aquí representamos aproximadamente \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) \) como sigue:

donde \(R_{t} \left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) \) y γ son la función de recompensa y el factor de descuento, respectivamente. La función de ventaja representa si la acción en la que el valor de entrada \({\varvec{a}}_{{\varvec{t}}}\) se establece en el estado de fusión descrito como \({\varvec{s}} _ {{\varvec{t}}}\) es preferible. Cuando la acción es preferible, la función de ventaja toma un valor positivo y la política se actualiza para aumentar la razón de probabilidad \(r_{t} \left( {{\varvec{\theta}}_{{\varvec{p} }} } \right)\) maximizando el objetivo sustituto. Por otro lado, la función de ventaja toma un valor negativo y la política se actualiza para disminuir la razón de probabilidad cuando la acción no es preferible. En las condiciones en que se dan la política y la dinámica, las secuencias de estado se generan como una distribución de probabilidad y se puede calcular una función de valor de estado:

donde T es la longitud de las trayectorias y el valor esperado se calcula sobre la distribución de probabilidad de las secuencias de estado. En PPO, la función de valor de estado se predice a partir de los datos de entrenamiento sin asignar una política. Por lo tanto, la función de valor de estado predicha parametrizada con \({\varvec{\theta}}_{{\varvec{v}}}\) \(\left( {\hat{V}_{{{\varvec{ \theta}}_{{\varvec{v}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)} \right)\) está optimizado usando la pérdida por error cuadrático \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\);

Una vez que se predice la función de valor de estado, la función de valor de acción \(\left( {\hat{Q}\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec {a}}_{{\varvec{t}}} } \right)} \right)\) y la función de ventaja \(\left( {\hat{A}_{t} } \right)\) son también predicho por las ecs. (6) y (5), respectivamente. Además del objetivo sustituto recortado y el error de función de valor de estado, se agrega una bonificación de entropía para garantizar una exploración suficiente y se maximiza el siguiente objetivo para cada iteración en PPO38:

donde c1 y c2 son pesos. Maximizar \(L^{CLIP} \left( {{\varvec{\theta}}_{{\varvec{p}}} } \right)\) significa adquirir la política optimizada \(\pi_{{{\varvec {\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\varvec{t}}} {|}{\varvec{s}}_{ {\varvec{t}}} } \right)\) como se describe en la ecuación. (3) y (4). Minimizar \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\) significa que la función de valor de estado se predice sin asumir una política como descrito en la Ec. (8). Maximizando \(S\left[ {\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} } \right]\left( {{\varvec{s}}_{{ \varvec{t}}} } \right)\) es una entropía de política que es un término de regularización para entrenamiento. En PPO, \({\varvec{\theta}}_{{\varvec{p}}} ,\user2{ \theta }_{{\varvec{v}}}\) se optimiza simultáneamente en cada iteración. Aunque LCLIP depende de \({\varvec{\theta}}_{{\varvec{v}}}\) vía \(A\left( {{\varvec{s}}_{{\varvec{t}} } ,{\varvec{a}}_{{\varvec{t}}} } \right)\) y LVF depende de \({\varvec{\theta}}_{{\varvec{p}}}\ ) a través de \(V_{\pi } \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\), en el proceso de optimización iterativo, \({\varvec{\ theta}}_{{\varvec{v}}}\) en LCLIP y \({\varvec{\theta}}_{{\varvec{p}}}\) en LVF se consideran valores constantes y no optimizados , y se aplican los valores del paso anterior.

Para optimizar la política, es necesario especificar la dinámica para calcular la función de estado-valor por la ecuación. (7). En nuestro algoritmo, se utilizó la dinámica GMM para el cálculo de la función de estado-valor. Por lo tanto, el algoritmo está completamente basado en datos sin simulaciones, lo que es diferente de otros métodos como el enfoque "sim-to-real"39,40. Sin embargo, la dinámica GMM puede predecir de manera confiable la dinámica real solo en la vecindad de las trayectorias de entrenamiento. Por lo tanto, propusimos un método para optimizar la política cerca de las trayectorias de entrenamiento, donde la dinámica GMM predice de manera confiable la dinámica real y obtiene una política que puede transferirse al crecimiento real del cristal FZ. Para buscar el espacio de políticas cerca de las trayectorias de capacitación, en primer lugar, realizamos un preentrenamiento para acercar la política a las trayectorias de capacitación. En segundo lugar, introdujimos el error de las secuencias de acción promediadas en la función de recompensa además del error de la trayectoria ideal en el diámetro \(\left( {d_{t}^{ideal} } \right)\). La función de recompensa utilizada en nuestro algoritmo propuesto es la siguiente:

\(\overline{{{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} }}\) y \(\lambda\) denotan las secuencias de acción promediadas de las trayectorias de entrenamiento y un peso.

Para validar el control automatizado del crecimiento de cristales FZ mediante el algoritmo que utiliza PPO con dinámica GMM, preparamos conjuntos de datos para el entrenamiento (\(D = \left\{ {\left( {{\varvec{s}}_{{\varvec{ t}}}^{\usuario2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\usuario2{*}} } \right)_{1} ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\usuario2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\usuario2{* }} } \right)_{2} , \ldots ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} ,{\varvec{a} }_{{\varvec{t}}}^{\user2{*}} } \right)_{N} } \right\}\), donde N es el número de conjuntos de datos de entrenamiento) mediante el uso de un programa emulador para el crecimiento de cristales FZ con un conjunto dado de dinámicas34. Preparamos 12 conjuntos de datos con el objetivo de crear una forma de cristal ideal \(\left( {d_{t}^{ideal} } \right)\) como se muestra en la Fig. 2a considerando el proceso de estrechamiento para el crecimiento de un solo cristal. Las Figuras 2b–d muestran los conjuntos de datos preparados con el objetivo de crear la forma ideal. Las trayectorias eran diferentes entre sí y no seguían perfectamente la forma ideal, porque se preparaban manualmente.

(a) Una trayectoria ideal para el diámetro del cristal, (b) trayectorias del diámetro para entrenamiento, y (c, d) trayectorias de operación de la potencia y velocidad de movimiento de la alimentación.

Antes del aprendizaje de refuerzo, construimos un modelo de predicción basado en datos para el crecimiento de cristales FZ por GMM como informamos anteriormente34. El número de mezclas gaussianas, que es un hiperparámetro de GMM, se estableció en 50. Dado que la predicción de la dinámica por GMM es confiable solo cerca de las trayectorias de entrenamiento, la precisión de la predicción es significativamente menor cuando las trayectorias se desvían mucho de la trayectoria ideal como se analiza en la sección "Resultados y discusión", especialmente mostrando la Fig. 4 en detalle. Si comenzamos a optimizar con la política predeterminada aleatoria, las secuencias de estado generadas por GMM estarán lejos de las secuencias de estado reales y no alcanzarán la trayectoria ideal que se muestra en la Fig. 2a. Por lo tanto, realizamos un preentrenamiento utilizando las trayectorias de entrenamiento antes de la optimización de la política por parte de PPO. En el preentrenamiento, la política fue entrenada para acercarse a las secuencias de acción promediadas de las trayectorias de entrenamiento. La siguiente función de pérdida se minimiza en el preentrenamiento:

donde σ y \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_ {{\varvec{t}}} } \right)\) representan el parámetro de varianza y los valores promediados predichos de los valores de entrada bajo el estado \({\varvec{s}}_{{\varvec{t}}}^ {\user2{*}}\) en una trayectoria de entrenamiento. \(\hat{\usuario2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\ varvec{t}}} } \right)\) y \(\hat{V}_{{{\varvec{\theta}}_{{\varvec{v}}} }} \left( {{\varvec {s}}_{{\varvec{t}}} } \right)\) son modelados por redes neuronales. El número, el número de nodo y la función de activación de las capas ocultas son 2, 64 y tangente hiperbólica (tanh), respectivamente. Se utiliza una función sigmoidea como función de activación de la capa de salida de la red de políticas, y la capa de salida de las redes de la función de valor de estado no tiene función de activación. Ambas redes comparten valores de peso, a excepción de las capas de salida. El entrenamiento de las redes neuronales se realizó mediante el método de Adam con una tasa de aprendizaje de 1 × 10–5 y un tamaño de lote de 12841. La política probabilística fue generada por \(\hat{\user2{\mu }}_{{ {\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) y parámetros de varianza .

El algoritmo detallado para el entrenamiento previo de la política y la función de valor de estado se muestra en el Algoritmo 1. Después del entrenamiento previo de la política, PPO optimizó la política mientras maximizaba el objetivo que se muestra en la ecuación. (8). Los hiperparámetros utilizados para el entrenamiento previo y el entrenamiento por PPO se resumen en la Tabla 1. Nuestro programa sobre PPO para la trayectoria de crecimiento de cristales FZ se carga en GitHub42.

La Figura 3 muestra los resultados del control automatizado por la política entrenada con nuestro algoritmo propuesto. Nótese que el entrenamiento de la política fue realizado por la dinámica predicha por GMM solo a partir de las trayectorias de entrenamiento. La trayectoria obtenida sigue bien la trayectoria ideal en términos de diámetro. La Tabla 2 resume el error cuadrático medio (MSE) de la trayectoria ideal en diámetro d para el control por PPO y por humanos (trayectorias de entrenamiento). La desviación de la trayectoria ideal para el control por PPO es menor que para el control humano. Construimos con éxito un algoritmo de control para el crecimiento de cristales FZ con una forma ideal definida a partir de varias trayectorias de entrenamiento.

Trayectoria del diámetro generado por el modelo de control entrenado por nuestro algoritmo propuesto.

La formación previa de la política antes de PPO es de vital importancia. Sin una formación previa, el aprendizaje de la política nunca progresa en absoluto. La figura 4 muestra la evolución del error absoluto promedio de la trayectoria ideal en diámetro d durante el entrenamiento que comienza después del preentrenamiento y con valores iniciales establecidos al azar. Con el entrenamiento previo, la política estaba bien entrenada y el error disminuyó con el aumento de la iteración y se saturó. Por otro lado, el error de la trayectoria ideal nunca disminuyó al aumentar la iteración sin preentrenamiento. Además, el error de la dinámica GMM de la verdadera dinámica a lo largo de la trayectoria generada fue consistentemente mayor sin preentrenamiento que después del preentrenamiento. Estos resultados indican que el espacio de políticas se buscó adecuadamente con dinámicas GMM con alta precisión después del entrenamiento previo.

(a) Error absoluto medio (MAE) de la trayectoria ideal y (b) MAE de la dinámica GMM a lo largo de la trayectoria generada durante el entrenamiento con y sin preentrenamiento.

El diseño de la función de recompensa, agregando el error de las secuencias de acción promediadas además del error de la trayectoria ideal, también es importante para la optimización de políticas. Sin el segundo término en la Ec. (11), la desviación de la trayectoria ideal es mayor que nuestra recompensa propuesta que se muestra en la ecuación. (11), especialmente alrededor de t = 400 y t > 600 (Fig. 5a). En estos periodos, el error de la dinámica GMM para la trayectoria generada por la recompensa sin el segundo término en la Ec. (11) es más alto que el de la trayectoria generada por nuestra función de recompensa (Fig. 5b). Estos resultados indican que sumando el segundo término en la Ec. (11) logra con éxito la optimización de la política con la dinámica GMM con alta precisión mediante la configuración adecuada de la función de recompensa.

(a) Errores absolutos de la trayectoria ideal y (b) errores absolutos de la dinámica GMM a lo largo de la trayectoria generada con y sin el segundo término en la ecuación. (11) en la función de recompensa.

La demostración actual muestra que el control automatizado del crecimiento de cristales FZ es posible mediante nuestro método propuesto a partir de un pequeño número de trayectorias de demostración. Dado que nuestros métodos determinan la política en función de la dinámica predicha por GMM, es necesario acercar la trayectoria generada a la trayectoria de demostración durante la optimización de la política. El entrenamiento previo de la política y el diseño adecuado de la función de recompensa logran con éxito la optimización de la política por la dinámica GMM dentro de márgenes de predicción confiables. Nuestro método propuesto podrá aplicarse a otros procesos de materiales que requieran un control adaptativo según el estado del proceso. Aunque la presente demostración se basó en los datos obtenidos por un programa emulador, nuestra metodología propuesta funcionará con el crecimiento real de cristales FZ.

Hemos construido un modelo de control para el crecimiento de cristales FZ mediante el aprendizaje por refuerzo utilizando PPO con la dinámica predicha por GMM. Nuestro método propuesto está completamente basado en datos y puede construir el modelo de control a partir de solo una pequeña cantidad de trayectorias de demostración. Hemos verificado nuestro método mediante un experimento virtual utilizando el programa emulador de crecimiento de cristales FZ. Como resultado, se reveló que el modelo de control funciona con mayor precisión para seguir una trayectoria ideal en el diámetro de fusión que las trayectorias de demostración creadas por la operación humana. Dado que nuestros métodos determinan la política en función de la dinámica predicha por GMM, es necesario acercar la trayectoria generada a la trayectoria de demostración durante la optimización de la política. El entrenamiento previo de la política cerca de las trayectorias de entrenamiento y el diseño adecuado de la función de recompensa lograron con éxito la optimización de la política mediante la dinámica GMM dentro de márgenes de predicción confiables. Nuestro método propuesto conducirá a la automatización del procesamiento de materiales en el que se requiere una operación adaptativa y ayudará a lograr una alta productividad en la fabricación de materiales. Se espera que el proceso real de crecimiento de cristales FZ pueda automatizarse a partir de un pequeño número de trayectorias de demostración operadas por humanos.

Los datos que respaldan los hallazgos de este estudio están disponibles del autor correspondiente, SH, previa solicitud razonable.

Tsunooka, Y. et al. Predicción de alta velocidad de simulación de dinámica de fluidos computacional en crecimiento de cristales. CrystEngComm 20, 47 (2018).

Artículo Google Académico

Dropka, N. & Holena, M. Optimización de la solidificación direccional de silicio impulsada magnéticamente utilizando redes neuronales artificiales y modelos de procesos gaussianos. J. Cryst. Crecimiento 471, 53–61 (2017).

Artículo ADS CAS Google Académico

Wang, L. et al. Control óptimo del crecimiento de cristales de SiC en el sistema RF-TSSG mediante aprendizaje por refuerzo. Cristales (Basilea) 10, 791 (2020).

Artículo CAS Google Académico

Takehara, Y., Sekimoto, A., Okano, Y., Ujihara, T. & Dost, S. Optimización bayesiana para una tasa de crecimiento de cristal alta y uniforme en el proceso de crecimiento de solución de semilla superior de carburo de silicio bajo campo magnético aplicado. campo y rotación de semillas. J. Cryst. Crecimiento 532, 125437 (2020).

Artículo CAS Google Académico

Wang, C., Tan, XP, Tor, SB y Lim, CS Aprendizaje automático en la fabricación aditiva: estado del arte y perspectivas. Agregar Fabricación 36, 101538 (2020).

Google Académico

Yu, W. et al. Diseño geométrico de un sistema de crecimiento de cristales guiado por un algoritmo de aprendizaje automático. CrystEngComm 23, 2695–2702 (2021).

Artículo CAS Google Académico

Kawata, A., Murayama, K., Sumitani, S. & Harada, S. Diseño de algoritmo de detección automática para contrastes de dislocación en imágenes de birrefringencia de obleas de SiC. Jpn. Aplicación J. física 60, SBBD06 (2021).

Artículo Google Académico

Harada, S., Tsujimori, K. & Matsushita, Y. Detección automática de dislocaciones del plano basal en una oblea epitaxial de SiC de 150 mm mediante imágenes de fotoluminiscencia y algoritmo de coincidencia de plantillas. J. Electron. Mate. 52, 1243–1248 (2022).

Google Académico

Tsujimori, K., Hirotani, J. & Harada, S. Aplicación de superresolución bayesiana a datos espectroscópicos para una caracterización precisa de la forma del pico espectral. J. Electron. Mate. 51, 712–717 (2022).

Artículo ADS CAS Google Académico

Dropka, N., Holena, M., Ecklebe, S., Frank-Rotsch, C. y Winkler, J. Pronóstico rápido del proceso de crecimiento de cristales de VGF mediante redes neuronales dinámicas. J. Cryst. Crecimiento 521, 9–14 (2019).

Artículo ADS CAS Google Académico

Dang, Y. et al. Control de procesos adaptativo para el crecimiento de cristales mediante el aprendizaje automático para la predicción de alta velocidad: aplicación al crecimiento de soluciones de SiC. CrystEngComm 23, 1982–1990 (2021).

Artículo CAS Google Académico

Isono, M. et al. Optimización de la distribución de flujo por descripción topológica y aprendizaje automático en el crecimiento de soluciones de SiC. Adv. Teoría Simul. 5, 202200302 (2022).

Artículo Google Académico

Honda, T. et al. Experimentaciones virtuales por aprendizaje profundo sobre materiales tangibles. común Mate. 2, 1–8 (2021).

Artículo Google Académico

Shimizu, R., Kobayashi, S., Watanabe, Y., Ando, ​​Y. & Hitosugi, T. Síntesis de materiales autónomos mediante aprendizaje automático y robótica. Materia APL. 8, 111110 (2020).

Artículo ADS CAS Google Académico

Miyagawa, S., Gotoh, K., Kutsukake, K., Kurokawa, Y. & Usami, N. Aplicación de optimización bayesiana para mejorar el rendimiento de pasivación en heteroestructura de TiOx/SiOy/c-Si mediante tratamiento con plasma de hidrógeno. aplicación física Expreso 14, 025503 (2021).

Artículo ADS CAS Google Académico

Osada, K. et al. Optimización bayesiana adaptativa para el crecimiento epitaxial de películas delgadas de Si bajo diversas restricciones. Mate. Hoy Comun. 25, 101538 (2020).

Artículo CAS Google Académico

Wakabayashi, YK et al. Crecimiento de película delgada asistido por aprendizaje automático: optimización bayesiana en epitaxia de haz molecular de películas delgadas de SrRuO3. Materia APL. 7, 101114 (2019).

Artículo ANUNCIOS Google Académico

Campbell, TA, Schweizer, M., Dold, P., Cröll, A. & Benz, KW Crecimiento de zona flotante y caracterización de cristales individuales Ge1−xSix (x ⩽10 at%). J. Cryst. Crecimiento 226, 231–239 (2001).

Artículo ADS CAS Google Académico

Calverley, A. & Lever, RF La fusión de zona flotante de metales refractarios por bombardeo de electrones. J. Ciencia. instrumento 34, 142 (1957).

Artículo ADS CAS Google Académico

Inui, H., Oh, MH, Nakamura, A. y Yamaguchi, M. Deformación por tracción a temperatura ambiente de cristales maclados polisintéticamente (PST) de TiAl. Acta Metall. Mate. 40, 3095–3104 (1992).

Artículo CAS Google Académico

Hirano, T. & Mawari, T. Solidificación unidireccional de Ni3Al por un método de zona flotante. Acta Metall. Mate. 41, 1783-1789 (1993).

Artículo CAS Google Académico

Balbashov, AM & Egorov, SK Aparato para el crecimiento de monocristales de compuestos de óxido por fusión en zona flotante con calentamiento por radiación. J. Cryst. Crecimiento 52, 498–504 (1981).

Artículo ADS CAS Google Académico

Koohpayeh, SM, Fort, D. & Abell, JS La técnica de la zona flotante óptica: una revisión de los procedimientos experimentales con especial referencia a los óxidos. prog. cristal. Carácter de crecimiento. Mate. 54, 121–137 (2008).

Artículo CAS Google Académico

Harada, S. et al. Cruce de conducción térmica incoherente a coherente en superredes naturales de óxido de titanio a granel. Scr. Mate. 208, 114326 (2022).

Artículo CAS Google Académico

Christensen, AN El crecimiento cristalino de los compuestos de metales de transición TiC, TiN y ZrN mediante una técnica de zona flotante. J. Cryst. Crecimiento 33, 99–104 (1976).

Artículo ADS CAS Google Académico

Nørlund Christensen, A. Crecimiento cristalino y caracterización de los siliciuros de metales de transición MoSi2 y WSi2. J. Cryst. Crecimiento 129, 266–268 (1993).

Artículo ANUNCIOS Google Académico

Harada, S. et al. Refinamiento de la estructura cristalina de ReSi1.75 con una disposición ordenada de vacantes de silicio. Filosofía revista 91, 3108–3127 (2011).

Artículo ADS CAS Google Académico

Harada, S. et al. Observación directa de vacantes y vibración térmica local en siliciuro de renio termoeléctrico. aplicación física Expreso 5, 035203 (2012).

Artículo ANUNCIOS Google Académico

Muiznieks, A., Virbulis, J., Lüdge, A., Riemann, H. y Werner, N. Crecimiento de silicio en zona flotante. en Handbook of Crystal Growth: Bulk Crystal Growth: Second Edition vol. 2 241–279 (Elsevier, 2015).

Derby, JJ & Brown, RA Análisis de capilaridad térmica de Czochralski y crecimiento de cristal de Czochralski encapsulado en líquido: I. Simulación. J. Cryst. Crecimiento 74, 605–624 (1986).

Artículo ADS CAS Google Académico

Méziere, J. et al. Modelado y simulación de SiC CVD en el concepto de reactor de pared caliente horizontal. J. Cryst. Crecimiento 267, 436–451 (2004).

Artículo ADS CAS Google Académico

Karpov, SYu., Makarov, Yu. N. & Ramm, MS Simulación del crecimiento por sublimación de monocristales de SiC. Physica Status Solidi (b) 202, 201–220 (2001).

3.0.CO;2-T" data-track-action="article reference" href="https://doi.org/10.1002%2F1521-3951%28199707%29202%3A1%3C201%3A%3AAID-PSSB201%3E3.0.CO%3B2-T" aria-label="Article reference 32" data-doi="10.1002/1521-3951(199707)202:13.0.CO;2-T">Artículo ANUNCIOS Google Académico

Dang, Y. et al. Investigación numérica de la evaporación de soluto en el crecimiento de cristales de la solución: un estudio de caso del crecimiento de SiC por el método TSSG. J. Cryst. Crecimiento 579, 126448 (2022).

Artículo CAS Google Académico

Omae, R., Sumitani, S., Tosa, Y. y Harada, S. Predicción de la dinámica operativa en el crecimiento de cristales de zona flotante utilizando el modelo de mezcla gaussiana. ciencia Tecnología Adv. Mate. Métodos 2, 294–301 (2022).

Google Académico

Schulman, J., Wolski, F., Dhariwal, P., Radford, A. y Openai, OK Algoritmos de optimización de políticas proximales. https://doi.org/10.48550/archiv.1707.06347 (2017).

Schulman, J., Levine, S., Abbeel, P., Jordan, M. y Moritz, P. Optimización de políticas de región de confianza. proc. Mach. Aprender. rec. 37, 1889–1897 (2015).

Google Académico

Sutton, RS, McAllester, D., Singh, S. y Mansour, Y. Métodos de gradiente de políticas para el aprendizaje por refuerzo con aproximación de funciones. Adv. Información neuronal Proceso. sist. 12, 447 (1999).

Google Académico

Mnih, V. et al. Métodos asincrónicos para el aprendizaje por refuerzo profundo. 33.ª Conferencia internacional sobre aprendizaje automático, ICML 2016 4, 2850–2869 (2016).

Christiano, P. et al. Transferencia de la simulación al mundo real a través del aprendizaje del modelo de dinámica inversa profunda. https://doi.org/10.48550/arxiv.1610.03518 (2016).

Peng, XB, Andrychowicz, M., Zaremba, W. & Abbeel, P. Transferencia de control robótico de simulación a realidad con aleatorización dinámica. proc. Internacional IEEE Conf. Robot. automático https://doi.org/10.1109/ICRA.2018.8460528 (2017).

Artículo Google Académico

Kingma, DP & Ba, JL Adam: Un método para la optimización estocástica. 3ra Conferencia Internacional sobre Representaciones de Aprendizaje, ICLR 2015 - Actas de la Conferencia (2014) doi:https://doi.org/10.48550/arxiv.1412.6980.

https://github.com/AnamorResearch/fz_rl

Descargar referencias

Este documento fue financiado por JSPS KAKENHI Grant Número JP21H01681. Los autores agradecen al Sr. Okuno y sus colegas de Sanko Co. Ltd. por los fructíferos debates sobre la aplicación de hornos de crecimiento de cristales FZ reales.

Redes de anamorfosis, 50 Higashionmaeda-Cho, Nishishichijo, Shimogyo-Ku, Kioto, 600-8898, Japón

Yusuke Tosa, Ryo Omae, Ryohei Matsumoto y Shogo Sumitani

Centro de Investigación Integrada de la Electrónica del Futuro (CIRFE), Instituto de Materiales y Sistemas para la Sostenibilidad (IMaSS), Universidad de Nagoya, Furo-Cho, Chikusa-Ku, Nagoya, 464-8601, Japón

Shunta Harada

Departamento de Ingeniería de Procesos de Materiales, Universidad de Nagoya, Furo-Cho, Chikusa-Ku, Nagoya, 464-8603, Japón

Shunta Harada

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

SH y SS conceptualizaron la idea básica y la aplicación al proceso de materiales. YT construyó algoritmos y programas para el análisis bajo la guía de SS con la asistencia de RO y en discusión continua con todos los autores. El manuscrito fue escrito por SH y YT en discusión con todos los demás autores.

Correspondencia a Shunta Harada.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Tosa, Y., Omae, R., Matsumoto, R. et al. Algoritmo de control automatizado basado en datos para el crecimiento de cristales de zona flotante derivado del aprendizaje por refuerzo. Informe científico 13, 7517 (2023). https://doi.org/10.1038/s41598-023-34732-5

Descargar cita

Recibido: 07 marzo 2023

Aceptado: 06 mayo 2023

Publicado: 09 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-34732-5

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.