中国科学院团队利用 AI 大模型训练技术解决同步辐射海量数据处理难题

ScienceAI 2023-11-20 21:59:40 浏览:606

编辑 | X

X 射线叠层相干衍射成像（X-ray ptychography）是一种理论上能够实现衍射极限分辨率的相干衍射成像技术，已广泛应用于材料、生命、半导体、能源等多种科学领域研究。

新一代同步辐射光源可提供高相干度和高亮度的X射线，推动相干成像技术向高通量多维度方向发展，使得 ptychography 在大体积样本的精细结构研究和功能表征方面具有极佳的应用前景。然而，新的实验模式与应用场景带来了海量数据在线解析的技术挑战，单次实验的原始衍射图谱数据量可达 PB 量级，成为第四代同步辐射光源上科学实验的最大数据源之一。此外，其相位恢复问题也是同步辐射数据处理领域最为困难的问题之一。

人工智能方法作为大数据分析和处理的利器，保持了传统算法的优势，并且突出体现了在海量实验数据在线分析方面的能力。

作为一种相对耗时的扫描成像技术，ptychography 的主要目标之一是实现实时分析。但是目前传统的 ptychography 重建算法很难实现在线重建的需求。研究团队基于卷积神经网络，提出了分组卷积的神经网络解码器结构，使得网络的训练以及重建速度更快，重建效果更好。神经网络可以学习从衍射图到真实物体的映射过程。得益于未来光源数据体量和质量的进一步提升，网络规模、参数量、训练数据量将进一步增加，给网络的性能以及泛化能力带来提升。

中国科学院高能同步辐射光源（HEPS）光束线软件团队开发了一个名为 PtyNet 的卷积神经网络框架，用于从 X 射线 Ptychography 实验数据中恢复出物体的精确投影。在强大的计算集群的支持下，PtyNet 可以快速地从同步辐射光源获取数据进行训练，并快速地对用户的实验数据进行图像重建。

图 1

该研究以「An efficient ptychography reconstruction strategy through fine-tuning of large pre-trained deep learning model 」为题，于 2023 年 11 月 9 日发表在 iScience。

论文链接：https://doi.org/10.1016/j.isci.2023.108420

由于不同实验数据所恢复的目标物体不同，团队还引入了微调策略对网络参数进行进一步优化。无监督的微调策略使网络拥有更强大的泛化能力和更高的重建分辨率。同步辐射光源可以为网络提供足够的数据量以得到一个更强大的预训练模型。即使对于一个未出现在网络内的新样品，网络也可以成功地进行重建（图2）。

图 2

未来，该团队将继续进行将卷积神经网络应用于 X 射线相干成像领域的研究。利用微调以及大模型的策略，开发出一个相干成像的大模型。模型自身可以识别出不同的成像任务并且给出恢复结果。用户只需输入少量线站参数即可进行实时重建。

面对未来 EB 量级数据的挑战，HEPS 正在积极推动「大型科学软件框架 + AI for Science」的创新科研范式，并建立了一支专业的科学软件团队，开展实验控制、大数据采集与处理、人工智能、前沿学科算法、多尺度图像处理与数据挖掘等跨领域研究，为建设「智慧光源」奠定了基础。

SoHoBlink - 人工智能行业网站

关于SoHoBlink人工智能网

微信公众号