“谛听”地震学数据集落户地震大模型创新应用联合实验室
近日,由北京白家疃地球科学国家野外科学观测研究站、中国科学院地质与地球物理研究所和中国地震局多家单位联合发布的专用于人工智能模型训练的“谛听”地震学数据集落户地球所和成都超算中心共建的地震大模型创新应用联合实验室,这是领域专业数据和大规模算力深度融合的新尝试。
面对未来海量的地震监测数据,智能化的数据处理、分析和解释,离不开高质量、规范化的专业数据集,谛听数据集2.0版本在1.0版本基础上扩充之后,是目前已公开的全球规模最大,样本标注质量最高、标签类别最为齐全的地震学标注数据集之一。
相比目前国内外大多数同类数据集,谛听数据集有三大特色:1.波形数据采用了更加适用于存储和处理大规??蒲Ш凸こ淌莸?/span>HDF5格式,元数据采用Json格式,具有读写快速、数据类型灵活、跨平台支持等优点;2.增加了非天然地震类别数据,包括爆破、疑爆、塌陷、其他等类型;3. 制作了单独的噪声数据集,并由多个小组共同完成人工复核,确保其可靠性。
谛听数据集落户成都超算地震大模型创新应用联合实验室将极大地促进人工智能算法在地震学领域的开发、测试、应用,并推动人工智能算法在地震监测预报业务中的进一步落地应用。这些任务都需要高性能算力,成都超算中心23.7万核CPU、2.5万片DCU、60PB分布式存储资源,共计每秒10亿亿次计算能力,能为“谛听”系列大模型开发研究提供算力支撑。地震检测、震相与初动极性识别、震相关联、震级预测、地震定位、震源机制反演等一系列常规地震数据智能化处理能力将得到进一步提升;有针对性的噪声集的加入有助于降低模型在实际应用中的误报率等。
不久前,第二届“谛听”训练营在成都超算中心举办。此次训练营依托地球所白家疃国家野外站数据资源,结合国家超算成都中心算力,研发地震科学领域相关模型、算法、数据集和开源软件平台,为提高研究人员的工作效率和科技创新能力提供平台环境保障。