近日,中国地质调查局地学文献中心在中国地学文献数据库建设过程中开展文献数据智能化处理方面取得新进展。技术团队利用现有人工智能技术,自主研发了地学文献元数据自动提取与匹配技术流程,解决了海量电子文献的数据整合难题。
中国地学文献数据库是我国地学领域重要的专业数据平台,文献来源于中国地质图书馆馆藏及多渠道采集。长期以来,采集到的大量电子文献因缺少完整规范的元数据,无法直接纳入现有文献管理系统,若采用常规人工编目,不仅工作量巨大,且难以实现与馆藏文献的有效匹配,形成数据孤岛,制约了文献资源的统一管理与高效利用。
为破解这一难题,技术团队依托馆藏文献,通过对1千多份文献样本进行人工标注,并以此为基础进行模型训练,最终建立了基于YOLO模型的文献元数据智能提取技术流程。该流程可对文献页面中的书名、作者、ISBN号、馆藏条码号等关键信息进行自动识别与提取,并与馆藏书目数据进行精准匹配。目前,已完成近20万份电子文献的自动化处理工作,匹配准确率达到90%以上,有效实现了电子文献与纸本馆藏的关联整合,为文献资源的统一发现和利用提供了关键技术支撑。
下一步,地学文献中心将继续深化人工智能、大数据等先进技术的应用,扎实推进地学文献资源建设,为地质调查与科研工作提供更高质量的信息服务。
自主研发的地学文献信息智能处理流程
|