地学知识库建设思路与研究进展

来源:地调局地学文献中心 作者:地调局文献中心 发布时间:2015-05-26
    • 摘要:当前的地学知识与信息服务的环境正在发生变化,一是整个社会的教育和知识水平显著提高,形成了一种泛在的知识环境;二是数据科研模式(第四范式),对海量信息产生了新的需求;三是互联网及相关数据库服务逐渐向知识化、智能化转型,这要求在地学专业领域,加快科学数据体系、工作流程与知识体系的构建与融合。地学知识库通过知识的三个途径其中发挥着极为重要的基础作用,地学理论构建出公众、研究人员及地球数据间逐步趋同的认知体系,地学应用技术搭建产生数据和理解数据的通道,科学数据描述的基于地学知识的认知边界和是非判断。地学知识库的研究和建设正成为一种信息构建和服务的形势需求,成为机器、专业人员、社会公众凭借地学知识系统通过庞大的地球数据体系理解、分析、预测地球的系统工程。在这一背景下,地学知识库建设项目于2012年立项,主要开展地学知识库建设理论与方法研究,探索性的开展面向科技开发与管理的成果、专利、文献数据融合加工与服务。
    • 发布日期:2015-05-26
    • 正文:

      地学知识库建设思路与研究进展 

        

      一、项目背景

      当前的地学知识与信息服务的环境正在发生变化,一是整个社会的教育和知识水平显著提高,形成了一种泛在的知识环境;二是数据科研模式(第四范式),对海量信息产生了新的需求;三是互联网及相关数据库服务逐渐向知识化、智能化转型,这要求在地学专业领域,加快科学数据体系、工作流程与知识体系的构建与融合。地学知识库通过知识的三个途径其中发挥着极为重要的基础作用,地学理论构建出公众、研究人员及地球数据间逐步趋同的认知体系,地学应用技术搭建产生数据和理解数据的通道,科学数据描述的基于地学知识的认知边界和是非判断。地学知识库的研究和建设正成为一种信息构建和服务的形势需求,成为机器、专业人员、社会公众凭借地学知识系统通过庞大的地球数据体系理解、分析、预测地球的系统工程。在这一背景下,地学知识库建设项目于2012年立项,主要开展地学知识库建设理论与方法研究,探索性的开展面向科技开发与管理的成果、专利、文献数据融合加工与服务。 

      对地学知识体系的构建让社会公众、专业人员乃至机器在发现、认知、理解乃至应用这些数据方面发挥着基础信息平台作用。如果说“数字地球”是将现实抽象虚拟成数据,那么“智慧地球”就是让机器运用知识,理解数据,从而拥有“智慧”。 

      二、知识库建设研究进展

      1知识库的概念认知

      知识库的定义,随着对知识的加工与利用层次的不同,也在不断深化。知识库首先是一定范围内知识资产的汇集与保存平台,包括论文、科研报告、专著、PPT、图片、课件、音视频资料、软件等多媒体或复合文献、数据库、数据集以及科研过程的所有记录和资料;其次,知识库是知识加工与解析的平台,将文本形式及其他形式的知识资产,以学科概念的组织形式划分成知识元,挖掘其中更细致的知识信息;最后,知识库是一种人工智能的专家系统,智能可以看作是机器运用知识的能力,将知识元运用在推理机制中,实现综合分析与辅助决策。知识库构建的核心是知识切片、知识关联和智能应用。 

      当前知识库的研究和开发主要处于第二阶段——针对知识切片的知识工程研究和知识库开发。这些知识片包括与领域相关的理论知识、技术方法、科学数据,表达方法包括自然语言表达、知识逻辑表达等,类型有知识点、知识过程、知识组合等。当前研究的地学知识特指地质调查等国土资源工作中所涉及的相关学科知识。地学知识库是在地学学科知识背景下,从地学知识资源、地质调查成果入手,围绕行业调查工作需求,开展地学知识的挖掘、分析、表达、组织和应用。 

      2知识库研究和建设进展 

      知识库是现代知识工程的重要应用体现,研究成果、基础工作成果、科学数据则是知识库的最重要知识来源。对于知识认知基本单元、知识组织与管理方法的研究,从“十一五”开始,一直是国家自然科学基金、科技部在信息科学、知识工程研究领域的重要资助内容。从“十二五”开始,作为一项重要工程,科技部开始重点资助知识组织系统的研究,如基于海量信息的知识组织系统研究、面向企业知识创新的知识组织与服务研究等,都作为科技部重大项目立项。国内外知识库根据应用范围、领域的不同,我们把当前的知识库分为4类:机构知识库、领域知识库、工作流知识库、决策参考知识库,后两种都是针对应用的人工智能,不过工作流是基于研发过程技术改进的,决策参考是针对危机、决策判断等问题的知识调用。 

      机构知识库建设方面,2002 年 11 月麻省理工学院图书馆和惠普实验室共同开发的DS pace 正式面世,拉开了全球范围内大规模建设机构知识库的序幕。机构知识库在世界范围内发展迅速,截至2007年9月30日, 被开放存取知识库名录 ( The Direct of Open Access Repositories, 简称 DOAR) 收录的知识库已达 950 个,美国有263个,是知识库数量最多的国家。 

      领域及工作流知识库建设方面,北京市科学技术委员会在 2006年度启动了 “重点行业信息化知识库及服务体系构造” 项目, 选择多家企业开展重点行业信息化知识库系统的建设。中南大学出版社开发的《中国有色金属知识库》,是经过深度的数字化加工,形成的专业知识库。经过具有有色金属专业知识背景的编辑进行二维标引,即字面维度和知识体系维度,将其加工成为一个个知识点,形成具有知识网络结构的高质量专业知识库。在传统检索的基础上,形成对知识点检索、图检索、表格检索、公式检索等功能,用户可以快速定位所需。在生物医药领域,知识库已经进入到应用阶段在新药开发、临床治疗、医疗咨询等方面发挥了作用。 

      决策参考型知识库建设方面。其主要用于服务科研管理、重大科技或工程决策,而开展知识应用判断参考、科研效果评价和专家咨询等。如水稻知识库、COLLISIX专家知识库系统等,部分以知识判断为主要内容。为了更有力地支撑国家工程科技思想库建设,中国工程院于2011年开展了工程知识库建设重大咨询项目研究,2012年中国工程院牵头启动建设“中国工程科技知识中心”,以期其发挥国家重大工程决策参考作用。 

      3 美国地调局的知识库推进进展 

      美国地调局随着形势的发展和机构的调整,特别是经历了1995年生存危机后认为: USGS的生存和发展取决于整个社会的需求能力,必须保持同广大用户更好的联系,满足不断变化的国家需求。其工作的重点领域也随之发生了变化,主要表现之一就是大大加强了计算机技术的应用,建成了《GEONET》网络和一系列地学专用数据库,研究开发出“地球信息系统”等。在1997-2005年的战略计划中,USGS的工作重点放在资源、环境、地质和水文灾害,以及数据集成和信息管理四大主题上,强调利用自己的科学和技术优势解决国家最关注的资源、环境、灾害和信息问题,其职能设置上,明确将“对地球进行大规模的、多学科的调查,建立地球知识库”作为USGS的核心职能。 

      美国地质调查局(USGS)发布的“美国地质调查局信息技术战略计划:2007~2011 财年”,该计划提出了4 项战略目标及相应的年度任务,战略目标的核心之一是建立集成信息环境,其中与知识库建设有关的战略目标有如下两项: 

      (1)构建地质知识与科学数据不断融合的自然科学网。战略目标:构建集成信息环境的信息管理和服务中,目标集中在USGS 产生的信息管理方面,逐步减少获取和使用USGS 数据和信息的障碍,着手提高其科学信息集成和对用户服务的质量、效率和效益,建立自然科学网(NSN),提高图书馆、公共信息中心、科学出版物和公共网站服务中信息的转换能力。USGS 的自然科学网(NSN)正在发展成为一个在全国范围内集成的整合USGS 信息和知识的网络。人们可以在不同的地点用不同的方法访问这些信息和知识,并可优化用户个人查找和获得USGS 的信息和产品的能力。NSN 由USGS图书馆、科学信息中心、“Ask USGS”门户以及USGS 的各种数字出版物提供的服务组成。 

      (2)推动地质领域知识库应用研究。战略目标:构建集成信息环境的环境信息科学,USGS 的科学家们在理解、建模和预测复杂环境系统和过程方面,面临着巨大的挑战。很多挑战源自他们所研究系统和过程的复杂性、多维性以及非线性,源自表示这些系统和过程的数据及信息的采集、分析和管理过程中。 

      具体目标上提出,建立局级科学信息基础设施,增强分析和模拟能力,主要是为自然科学的专家们提供稳定的能提高信息技术能力的设施。它将建立在USGS 各个独立的科学计划已经进行的工作的基础上,并推动其发展,例如海岸和海洋地质计划中的知识库、国家水研究计划中的模块化的模拟工作。具体目标中的工作将增加对现有能力的认识,为提高科学计算基础设施的发展提出一致的建议,提供自动的类图书馆服务以推动跨项目、计划和学科范围内成功的技术共享。这些工作将在与科学计划整合的过程中由企业信息项目协调。 

      在2008年美国地调局财政预算调整方案中,多项研究工作均提到其科技领域的原始创新依赖于知识库平台或者作为向社会提供知识信息的重要媒介。因此在多个工作领域的预算调整均有知识库建设与拓展的预算内容,额度从几十万到四千万不等,有明确预算的研究领域包括地理研究、调查和遥感测量,环境评价,海洋与海岸带地质研究,国家信息流动研究,地表动力学研究,生物研究与监测,企业与社会信息(信息服务)。其中海洋与海岸带地质研究的知识库建设目标明确、预算额度交大,主要目标应用领域为:地震与海啸分析、海底与渔业研究、海岸带矿产资源研究、国家及地区海岸带变化风险研究、天然气水合物研究等。 

      4 地学知识库的需求构成与应用分析 

      在现代,决定一个国家科技发展速度的已经不只是人或者一个人的力量,而是社会的力量,由规模庞大的科学家队伍、先进的技术装备体系、高效率的知识累积服务网络、构成合理的科学劳动以及社会教育水平共同构建起来的。其中科学家、技术装备、知识累积与服务三者构成了科技发展的直接推动力量,构成合理的科学劳动反映科技组织水平、社会教育水平反映其对科技的人才支撑和社会经济支持。 

      地学知识与信息服务的新形势要求地质行业的信息化工作不仅要创造一个开放、灵活、没有围墙、突破时空限制的信息传播中心,更要构建一个功能强大知识组织中心,即实现构建一个融合地学知识资源、地质工作数据、地学科学数据的多元平台,引导知识获取与社会沟通,促进知识创造。 

      知识库的发展应用,已经从早期的知识资源存贮,逐渐走向知识挖掘、知识推理等智能化发展方向。基于知识库的知识管理、知识咨询、知识应用与服务已经在社会生活的多个领域开始应用,并逐步推广。当前,在地学领域内知识库建设高端需求热点主要集中在以下:一是基于地质领域知识资产管理与服务的地质行业机构知识库建设;二是基于信息共享与知识挖掘的领域知识体系;三是基于地学知识推理和决策参考的智能化应用;四是地质科技评价,对国土资源科技研究与的开发的成效进行细化评估(科技创新、科研仪器装备、基础地质工作、科学家状态)。 

      2012年-2013年,地学知识库项目组从推广知识库理念、了解行业知识库需求的角度对地质调查行业技术用户和管理用户进行了需求调研。调研主要反映的问题有以下几个方面:知识资源查询效率不高,部分重要资源下载不便利;可查询获取的有价值的资料有限,开放程度不高;对知识库理念有所了解,对知识库的知识资源的模式化调用功能有一定的需求,如基于问题的知识组织系统、基于报告模板的知识提取;领域知识体系知识组织水平不高,术语语义、地学知识元等研究较少;面向推理机应用的知识资源构建尚未起步,制约地学科研支撑国家宏观决策。 

      5 地学知识库体系设计的基本思路 

      1当前阶段建设思路 

      地学知识库以领域知识(论文、专著、专利)和地质调查项目成果为信息基础,开展地质调查成果知识特征、地学知识结构和知识元研究;加强地质学知识语言的跟踪和分析,逐步形成地质学术语语义规范;研究地质学不同领域的本体知识体系;编制地学知识加工规范,开发地质调查成果知识库、中国地质调查局机构知识库、地学领域知识库和地质调查工作流知识库。通过地质调查成果知识库等四类知识库的体系化建设,形成集地学知识资源汇聚——知识加工与知识体系构建——知识资源的应用与服务”地学知识库体系,形成成果与知识查询,成果与人才评价,管理与决策支撑,知识挖掘与知识应用四大功能。为智能知识服务奠定知识资源和知识应用基础。 

      5.2 地质知识资源的应用构成 

      地质调查机构知识:整合各地质调查项目承担单位的知识资产,实现中国地质调查局系统内知识资产汇集,以及不同信息之间相互共享、对比、评价。据不完全统计,1999-2012年,地质调查项目资助发表论文9275篇;1998-2012年,中国地质调查局局属单位公开发表论文11794篇,专著387种。目前,中国地质调查局局属单位主办的公开出版期刊28种;同时还有大量的用于学术交流的内部印刷文集、刊物等。这些都需要整体性进行知识资产汇聚和服务。 

      地质调查成果知识:在采集地质调查项目成果信息的基础上,分析成果结构,研究成果的知识产权特征,建立与文献资源、地质专家(人员)的联系,通过文献引证、项目承担情况等指标形成成果评价指标和专家评价指标。同时,对包括研究报告、成果报告、论文、著作和专利等知识性成果按照地学学科框架进行知识析出、切片、关联。 

      地学领域知识:通过一定的规则,按照不同的地学专业领域,将领域知识要素(知识元)进行切片化加工并建立有机联系。主要目标是为地学主要工作和科研领域提供切片化的知识要素和知识关联信息,建设的关键是知识的领域划分和切片规则的建立,通过领域划分和切片规则建立构建知识库大的结构关系和底层的数据关系,使知识服务的内容更加细化、类型更加清晰,知识要素的划分更能反映知识特征。 

      地质调查业务知识:采用知识管理机制与业务流程相集成的方法,根据在开展地质调查项目过程中遇到的问题,提供包括工作内容背景知识、工作涉及的领域知识、技术基本信息、行业标准、工作内容中的组织结构、行业主体业务流程、工作部署信息、工作过程中所形成的行业业务模型、行业业务数据与信息模型、相关技术解决方案、行业解决方案等全方位的知识支撑。 

      2地学知识库建设的关键技术 

      一是知识元与知识三元组应用。知识元是构成知识结构的最小独立单元, 用来表示一个个针对特定问题的解决方案,可以是概念、方法、规则、公理等数据或事实以及实例化的知识。地学知识元研究重点从两个方面开展,一是不同专业领域的知识元特点关联规则等切入,寻求地质知识元的内在特点和知识元加工的方法,为知识库构建提供理论和技术准备;二是研究知识表达模式,重点从知识语言特点和知识逻辑表达,为知识三元组应用及工作流知识库构建进行理论和应用准备。   

      二是术语语义知识网络。目前学科术语语义网技术、知识本体以及自然语言理解相关技术成为研究热点,是提高知识获取效率、理清知识关联体系的关键。知识语言的规范、自然语言处理技术是提高知识规范程度,提高知识库系统智能水平的关键技术和基础信息,也可提高用户的知识发现与挖掘能力。研究内容包括:领域语料库;领域术语语义网络构建研究、应用本体设计。 

      三是实体抽取和关联关系构建。在大数据研究的认知领域,有一种观点认为:关联比因果更重要,它在事物的因果关系被确认之前展现实物内部、外部丰富的多元联系。因此开辟多元的关联关系同道和维护关联通道的运行同样重要,当前关联关系构建上,主要语义网络、本体要素关系等方法拓展关联关系内容。在知识领域,实体是知识与应用环境构建关联关系的重要切入点,当前的主要关联内容是主题、人员、机构,逐步拓展到研究对象实体的抽取,对主题信息、人员、机构的归一规则研究长期是图书情报机构的一项基础性的工作和研究内容。 

      知识服务应用研究。主要是基于需求的功能设计与可视化设计。知识服务是知识库的主要应用目标,主要内容包括设计合理的知识库查新功能,提高知识查询的水平和效率;加强成果信息综合研究,不断根据技术层面、管理层面、决策层面需求,发挥技术服务和决策支撑功能;开展知识评价指标的设计和应用,包括针对学科、机构、专家、及重大问题评估等。通过这些基本功能服务可以拓展不同用户的知识需求层次。当前,主要是满足信息检索效率、知识聚类和对比分析、成果和人才评价、决策专家参考等方面。 

      三、当前工作建议

      (1)落实地调局机构知识库建设。机构知识库建设技术相对成熟。机构知识库的开放存取理念有助于推进地质调查成果中知识信息的社会化服务,同时,大量知识资源存储在一个共享程度更高的平台上,有利于推进地质调查工作的知识资产管理。 

      (2)加强地学领域的知识工程研究部署。当前地学领域的信息服务效率不高,尤其是在国家层面的决策参考服务,这与地学领域当前的知识工程研究开发层次不高有直接关系,应尽快部署地学领域的知识元、术语语义网、领域本体构建的研究和实施,以第二阶段知识库建设为特点,为智能知识服务奠定知识资源和知识应用基础。 

      (3)推进地质调查成果知识、数据与地学知识体系的融合,发挥信息组合优势,提高地质调查成果、地学领域知识的社会服务效率。 

中国地质调查局地学文献中心  联系我们

地址:北京市海淀区学院路29号 邮编:100083

网站标识码bm16000002  京ICP备2020044568号

京公网安备 11010202007433号

电话:办公室:(+86 10)66554848;咨询服务:66554700