河南社会科学
主办单位:河南省社会科学界联合会
国际刊号:1007-905X
国内刊号:41-1213/C
学术数据库优秀期刊 《中文科技期刊数据库》来源期刊
       首 页   |   期刊介绍   |   新闻公告   |   征稿要求   |   期刊订阅   |   留言板   |   联系我们   
  本站业务
  在线期刊
      最新录用
      期刊简明目录
      本刊论文精选
      过刊浏览
      论文下载排行
      论文点击排行
      
 

访问统计

访问总数:20178 人次
 
    本刊论文
人文社会科学研究中文本挖掘技术应用进展

 [摘要]指出作为处理海量数据的有效工具,文本挖掘技术近年来在人文社科领域得到广泛重视。概述文本挖掘的相关技术和研究现状,介绍信息抽取、文本分类、文本聚类、关联规则与模式发现等常用的文本挖掘方法在人文社科研究中的具体应用,以拓展文本挖掘的应用领域,并为人文社科研究的方法创新提供新的思路。

  [关键词]文本挖掘人 文社科 技术应用
  [分类号]TP391
  [文本挖掘概述
  文本挖掘(text mining)是一个跨学科的交叉研究领域,涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义,关于文本挖掘的名称亦有“文本数据挖掘(text data mining)”或“文本知识发现(knowledge discovery in text)”等不同说法。一个比较广泛使用的定义是:文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。
  一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤,其中包含了多种文本处理与挖掘技术,如数据预处理技术中的分词、特征表示、特征提取技术,挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。
  文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识,目前在很多领域得到了广泛应用。文献计量的结果表明,近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge(WoK)中检索可得与文本挖掘相关的论文3 049篇(截至2010年),且呈逐年上升的趋势。从WoK学科统计来看,目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域,论文总数占文献总量的82%。相比而言,人文社会科学领域的论文则较少,两者之和为18%,其中人文科学仅为1%。
  由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,成为情报学中最有前景的领域之一。由于人文社科文献的非结构化特征更加明显,文献中包含的隐性内容更多,能否在人文社科领域成功运用文本挖掘就成为了检验文本挖掘的方法论优势的试金石。本文以文本挖掘的几个关键技术——信息抽取、文本分类、文本聚类、关联规则、模式发现与可视化技术为主要线索,分析发现文本挖掘技术在人文社科研究中的应用特点,以便为人文社科研究中更加自觉地应用文本挖掘方法提供新的思路。
  2、信息抽取应用
  信息抽取(information extraction)是文本挖掘的前-端技术,它从文本对象中抽取预先指定的实体、关系、事件等信息,形成结构化的数据并输入数据库。信息抽取所获得的结构化信息片段从一个角度反映了文本内容的内在特征,因此通过机器学习等方法可以从中发现知识、挖掘知识,为科学研究提供有力的支持。
  信息抽取作为一门独立的内容处理技术,其本身在商业、情报分析、数字图书馆等领域有着广泛的应用,已有较多专门的信息抽取系统投入商用。在人文社科研究中,信息抽取常常作为文本挖掘的一个重要步骤,作为知识发现技术的前端和基础。文献构建了基于信息抽取的文本挖掘模型,均把信息抽取作为文本挖掘的一个重要组成部分,是提高文本挖掘效率的一个手段。不仅讨论了信息抽取对文本挖掘的作用,而且证实了通过文本挖掘得出的规则对信息抽取系统具有指导作用。除了作为文本挖掘的前端技术,信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。
  2.1 改善信息检索
  传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档,而信息抽取则可以帮助用户直接定位所需的信息,无需阅读文档的全部内容。由于在处理海量数据时具有出色表现,信息抽取在多个人文社科领域得到了应用。在古典文学研究领域,德国莱比锡大学承担的eAQUA项目从古典文献资料(公元前3000年一公元600年)中抽取特定领域的知识,并通过eAQUA门户免费提供这些知识。在文献中,英国伦敦国王学院的Matteo(2010)介绍了一个信息抽取在古典文学中的应用研究项目,该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取,并提供与原始文献之间的关联,从而提供更高级的信息展示和检索功能。在社会学领域,英国联合信息系统委员会(JISC)资助的ASSERT E’’项目综合利用信息抽取、文本聚类等技术提供了一个自动生成文献综述的系统。信息抽取技术与信息检索技术互相融合渗透,为人文社科领域海量信息资源的获取提供了极大的便利。
  2.2 辅助知识发现
  除了在精确信息检索中的应用,信息抽取在辅助知识发现中同样有着广泛的应用。在文学研究中,信息抽取技术与社会网络分析相结合被用来对文学作品中人物的社会网络关系进行自动分析。Elson等(2010年)对60部19世纪的英国小说和期刊进行了社会网络关系挖掘。通过识别由引号标记的人物对话,然后指派给特定角色,构建了小说中人物的社会网络关系,并研究了抽取的人物的社会网络特点、社会网络之间的关系以及社会网络与小说背景和特征的关系。文献则研究了如何从文学作品中自动抽取人物社会网络关系的方法。在历史学研究中,信息抽取可以抽取相应的历史文本中的地名、人名等特定信息,通过信息可视化发现历史事件随时间和空间的演变规律。相关项目有英国艺术与人文研究委员会(AHRC)资助的Hestia项目、美国国家人文基金(NEH)资助的北德州大学的历史领域文本挖掘与可视化应用项目等。在经济学研究中,信息抽取可以用来自动抽取相关经济体的属性数据和关系数据。丁堃以我国31个省、市、自治区的区域经济发展为研究对象,以各区域《政府工作报告》为数据源,通过抽取各区域经济的属性数据和区域经济间相互引用的数据,对区域经济的聚合状况和相互关系进行了研究。在法学研究中,信息抽取帮助对法律案件进行论据的抽取以辅助案情的分析,用于识别犯罪网络。在政治人物研究中,利用词汇集中度等信息抽取方法可以识别哪些是参议院的重要成员。在社会学研究中,信息抽取可以分析会议记录并抽取关键决策要素。
  可以看出,作为文本挖掘技术中关键性的基础技术之一,信息抽取在人文社科研究中已经发挥了巨大的作用。在知识发现中,信息抽取主要是作为一种辅助技术,通常需与社会网络分析、聚类分析、可视化等方法相结合,以发现文本中隐含的深层知识。

特别说明:本站仅协助已授权的杂志社进行在线杂志订阅,非《河南社会科学》杂志官网,直投的朋友请联系杂志社。
版权所有 © 2009-2024《河南社会科学》编辑部  (权威发表网)   苏ICP备20026650号-8