社会科学信息中的文本挖掘

点赞:12984 浏览:56208 近期更新时间:2024-01-14 作者:网友分享原创网站原创

[摘 要]认为信息分析方法可以用于社会科学研究,具有客观、系统和定量的特点.内容分析作为一种典型的信息分析方法展示了这些特点.但它也具有抽样过程的人为性、手工标引的低效率、人工作业的低信度问题.网络时代出现的文本挖掘方法能够处理海量文献、处理非结构化数据,其研究品质远远高于手工信息分析方法.

[关 键 词]文本挖掘 信息分析 内容分析

[分类号]G350

1.社会科学研究中的信息分析

信息分析的基本目标是通过科学的研究方法从公开信息源中发现有意义的信息.在科技情报时代,这种研究更多地应用于科学技术领域,如通过文献分析了解技术前沿水平,通过专家调查预测学科趋势.随着社会科学的发展,信息分析方法也用于社会科学研究.

科学方法在社会科学中应用是现代社会科学的产物.传统社会科学因远离社会应用,其研究方法要么是书斋中思辨,要么是经验的描述.贝尔纳在《历史上的科学》一书中质疑过这种社会科学:“企业、工业组织、行政管理、法律和政治都是实际的社会活动,但是这些社会活动远远不是应用社会科学.事实上,许多社会科学不过是把各行各业通行的实际办法,用学术文字写下来罢了”.造成这种现象的原因固然有传统社会科学价值取向的问题,但传统社会科学研究方法方面的缺陷,往往使得社会科学家即使从事了应用研究,也很难有效地支持社会决策活动.一般认为,1945年二战结束到20世纪70年代这段时间,是社会科学研究方法变革的年代.丹尼尔·贝尔认为,“人们有理由把1945年到1970年当作一个单一的时期,在这段时期中,在学科、方法论和技术方面,以及在各种社会规划方面,展现了一系列新的希望,标志着社会科学时代已经到来”.“随着尖端新技术的急剧进展,特别是在引进计算机以后,理论不再仅仅是一些观念或辞藻,而是一些可以用经验和可检验形式加以阐述的命题.再用专门的术语来说,社会科学正在变成像自然科学一样的‘硬’科学”.

现代社会科学是社会管理的重要工具.在面向应用的现代社会科学研究中,信息分析方法的客观性、系统性和定量性使其有了更加广泛的应用空间.有了这些特征,信息分析方法在社会科学研究中表现出无可替代的特定的优势.在社会科学研究领域,信息分析方法属于一种具有客观、系统和定量特征的研究方法:①客观性.客观性是信息分析方法区别于其他主要依靠思辨方式进行的社会科学方法的一个重要特征.信息分析方法以一整套可操作的研究步骤规范了研究者的行为,使其尽可能做到客观地表现文献中有意义的信息.②系统性.系统性是指在研究的各个阶段必须遵循共同的准则,避免信息分析出现因人因时而异的情形.信息分析通过研究的效度与信度指标实现研究的系统性.③定量性.信息分析研究总是尽可能地对研究对象或分析单元进行计量,然后用数学方法或数学模型对量化数据进行描述或分析.具备了客观、系统、定量特征的社会科学研究,能够摆脱传统社会科学的思辨性特征,在面向决策支持或社会应用的研究中具有更强的理论指导能力.

信息分析方法追求客观、系统和定量的方法论特征,目的是发现信息源中有意义的信息.在社会科学研究中,有两种场合需要采用信息分析方法发现信息源中有意义的信息:①信息生产者在公开信息产品中刻意隐藏了某些有意义的信息.在竞争性领域,如国际政治、商务、金融等领域、信息拥有者们受制于法律或舆论压力,需要公开某些信息.但他们出于各种目的,不愿意将全部信息示人,于是以各种手法在公开信息中刻意隐瞒某些关键信息.信息分析方法能够帮助情报人员辨别真伪,或发现真相.这类分析方法包括知识发现的过程,是信息分析方法的最高境界.②文献量过大,超出文献利用者解读文献内容的能力.由于当今社会信息生产量越来越大,某些研究信息虽然存在于公开信息源中,但超出了研究者在特定时机解读并用于研究需要的能力.这时信息分析方法可以将大量公开信息浓缩或可视化,表述为有意义的信息.这种方法看似简单并且没有知识发现过程,但同样是达到了在公开信息源中发现有意义的信息的目的.


情报学领域考察信息分析方法的优劣,不是看它模型是否复杂,结论是否花哨,而是看它是否能有效实现信息发现.或者说,只有能够从原始信息源中有效发现新信息或新知识的方法,才是最好的信息分析方法.

2.内容分析的优势与局限

以往用于社会科学研究的信息分析诸方法中,内容分析是非常典型的一种方法.通过对于内容分析的剖析可以较为清晰地看到信息分析用于社会科学研究的方法论特征.

内容分析从公开媒体中获取有意义的信息,或获取常规阅读难于获得的信息.内容分析产生于20世纪初,早年用于学术研究.人们对于公开文献的词或句子进行量化处理,通过对量化数据的处理和分析,寻找文献中人们常规阅读难于发现的隐含意义.二战期间,由于战时情报工作的需要,内容分析方法受到管理层重视,传播学家H.拉斯韦尔等人通过轴心国公开媒体定量研究轴心国情报,实现了内容分析方法的大规模应用,借此契机,拉斯韦尔于1938~1950年间将内容分析发展为一个完整的领域和一种独具风格的定量研究方法.此后,P.斯通于1961~1968年间将其改善,使内容分析成为一种重要的社会科学研究方法,并受到社会科学界的广泛重视.1971年,哈佛大学多伊奇等人在著名的《科学》上杂志发表论文,列举1900~1965年世界社会科学的62项重大进展,拉斯韦尔等人1938~1950年间发明的内容分析名列其中.

内容分析用于社会科学研究的一般工作流程为(检测定分析对象为媒体文章对某些主题的态度,如果分析单元为句子、段落或文章,流程大同小异):确定分析问题所需要的信息源,如几种报纸;抽样确定信息源样本,如周末版,或国际版;确定编码标引语词体系,编制编码表,即将需要从公开媒体中提取的主题组织成为类似问卷调查表的表格;预编码,测评信度、修订编码表;对样本编码标引,即判断样本文献对于编码表主题的相似度并进行记录;统计分析,将编码表数据录入计算机,按事先确定的权重体系进行统计,按某种分析模型进行分析;分析结果处理,对统计分析结果进行定性分析,得出结论.这一研究过程可以将研究人员常规阅读无法提取的信息客观地提取出来,表述为简洁的量化方式.客观、系统和量化正是内容分析的特点.

社会科学信息中的文本挖掘参考属性评定
有关论文范文主题研究: 关于社会科学的论文范文集 大学生适用: 学术论文、学年论文
相关参考文献下载数量: 77 写作解决问题: 学术论文怎么写
毕业论文开题报告: 论文任务书、论文摘要 职称论文适用: 技师论文、初级职称
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 最新题目

尽管内容分析有许多独特的优势,但在实际应刚中,以下局限却很难避免.这些弱点也是很多手工操作或半手工操作的信息分析方法所共同具备的,包括:

2.1 抽样调查的人为性

抽样研究的目的是通过某种科学的方法从总体中抽出的能代表总体的部分单元.人们之所以需要进行抽样,主要是对总体进行研究过于困难.内容分析的抽样也是如此.内容分析所处理的公开媒体数量往往十分庞大,手工处理很难,因此需要从总体中抽取部分样本.无论这种抽取所依据的方法多么科学有效,样