现代社会越来越依赖于信息技术的发展和应用.尤其是随着网络和通信技术的发展,互联网已经成为人们获取信息的主要平台,这激发了以文本为基础的数据挖掘技术的迅速发展.文本挖掘技术希望为人们提供获取有用信息的有效技术手段,为人们在海量的互联网数据中提供获取信息、过滤信息、总结信息,以及信息可视化的自动化工具.这一领域面临着两个方面的挑战:一方面是根据数据处理复杂性的需要发展出复杂的数据模型;另一方面是根据这些数学模型设计有效的算法使计算机能够根据模型处理海量复杂的数据.本书比较好地将这两方面进行了结合,既对目前经典的数学模型进行了详尽的介绍,也对其中涉及到的算法进行了分析.
本书共包含9章:1信息检索中的概率模型;2信息检索和自动文本概要技术中的可学习排序模型;3Logistic回归和文本分类;4文本信息检索中的核方法;5文本信息检索中的话题生成模型;6信息抽取中的条件随机场模型;7机器翻译中的统计方法;8复杂信息检索中的信息挖掘方法;9.将观点检测转化为话题分类问题.最后附录中对概率模型进行了比较详尽的回顾.
文本检索与文本信息挖掘领域非常庞杂,涉及众多模型、算法,初学者很难形成系统全面的认识.本书为该领域的研究者提供了非常全面的综述,不仅在模型介绍方面深入浅出,在问题分析方面也非常到位.本书第一作者Eric Gaussier是法国傅立叶大学计算机科学系教授,第二作者是巴黎第十一大学计算机科学系教授.
有关论文范文主题研究: | 关于模型的论文范例 | 大学生适用: | 大学毕业论文、硕士毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 68 | 写作解决问题: | 学术论文怎么写 |
毕业论文开题报告: | 论文任务书、论文小结 | 职称论文适用: | 刊物发表、职称评中级 |
所属大学生专业类别: | 学术论文怎么写 | 论文题目推荐度: | 经典题目 |
本书非常适合在校研究生和相关科研人员阅读参考.
张志斌,副研究员
(中国科学院计算技术研究所)