中文文本信息处理的原理与应用 |
|
|
|
|
| 书 名 中文文本信息处理的原理与应用 |
| 作 者 苗夺谦 |
| 出 版 社 清华大学出版社 |
| 书 号 302-15498-3 |
| 责任编辑 |
|
开本 |
|
| 出版时间 |
2007年8月 |
字数 |
千字 |
| 装 帧 |
平装 |
印张 |
0 |
| 带 盘 |
否 |
页数 |
|
|
| 定 价 |
¥29.0 |
|
|
| 普通会员 |
¥23.2
|
|
|
| 银牌会员 |
¥23.2
|
|
|
| 金牌会员 |
¥22.6
|
|
|
| 批量购书 |
电话:
010-51287918 |
|
|
|
|
|
|
|
中文文本信息处理的原理与应用 内容提要 |
|
|
《中文文本信息处理的原理与应用》是一本全面系统地介绍中文文本信息处理的教材,内容丰富,由浅入深地讲述了中文文本信息处理的原理与应用。《中文文本信息处理的原理与应用》不仅介绍了基于规则的自然语言分析方法,也介绍了基于统计学的方法。《中文文本信息处理的原理与应用》共分为四大部分,分别是词法分析、语法处理、语义分析和应用与技术。其中前三部分是自然语言处理的基本理论,第一部分针对中文处理中特有的分词问题,介绍了自动分词算法、分词中歧义的消除和未登录词的识别算法,另外还介绍了语料库的相关知识。第二部分和第三部分都是从语法(语义)的表示入手,将自然语言形式化,再给出语法(语义)分析的算法,并针对该过程中的歧义问题给出了一些成熟的解决方案。最后一部分讲述自然语言理解在信息检索、信息抽取、自动文摘和文本分类等领域的应用。《中文文本信息处理的原理与应用》思路清晰,在每部分及每章的开始都介绍了该部分知识与其他部分之间的关系,以及该部分的知识点之间的关系,以帮助读者从整体上把握中文文本信息处理的思路,并能根据不同的需求或不同的问题选择适当的算法。 《中文文本信息处理的原理与应用》涉及内容广泛,能满足不同水平读者群的需求,可以作为计算机、信息类高年级本科生的教材,也可作为自然语言处理方向研究生的教材,也非常适合作为自然语言处理应用领域的研究人员和技术人员的参考资料。
|
|
|
|
中文文本信息处理的原理与应用 目录 |
|
第1章概论1.1自然语言处理与中文信息处理 1.1.1自然语言处理 1.1.2自然语言处理研究的历史、现状及应用 1.1.3中文信息处理 1.2自然语言处理的新趋势 1.3本书内容组织 第一部分词 法 分 析 第2章自动分词 2.1关于自动分词 2.1.1分词规范 2.1.2自动分词的研究内容及意义 2.2分词词典 2.2.1关于分词词典的构造 2.2.2基于词属性的分词词典 2.3机械分词方法 2.3.1正向最大匹配算法 2.3.2逆向最大匹配算法 2.3.3邻近匹配算法 2.3.4最短路径匹配算法 2.3.5基于统计的最短路径分词算法 第3章分词歧义消解 3.1关于分词歧义 3.1.1分词歧义的类型 3.1.2歧义字段的发现 3.2基于规则的分词消歧 3.2.1分词预处理中的规则 3.2.2分词规则 3.3基于统计方法的分词消歧 3.3.1基于词频的消歧方法 3.3.2基于互信息和t测试差的歧义切分方法 第4章未登录词获取 4.1关于未登录词 4.2基于统计学的未登录词获取方法 4.2.1基于频率的方法 4.2.2基于均值和方差的方法 4.2.3基于假设检验的方法 4.2.4基于互信息的方法 4.3中文姓名的自动辨识 4.3.1辨识姓名中的当用资源 4.3.2同源对表、互斥对表及其操作 4.3.3姓名左右边界的确定 4.3.4屏蔽与恢复 4.3.5同源对表、互斥对表的规则校正 4.3.6概率再筛选 4.3.7中文姓名辨识系统 4.4中文统计词汇获取 4.5无词典分词方法 4.5.1分词模型 4.5.2无词典分词算法 第5章语料库的构建 5.1关于语料库 5.1.1国外语料库概况 5.1.2中文语料库建设状况 5.2汉语语料库的基本加工规范 5.2.1生语料与熟语料 5.2.2汉语语料库加工思路 5.2.3汉语语料库加工规范 5.2.4汉语文本词性标注标记集 5.3建设语料库的其他问题 5.3.1建设语料库的软硬件基础 5.3.2通用标记语言SGML 第一部分习题 第二部分语 法 处 理 第6章自动标注 6.1关于自动标注 6.1.1自动标注 6.1.2歧义的消除 6.1.3模型的训练 6.1.4词典 6.2马尔可夫模型和隐马尔可夫模型 6.2.1离散马尔可夫过程 6.2.2隐马尔可夫模型 6.2.3HMM的三个基本问题 6.2.4问题1的解法 6.2.5问题2的解法 6.2.6问题3的解法 6.3马尔可夫模型标注器 6.3.1概率模型 6.3.2Viterbi算法 6.4隐马尔可夫模型标注器 6.4.1隐马尔可夫模型标注算法 6.4.2隐马尔可夫模型训练中的初始化的作用 第7章语法表示 7.1关于语法表示 7.2形式语法描述 7.3短语结构语法 7.4转移网络 7.5短语结构与句法树 第8章语法分析 8.1关于语法分析 8.2基于符号串的句法分析 8.3自底向上的图句法分析 8.4自顶向下的图句法分析 8.5基于转移网络的句法分析 8.6移进归约句法分析器 8.6.1确定句法分析器的状态 8.6.2移进归约句法分析器 8.6.3移进归约句法分析器与歧义性 8.6.4词汇的歧义性 8.6.5有歧义的句法分析状态 8.7概率上下文无关文法分析 8.7.1概率上下文无关文法的一些特征 8.7.2概率上下文无关文法的问题 8.7.3词串概率的计算 8.7.4内部外部算法的问题 第二部分习题 第三部分语 义 分 析 第9章语义表示 9.1关于语义表示 9.2语义的逻辑表示方法 9.2.1一阶谓词演算 9.2.2基本逻辑形式语言 9.2.3逻辑形式中的歧义表示 9.3论旨角色 9.4语义网络表示法 9.5框架表示法 9.6量词的处理 第10章语义分析 10.1关于语义分析 10.2组合理论与语义解释 10.2.1组合理论 10.2.2λ表达式与语义解释 10.3基于语义特征的解释方法 10.3.1带语义解释的简单语法和词典 10.3.2语义角色 10.3.3特征合一的语义解释 10.4基于语法关系的语义分析 10.5语义语法 10.6模板匹配 10.7语义驱动的分析技术 第11章语义消歧 11.1关于语义歧义 11.2选择限制法消歧 11.2.1选择限制 11.2.2选择限制与句法分析结合的消歧方法 11.3语义网络 11.4统计词义消歧 11.5统计语义优选 第三部分习题 第四部分应用与技术 第12章文本分类 12.1关于文本分类 12.1.1自动文本分类定义 12.1.2文本分类任务的特点 12.1.3文本分类基本实现途径 12.1.4文本分类的组成 12.1.5文本分类的应用领域 12.1.6国内外研究现状 12.2文本分类方法 12.2.1文本表示与文本特征选择 12.2.2分类器设计 12.2.3分类器的阈值选择 12.3文本分类的评测 12.3.1单类赋值 12.3.2多类排序 第13章信息检索 13.1关于信息检索 13.1.1信息检索的对象和任务 13.1.2信息检索的评测 13.1.3信息检索模型及其设计 13.1.4应用领域 13.1.5中文信息检索的特点 13.2基于统计学的信息检索模型 13.2.1布尔模型 13.2.2向量空间模型 13.2.3概率模型 13.3基于语义的信息检索 13.3.1基于NLP的方法 13.3.2潜在语义索引 13.3.3神经网络 13.4典型信息检索系统 13.5信息检索技术前沿 13.5.1基于Web的信息检索 13.5.2搜索引擎 第14章信息抽取 14.1关于信息抽取 14.2半结构化文本的信息抽取技术 14.2.1基于隐马尔可夫模型的信息提取 14.2.2基于规则的信息抽取方法 14.3典型信息抽取系统 14.3.1AutoSlog信息抽取系统 14.3.2PALKA 14.4Web信息抽取 14.4.1包装器方式的信息抽取 14.4.2基于本体方式的信息抽取 14.4.3基于Web查询的信息抽取 第15章自动文摘 15.1关于自动文摘 15.1.1文摘的定义 15.1.2文摘的分类 15.1.3自动文摘的意义 15.2自动文摘的方法 15.2.1基于统计的自动文摘 15.2.2基于理解的自动文摘 15.2.3基于信息抽取的自动文摘方法 15.2.4基于结构的自动文摘 15.3自动文摘系统的评测 15.3.1内部评价 15.3.2自动文摘的外部评价 15.3.3评测方法的研究现状 15.4自动文摘系统 第四部分习题 参考文献 |
|
|
|
|
|
中文文本信息处理的原理与应用 调换货原则 |
|
|
|
|
查看评论 |
|
|
|
发布评论 |
|
|
|
|
| |
|
|
|
|