2.2 语料库与平行语料的构建与处理 2.2 语料库与平行语料的构建与处理 在机器翻译领域,语料库(Corpus)和特别是平行语料(Parallel Corpus)是驱动模型训练和性能优化的核心基石。它们为机器翻译系统提供了学习语言模式、语义对应和翻译规则的宝贵数据。本章将深入探讨语料库与平行语料的构建原则、关键技术、常用工具以及处理方法,并强调其在机器翻译生命周期中的重要性。 2.2.1 语料库的定义与分类 2.2.1.1 语料库的定义 语料库是指在特定目标下,经过系统化收集、整理和标注的大规模真实语言文本集合。它反映了语言在实际使用中的各种特征,包括词汇、语法、语义、语用等。对于机器翻译而言,语料库通常指的是源语言和目标语言的单语文本集合,用于训练语言模型、词嵌入等基础组件。 2.2.