会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 论文中网(LunWenZ.Com)专注于论文发布,论文发表,论文代写!
当前位置:主页 > 英语 > 外语翻译 > 正文

商务英语信函机器翻译中的连词结构调序研究

时间:2013-08-07 15:08 来源:论文中网 作者:曹瑞明 阅读:
摘要:面对海量的商务英语信函文件,依靠传统的人工翻译已不能满足时代需要。机器翻译作为突破语言障碍的重要技术手段,在经济发展和社会生活中起到了日趋重要的作用。“句子意义»词汇意义+语序意义”,语序对译文质量起到关键性作用。我们针对并列结构的一种即由并列连接词“and”连接的有标记并列结构进行研究,以构建的英汉商务信函语料库为语料,运用“分解聚合法”分析了英汉商务信函机器翻译中的“and”结构的调序处理方法,对边界管辖范围确定做出了新的研究,以促使基于语料库的英汉商务信函机器翻译的译准率得到提高。
关键词:商务信函;英汉机器翻译;“and”结构;双语语料库
1.引 言
随着经济全球化和互联网的迅猛发展,国际间的交流与合作日益广泛和深入。语言差异已成为国际交流与合作的最大障碍。自我国加入世贸组织后,中外商务交往日益增多。由于这些商务交往中有相当的一部分是通过信函形式进行,所以商务信函的翻译就成了一种日益多见的翻译形式。面对海量的商务英语信函文件,依靠传统的人工翻译已不能满足时代需要。机器翻译作为突破语言障碍的重要技术手段,在经济发展和社会生活中起到了日趋重要的作用,成为当前研究的热点之一。
“句子意义»词汇意义+语序意义”,语序对译文质量起到关键性作用。我们在统计机器翻译基础上引入特定语法结构(并列结构)进行实践性研究,研究成果相当于在原翻译系统之上增加的预处理和后处理的模块,直接提高商务信函机器翻译的质量。本文针对并列结构的一种即由并列连接词“and”连接的有标记并列结构进行研究,以构建的英汉商务信函语料库为语料,运用“分解聚合法”分析了英汉商务信函机器翻译中的“and”结构的调序处理方法,对边界管辖范围确定做出了新的研究,以促使基于语料库的英汉商务信函机器翻译的译准率得到提高。
2. 英汉商务信函语料库的构建
商务信函是公司一种比较正式的公务文书,其一般目的是建立和保持良好的商务关系、获得或发布商务信息、达成合作和交易等。商务信函所使用的语言有别于日常用语,并且有一定的格式和表达方式。这些特定的语言知识使用频率很高,并且单从传统的人工方法来获得犹如以蠡测海,不仅效率极低,而且带有很大的主观性和片面性。语料库是突破这个问题的有力工具。我们在语料库语言学理论的指导下,建立了一个规模为100万词次的英汉商务信函语料库,参照北京大学双语语料库加工标注规范,利用双语对齐软件以及人工校正达到句子级对齐。我们根据商务信函知识,将建设的英汉商务信函语料库的语料收集范围分为建立业务关系函、产品推销函、资信查询函、询盘函、发盘还盘函、订购函、装运通知函、支付结算函、索赔函、保险函等,这些信函涉及商务活动的全过程。该库为动态的、开放的,可以自动获取服务于机器翻译的知识资源。根据计算语言学理论与实践,我们进行了基于语料库的商务信函机器翻译研究。
3. 英汉商务信函机器翻译中“and”结构的处理
大致来讲,现行的机器翻译系统主要有基于规则和基于统计两种方法。在规则系统中,人工可以编写出复杂的,语言学意义明确的规则,较容易利用语法信息,但是在人力成本、常用习语的翻译上不如统计系统。对于统计系统而言,虽然节省了大量的人力,也省去了用于解决规则冲突的复杂设计,但是却难以将语法结构等信息引入数学模型。怎样在统计系统中引用丰富的语言学信息,特别是语法结构信息,是当前统计机器翻译研究的一个热点,在统计翻译系统中引入句法信息的方法很多,可以从预处理、语言模型、解码器以及后处理等各个环节引入形式句法知识。本文属在翻译预处理模块中引入句法知识。由于前人在语言模型中制定的句法知识涉及面较宽泛,研究点不够细致,因此,我们针对并列结构的一种即由并列连接词“and”连接的有标记并列结构进行研究。并列连接词“and”连接的并列结构是整个并列结构的基础,在数量上占据并列结构的绝大部分比例,由“and”连接的并列结构所构成的并列结构形式囊括了双项、多项、分句等所有形式的并列结构,在几个连接成分中最具有代表性。而对于其它连接成分如“but”、“or”、“nor”、“;”、“,”等的调序处理过程及具体方法和“and”的调序处理方法在总体思路上一样,只是在个案处理中所采用的具体规则有所不同。本文屏蔽掉这些大规模的重复性工作,致力于研究“and”结构的翻译调序,并实现一种并列连接成分“and”所连接的并列结构的翻译调序。基于英汉商务信函语料库通过句法分析研究“and”结构的形式化构成,前后管辖范围,内部嵌套情况以及前后临界搭配的情况,并制定可行句法转换规则。(1)针对英文并列结构的语言学特征,我们以语言学研究领域关于并列结构的理论研究为基础,结合英汉对比研究领域关于英汉并列结构的语法对比研究成果,通过分析英文商务信函文本语料,统计并总结英文商务信函并列结构的语言学特征。(2)针对并列结构调序中的层次性问题,以统计翻译系统对象结合句法信息,在统计系统的预处理和后处理阶段对英文商务信函并列结构进行调序研究(如图1)。在预处理过程中,我们首先对待翻译语言进行句法分析,利用句法分析信息确定待调序单位和调序规则;在后处理过程中,利用目标语言的特点对翻译结果进行层次聚合。(3)针对并列结构的管辖失误问题,我们在概念层次网络(HNC)机器翻译的过渡处理阶段解决并列结构的调序问题,主要通过概念相似度计算和对仗假设检验两个方面对并列结构的管辖失误问题进行研究。
在“and”结构的调序处理研究过程中,我们提出“分解聚合”的解决方案,该方案的基本思想与许多利用语言学知识进行调序的方法类似,以利于将规则信息与统计翻译的优势结合起来,发挥各自的优势。“分解聚合法”主要包括“分解”和“聚合”两部分,“分解”的主要工作是将一个含有“and”结构的“复杂句”拆解成几个不含“and”结构的“简单句”。分解后将“简单句”依次送入统计机器翻译系统,待输出“简单句”译文后,对译文进行聚合处理,将“简单句”译文再次整合。分解阶段主要作用于统计翻译的预处理阶段,聚合阶段主要作用于统计翻译的后处理阶段,因此,这种方法可以独立于翻译系统而单独使用,既可以用于统计翻译系统,亦可用于规则翻译系统。本研究中分解聚合模块所作用的系统为统计翻译系统,整个实现过程:
推荐内容