全球机译xml 标签处理能力调查

[Copy link]
see2105 | reply0 | 2021-11-21 07:48:46 | 显示全部楼层 |Reading mode
起了个正经的名字,但仍以不正经的风格写。我写的不是科学论文,但科学论文就必须正经又是谁的馊主意?
格式标签

上回书说到,我是文件翻译处理专家。翻译文件时,待翻译的原文里会有一些表示格式的标签。例如下面这个例子:
Can you sing well?
我们看到 you and sing 是粗体。那么的源码可能是:
Can <b>you sing</b> well?即<b>表示粗体开始,</b>表示粗体结束。
如果你把 Can you sing well? 发给机译,大家都没什么问题。但多了<b>and</b>之后,结果就五花八门了:



“罐头你唱歌嗯?”是个什么鬼?
就这么干!各机译是怎么处理标签的

GT4T集成了30个机译,而各个机译把标签处理得五花八门,这个问题我头疼很久了。因为在翻译文件的时候,标签乱了,错了,就可能造成文件无法打开。bug天天修,就是因为总是有某个机译冒泡,花样损坏标签。总结一下,各机译对句子中所含标签的处理,大致有以下几个路子
难言之隐,一扔了之

这个最简单,见到了<b>这样的标签,洗掉,弃之。不让它们影响句子的连贯性。把Can <b>you sing</b> well?处理成 Can you sing well 再翻译。当然译文的是格式标签全丢掉了。
彩云小译and云译科技就是这么搞的。但至少算是处理了,译文质量也保证了,挺好的。


不处理,听天由命

就是把带有标签的原文原封不动地送到机译运算的黑盒子里去,爱咋咋,然后机译生产出了啥,就原样推给用户。
我最头疼的就是它们了,因为它们生成的结果完全不可预知。百度and腾讯翻译君经常把标签里的引号给翻译成了中文引号,或者各种花样unicode 引号。讯飞则经常丢个结尾的>。例如让它们翻译:
<g id="35">hello world </g>结果可能是:
<gid = “35“ 你好世界</ g用这样的译文去生成 xml文件,文件是打不开的。我不是自封的软件工程师吗?标签坏了,修啊!自从离开了体制,没了职称,一度耿耿于怀。我还逼着我公司二当家,我媳妇,给我发了个高级职称证书呢。多少个不眠之夜,GT4T终于能把上面类似的被机译损坏的标签修好了。经过GT4T修补后的结果是这样的:
<g id="35">你好世界</g>好像没什么了不起是吧?问题是GT4T有30个机译,各机译损毁标签的方式并无太多规律可循。经常经过一番努力,觉得万无一失了,一发布,第二天就有用户带着 bug 找上门来了。
在这十分感谢给我提交bug的用户们,没有你们就没有如此完美的GT4T文件翻译器。吉第福福第是个小公司,实际上只有两个人,我和媳妇,悄悄地,真正干活我其实就是我一个人。这?不就是个一人皮包公司嘛。个人搞开发,测试,全靠用户,哈哈。
就这样发布,出bug ,修bug ,再发布这么个一轮一轮地转下来,到了今天GT4T文件翻译器bug真得不多了吧。来看一下GT4T文件翻译器都能处理哪些格式:


当然,你不用知道所有这些文件格式。昨天有个开翻译公司的朋友问我,GT4T能翻译Translation WorkspaceOf xlz不,我说能。可把她惊讶坏了。要知道 idiom WorldServerand translation worldspace这些CAT,一般的专业译员也不一定知道。只有在苹果等大公司做全职本地化的人可能用过的CAT格式,GT4T居然可以批量翻译它们,并完美保留格式标签。什么叫深耕一个行业?我能说GT4T是机器翻译应用于翻译行业中的第一应用软件吗?
不得不说,完全不处理标签的作法,是国内机器翻译的主流。我知道现在很多人很敏感,听不得有谁说外国好中国不好。但对不起,就在标签这个问题上,国内外有明确的分水岭:外国引擎好,中国引擎不好。
我拆了你
一见标签就拆,把原文以标签分隔,拆成几部分分别翻译,然后再串一块儿。这么干的代表是小牛翻译and新译科技。于是 Can <b>you sing</b> well? 成了 Can (罐头)和 you sing (你唱)和 well?(嗯?)。结果就是:
                                                      罐头你唱歌嗯?
这么拆得好处是,标签可全部无损保留。坏处是一有标签,译文质量便严重下降——好好一个句子拆成几部分翻译,翻译过来还能是句子吗?

译文保留标签,且能大致放到正确的位置

真的差别太大了,国外的几个主流引擎居然都能做到这一点,我猜在xml标签处理上他们都是下了功夫的。从上到下分别是 google、systran、ModernMT、和DeepL.



如果标签较多,标签套标签,还是会影响质量。 因为英汉语言语序和用词差别较大,要是能做到标签跟词走还是有些难度的。
DeepL说,我能做到!

以下是DeepL网站上的原话:
This time, the sentence is translated as a whole. The XML tags are now considered markup and copied into the translated sentence. As the translation of the words "had been" has moved to another position in the German sentence, the twopartags are duplicated (which is expected here).
大意是说,译文中语序改动,标签不光会跟着词走,必要时还会被复制。
真的真的?这里deepL举了个德语的例子。我一直很怀疑英汉它能不能做到,直到我看到了本文题头那句:
Can <b>you sing</b> well?这里 you and sing 是粗体的,对应地理想情况下,译文中的“你”和“唱”应为粗体。这次deepL居然真的做到了。DeepL的返回的结果是
<b>you</b>能<b>唱</b>好吗?显示结果是:


“你”:粗体,“能”:非粗体,“唱”:粗体。
真是神了。在汉语译文里,“能”字把原来连在一起的 you sing 分开了。“能”字对应的can 在原文中是非粗体,这就需要把<b></b>标签复制出一对,分别加在“你”和“唱”上。
我试遍30个引擎,确实只有deepL能做到。真功夫。

希望之星

腾讯Transmart的黄国平博士以前跟我说过,xmlandmarkdown的处理,他们是下了苦功夫的。由此对标签的处理,我尤其对transmart有信心。它虽然不像deepL那么博眼球,还会复制标签,但transmart对各种复杂的标签处理得也相当好,且能保持翻译质量的稳定性。



把“唱”字加粗,就我们这个句子来讲,这样的处理我已经非常满意。

There are more resources in this post

What do you need Sign in Can I download or view it without an account?Join now Scan and login on wechat

x
Translated by the Internet, your translation resource information platform, pay attention to the official account [translation information]-Official account:fanyi899
You need to log in before you can reply Sign in | Join now Scan and login on wechat

Integral rules of this edition

16

theme

16

Post

62

integral

Registered members

Rank: 2

integral
62