理科生与文科生来自两颗不同的星球,一个偏理性,一个偏感性。
学计算机的,通常有着比较系统的思维方式,按照编程模式分拆开来看,即分为定义问题,分解问题,优化迭代问题的思路来解决问题。学语言的,极少数上过逻辑课,没有经过推理训练,一般偏向于模糊感性的思维方式。
机器翻译,则是理科加文科碰撞的产物。如何用计算机的思维来看待机器翻译的问题,是魏勇鹏与邹剑宇磨合了一年后才达成的共识。
一
大一时,魏勇鹏想学一门二外,但德语老师要求选德语的三个月不能看英语,计算机专业的英语基础资料偏多,太冲突,最后选了日语,学了三个学期。有回魏勇鹏看到小语种班的的板报上写着这样一句话,多学一种语言,你就多了一种人生。现在回想起来,魏勇鹏觉得别有一番深意。
大三暑假,院系的研究生实验室要从本科生中招一个会日语的做一些辅助性工作,魏勇鹏被选中,开始跟着课题组做机器翻译项目。他觉得自己对学习语言本身可能没什么天赋,但很喜欢去钻研语言本身的机制。
研究生毕业,魏勇鹏入职同方知网,负责主导网站机器翻译引擎的研发与 CNKI 翻译助手的完善。机器翻译引擎主要供网站内部使用, 把国外的文献摘要翻译成英文,供中文读者检索,CNKI 翻译助手则相当于一个翻译辞典工具。两个产品做的相对成熟时,魏勇鹏想组建一个人工翻译团队,把国外一些优质的论文通过人与机器翻译的配合,翻译成更好的译文,或跟国外的版权方去谈,翻译完成后在中国出版。
可理想丰满现实骨感。2008-2009 年经济危机,团队刚招了两个硕士生准备开干,网站领导就砍掉了这个项目。魏勇鹏觉得机器翻译并不是同方知网的核心业务,有更多延伸的可能性很小,于是决定辞职。
当时正好有朋友叫他做跨境电商。魏勇鹏心想,贸易商品交流,也算是机器翻译比较大的一个商业应用场景,于是一切做了一个“日本代购”网站——九万里。合伙运营了一年左右,魏勇鹏发现,电子商务重在商务,并不是自己的擅长,网站订单量也远远达不到应用机器翻译的程度,决定退出。
经历了两次无功而返,魏勇鹏希望自己能把控事件的走向。所以,这次他索性找来五个同样对机器翻译感兴趣的朋友,集资创办了语智云帆。
有两个合伙人都与日本专利事务有关,认为专利翻译有着明确的商业需求,也较成规模,且通过调研分析发现,在日本翻译行业中,专利翻译的比例占 16%,同时有着大量现存的中日同组专利公开文本,可以用来做机器翻译的语料库。而专利中专业术语的翻译标准,也很清晰,对机器翻译的翻译效果有利。
确定市场方向后,开始着手做第一款产品——翻译输入法。据魏勇鹏介绍,使用翻译输入法时,输入中文的第一个字,就可以对需要翻译的词进行判断,输入两三个词语时,就可以准确判别你要翻的句子,如果对翻译结果不满意,可以继续进行精确输入,翻译结果也会跟着调整,直到满意为止。产品打磨了一年半左右的时间,做出来时挺激动的,但并没有人愿意买。
魏对此有过总结,首先,这是一个云输入法,必须要有局域网的翻译引擎数据库做支撑,客户需要买了引擎才能使用;其次,2011 年时网络状态不太好,输入法体验都比较糟;再次,输入法是一个独立的客户端,翻译工作人员并不习惯在里面打文本,即使后来做了 word 插件,但离好用还有距离,产品最终没有继续研发下去。
这时,公司创立时集资的 47 万也快用完了。
在提供翻译技术外包服务的同时,语智云帆开始组建自己的专利翻译团队。在北二外旁边的一个居民楼里租了个两居室,为专利翻译兼职学生做辅导。两个月后,接到了一笔日本专利翻译的订单。客户每个月会根据完成程度进行派单,到年底魏勇鹏算了下,总共做了 10 万件。
语智云帆创立后,魏勇鹏还和几个合伙人一起创办了国内翻译技术沙龙,参与者主要是国内机器翻译圈的人,还有各个翻译院校的师生。到今年下个月沙龙已经举办了 23 期。
二
邹剑宇大学毕业后的第一份工作是在九江日报周末版做编辑。稳定的工作与高收入往往不能划等号。一年后,邹剑宇辞职去了深圳,之后的四年,再没有做过稳定的工作。其中有两年是做广告销售,俗称“扫街”。“没人依靠,要自己养活自己,挣不到钱就没饭吃,没地住,这两年对个人成长价值很大。”邹剑宇回忆道。由于之前有记者经验,邹剑宇开始给三联生活周刊写一些小文章或随笔。
1997 年时,杂志发展势头正好,三联生活周刊也开始进入正常的半月刊运作状态。同学苗炜劝邹剑宇说,“咱们学了四年中文,除了写字还能干什么。”邹剑宇心想,也对。于是入职三联生活周刊经济部,成为了国内第一批 IT 记者,与陈彤、刘韧、李学凌等都是好友。邹剑宇这样形容当时的社会环境:“用数字化生存译者胡泳的话说,‘唯一时髦的就是技术’。”
准备离开三联时,邹剑宇已经过了三十岁。他特地请教过陈彤,陈彤告诉他,“离开是好事,就是有点晚。” 离职后,邹剑宇选择了雅虎,负责内容运营,主要做邮箱的 RSS 内容订阅。
2007 年,雅虎是全球第一门户。邹剑宇觉得,这个职位既同时接触到互联搜索、邮箱、社区与门户,又可以跟产品经理、工程师打交道,是个很好的机会。2008 年下半年,雅虎停掉了在中国的业务,阿里为邹剑宇提供了去支付宝的职位,但邹剑宇似乎觉得,自己在编辑的路上还没有走完,于是去了猫扑,做总编辑。
邹剑宇从负责前端内容的形态转为负责猫扑的全部内容,不仅要考虑频道建设,还要考虑整理的流量与销售,做的很开心。但很快,新浪微博开始兴起,网站变得不那么主流,猫扑在广西政府的政策引导下,转型做移动互联网。中国移动罗川找到邹剑宇,让他做中国移动的移动微博总编辑,负责移动微博的运营。
干了近两年,邹剑宇觉得,自己不想一直做一个职业经理人,想做一件由自己立项推动的事情。于是决定退出中国移动。
三
2013 年,邹剑宇接手元培翻译互联网业务,主要为阿里巴巴的跨境电商平台提供翻译服务,魏勇鹏是其技术供应商,两个人经常在一起探讨业务。一年后,这个在线翻译管理平台并没有正式上线运营,出于成本考虑,元培停掉了这项业务。但邹剑宇和魏勇鹏觉得,这是一件可以做下去的事情,于是一起创办了商鹊网。
商鹊网作为主体拿到第一笔融资后,整体收购语智云帆,成为其全资子公司,也不再是一家纯技术开发公司。
“当时跨境电商的热潮刚来。所以创办商鹊网后,做的第一件事情,就是重新成为阿里巴巴的供应商。”邹剑宇说,“但做了半年后发现,跨境电商的链条很长,影响利润的环节很多,贸易本身利润就不是很高,卖东西的人不赚钱,给卖东西的人做翻译就就更赚不到钱。”
邹剑宇和魏勇鹏商量之后决定,把主要精力投入到专利翻译的业务上。随着日本专利局的认可,订单量也继续增加,14 年扩大到 78 万件,15 年扩大到 145 万件。魏勇鹏说,“虽然价格不到市场的三分之二,但商鹊网仍然能做到 30% 的盈利,正是翻译引擎的价值体现。结合语智云帆之前的技术积累,现在商鹊网翻译引擎中的专利语料库共有约 6000 万中英句对、4000 万中日句对,总数量超过 1亿。魏勇鹏告诉雷锋网(公众号:雷锋网),除了谷歌,试译宝的数据量现在算是最全的。
专利翻译的成功经验,让商鹊网摸索出了一套人机翻译相结合的标准化流程,于是这套培训的经验与流程变成了试译宝,并加入了智能批改的功能。
7月18 号上线后,在几乎没有做任何付费推广的情况下,已积累了 2 万多注册用户。平台上的培训老师则主要来自机器翻译沙龙的成员,译员也主要来自参与沙龙的院校。
邹剑宇和魏勇鹏算了这么一笔账,目前全国大概有 300 多所翻译院校,约 150 所本科院校,205 所研究生院校,每年翻译硕士毕业生约为 8000 人,但据观察,进入翻译行业的不到 5% 。但市场上的翻译人才是稀缺的。通过试译宝可以形成一个非常可观的人才群体,不仅有流量,还能够带来规模化的价值群体。
邹剑宇介绍说,去年一个河北毕业大学生,在经过两个月的培训后,通过专利翻译可以达到年薪十万。
现在试译宝还处于免费试测状态,12 月中旬将会上线收费课程。接下来,试译宝还将在猪八戒网翻译频道上线,为译员搭建商业渠道。
后记
虽然理科生与文科生有着思维差异,但也十分互补,邹剑宇“对外”,魏勇鹏“对内”,两个人很喜欢现在这种状态。
在一年磨合期中,邹剑宇总希望机器翻译的研究进度能更快一点,但在与魏勇鹏的争论中他渐渐明白,深度学习是一个黑盒子,人无法把握黑盒子里的学习过程,过高的期待只会产生痛苦,而这也是现在的他最想跟大家分享的。