跨越专业翻译的语言之墙:百度翻译的技术攀登(百度翻译平台入口)

 行业动态    |      2023-03-06

原标题:横跨专精译者的词语之墙:腾讯译者的控制技术登山

作为一个科技专业人士,写作AI顶会的最新学术论文、下载国内外创捷伊最新动向,是我组织工作的重要部分。平时接触的开发人员、科学家、企业研究人员等,组织工作生活中也涉及大批专精写作。

甚至于,我就会经常听到这样的埋怨:

PDF文件格式的学术论文,许多译者软件须要全自动分页,效率还不如直接拉沙泰格赖厄县;

不皮顿按章节甚至语句意译,信达雅一个都没有,机翻完我还要花时间二次review;

国外开发社区的控制技术文件文件格式专精词语太多,译者得不准,好几天的代码都白写了……

这可能是AI控制技术里极难让人蒙蔽的地方。近些年随着AI控制技术快速进步,用例水准也大幅提升,结果一遇到中文文献、外刊征稿、办公设备文咔咔鼠app下载档、商业性报告、国外网站控制技术文件文件格式之类的专精译者需求,许多产品还是不能满足用户。

这些难题说明,总体复本可懂,满足用户赴美旅游、购物娱乐等日常沟通的情景,只是用例的基本要素。进一步的消费需求,是广度专精内容的跨词语交流,让商业性、科学研究、控制技术等专精信息可以实现点对点交会。

横跨这堵词语之墙,也成为一场NLP应用领域的亚洲地区体育竞技。始终耕耘用例的腾讯译者团队,从来没有停止过登山的脚步。

我们从用例的新控制技术最新动向说起,谈谈腾讯给用例增添的新可能。

用例的控制技术登山:腾讯引领NMT技术革新

横跨词语之墙还须要哪些控制技术突破?想要提问这个难题,有必要先提问:用例今天发展到哪一步了。

过去几十年间,人们始终在探索如何使得机器翻咔咔鼠app下载译达到人类的译者水准,译者方法不断插值。如前所述准则的用例,依靠人工编撰的中英文字典和专家总结的准则展开译者;如前所述示例的用例,从中英文仔细分析的示例复本选择与书名相似度高的示例,透过仿效和修改展开译者;如前所述统计的用例,对译者过程展开数学可视化,并从大批的训练数据中自动自学译者知识。

变革发生在2014年,透过循环数学模型(RNN)来对词语矢量展开代码音频,并且使用Seiches记忆网络(LSTM)来增强词句译者能力的神经用例(NMT),为用例应用领域增添捷伊研制本体论。腾讯、Google、Google等一批NLP应用领域的科鞭推进广度自学在用例应用领域的研制和应用,腾讯译者在2015年发布了亚洲地区第一个互联网NMT系统,领先咔咔鼠app下载Google1年多。现在,大家用译者软件展开日常交流、旅游商务等活动,已经基本没有难题了。

而专精应用领域的译者想要令人惊喜的进展,总的来说须要做到两件事:

一是控制技术突破。推动用例不断接近专精译者能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多词语统一可视化和译者;3. 面向垂直应用领域的高精度译者模型。其中,腾讯作为更早进入NMT时代的科技企业,就在用例控制技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将腾讯译者列为数学模型用例标杆机构。咔咔鼠app下载

二是产品设计。控制技术有所突破,还要透过成熟的产品设计和应用体验,让用户感知到专精用例的价值。一些用例产品可能控制技术很强,但由控制技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现控制技术落地。比如腾讯译者就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文件文件格式、图片、语音等多模态译者,全方位满足用户各种译者需求。腾讯译者的产品优势,让普通用户可以低门槛、更便捷地用上专精用例能力,目前日均响应的译者请求已达千亿字符。

从这个角度来看,腾讯译者是国内少有的,能够同时占据控制技术和产品两个用例高地的科技企咔咔鼠app下载业。那么,腾讯译者究竟是如何翻越专精译者的词语之墙?

耸立的词语墙:用例进入专精应用领域的三道门槛

你可能会问,用例都搞了快七十年,怎么专精应用领域的词语之墙依旧没有被攻克?

专精信息、学术资源、商业性文件等译者需求,是一块巨大的商业性蛋糕,同时也是从未被彻底解决的痛点。这是因为专精应用领域的译者,存在“三高”的要求:内容安全要求高、译者准确率要求高、译者效率与体验要求高。

内容安全要求高:专精文件文件格式往往涉及到科学研究创新、商业性往来等信息,译者过程中须要上传到云端或软件服务商的服务器展开操作,一旦硬件来源或软件使用权受限,或者服务不稳定,都会给专精用户增添麻烦和风险。

译者准确率要求高:信达雅,信(即译者准确率)排在咔咔鼠app下载第一位,专精译者中存在大批专精单词、复杂词语句,容易出现歧义,软件译者失之毫厘,内容准确度就谬以千里。

译者效率与体验要求高:译者软件的效率、易用性,直接影响到用户体验。许多人可能有这样的经历,有的软件不支持整篇文件文件格式译者,全自动分页连分段都不准确,译者效果难以直视;有的PDF文件文件格式译者成word后,原本的排版被打乱,还须要自己全自动调整……这些都给用户增添了额外的负担。

所以,我们就从安全可靠、效果、效率这三个方面,来评测一下腾讯译者的解决思路。

首先,安全可靠。

作为一名知识内容生产者,文件文件格式承载的是我安身立命之本,所以,数据安全几乎是我是否使用一款译者工具的首要考量因素。同理,学术论文数据之于科学研究组织工作者、咔咔鼠app下载商业性报告之于企业专业人士、控制技术文件文件格式之于工程人员,安全隐私都是至关重要的。

广度自学平台是每个数学模型用例模型的底层控制技术框架,市面上相当一部分译者厂商的底层控制技术框架仍然使用TensorFlow(美国Google)和PyTorch(美国脸书)为代表的国外框架。非国产自研,可能在未来遭遇无硬件可搭载和无框架使用的窘境。

比如在使用国外平台DeepL的过程中,我就会经常遇到加载缓慢、连接不上的难题。国外译者软件往往须要上传到国外企业的服务器,比如DeepL上传的文件文件格式会被发送到美国的Adobe公司。

与之相比,国内译者产品就不会遇到这个困扰。以腾讯译者为例,产品如前所述全面自研的飞桨广度自学框架,同时采用多种措施来保障咔咔鼠app下载数据安全,获得ISO27001等多项国内外权威信息安全管理认证。存储前,会先展开安全的加密操作;数据传输中,采用安全传输层协议(TLS),保障保密性和数据完整性,并提供完备的密钥管理机制和加密措施;用户删除数据后,后台将同步删除相关内容,不会留存。总体来说,在可靠性和安全性上更有保障。

第二,译者效果。

专精译者最终要靠结果的“信、达、雅”说话。包括专精术语译者是否准确,语序是否流畅连贯,一些特定文化背景的表达是否地道……

可以看到,腾讯译者透过多个专精应用领域模型,有效增强译者准确度。我们随机选取了《自然》杂志的一篇生物应用领域学术论文《A pan-cancer compendium of chromosom咔咔鼠app下载al instability染色体不稳定性的泛癌症纲要》,选择腾讯译者的“生物医药“模型后,结合上下文语义给出了准确的译者。可以看到,生物医药这类充满大批专精术语的应用领域,腾讯译者的结果并没有让人失望。

对于学术文章中复杂的词语句和特定文件格式,腾讯译者能够识别学术论文文件格式中的各种基本要素,如正文、引用、尾注等,避免错译、漏译。以这篇AAAI 2022的顶会学术论文《Meta-Learning for Online Update of Recommender Systems》为例,腾讯译者就准确保留了参考文献引用信息,这对写作专精文献非常有帮助。

第三,译者效率。

专精应用领域的用例,用户的一个关键痛点是:许多地咔咔鼠app下载方须要用户“不厌其烦”地全自动操作或反复修改。而拥有十多年译者产品经验的腾讯,自然也在应用能力上游刃有余。腾讯译者将这些“烦点”一一消解,提升译者效率和文件文件格式的复本性、易读性,从而减少用户全自动调整、修改的麻烦,将时间精力放在更有创造力的事情上。

首先,腾讯译者支持多种文件格式文件文件格式,一键上传就能展开全篇译者。像PDF这种不能编辑的文件文件格式,可以完整地保留样式和排版,不须要用户全自动将文字分页到译者软件中,并且提供整页预览模式、逐句仔细分析模式等,不同需求的用户可以自主选择来提升效率。

比如下面这份《英国人工智能研制商业性化和标准》,这类咨询机构的商业性报告,是许多产业研究者、高校师生、政策制定者等组织工作自学中的参考读物咔咔鼠app下载,快捷、高效地写作体验,能够帮大家节省不少时间。将PDF文件一键上传到腾讯译者,就能快速得到准确地译文,排版文件格式也与书名保持高度一致,大大方便了写作。

输入数据的准确性对译者结果起到至关重要的影响,文本纠错是用例的关键能力之一。专精应用领域容易遇到一些佶屈聱牙、拼写复杂的专用术语、学术名词等,腾讯译者的智能纠错,可以对语句自动检查、实时提示、自动纠错,减少人工校验成本。

此外,腾讯译者透过人机共译智能增强,语料自动沉淀,机器自动自学,译者模型实时增强,逐渐缩小用例与理想译文之间的差距,实现越翻越省力,真正提升效率。

英国诗人塞缪尔·约翰逊曾说过,词语是科学的唯一工具。整体来看,腾讯译者已经在专精咔咔鼠app下载学术论文、学术文献等应用领域,展现出了强大的译者能力,帮专精人士翻越了词语这堵高墙,把词语这个工具交到了每一个须要在专精应用领域跨词语协作的人手中。

翻山越岭之后,词语墙背后的宏大情景

从腾讯译者的控制技术体系和产品设计中,可以看到,用例要进入专精应用领域,不光要有控制技术,还要有较强的产品设计能力,考验的是企业的综合实力。用例进入专精应用领域,也推动译者应用来到了捷伊赛点。

重建巴别塔。专精应用领域的词语壁垒,为知识、信息、资源的流动树立起极高的门槛,比如目前亚洲地区有六成以上各类文献资料和科学研究学术论文都是用英文撰写,其他语种也蕴含着大批的知识宝藏。越来越多的人使用腾讯译者来突破词语的阻碍,让专精应用领域的协作没有障碍,将大大促进全咔咔鼠app下载球的知识交流与传播,支撑科技创新、实现知识公平。

重塑机翻格局。专精应用领域的用例,相比生活化情景,有着更高的壁垒与更强劲的需求,无论市场容量、付费意愿、付费潜力,以及用户忠诚度,都是非常高的。腾讯译者凭借优秀的专精译者能力,可以建立起差异化优势,进入商业性化的良性循环,在用例市场格局中进一步领先。

借助译者,人类社会从相互阻隔走向了相互交往。今天,世界科技、经济与文化更为频繁地展开交流,面对浩如烟海的信息与知识,仅靠数量有限的专精译者人士,很难满足用户大众对专精译者的需求。幸好,用例开辟了一条捷伊跨词语沟通之路。七十年来,用例控制技术不断插值,有着旺盛的生命力,那是一代又一代控制技术人,在为重建巴咔咔鼠app下载别塔的理想而不断努力。

随着腾讯译者等产品推动用例向专精应用领域不断深入,人们可以展开更专精、更精深的跨词语交流,用例正成为助力亚洲地区交流的一股重要力量。返回搜狐,查看更多

责任编辑: