对话ACL2019最佳长论文冯洋:Teacher Forcing 通用预训练模型并非万能

  • 时间:
  • 浏览:1

ACL 2019 大会近日落幕。来自中国科学院计算所、腾讯微信 AI 实验室、华为诺亚方舟、伍斯特理工学院等研究人员完成的机器翻译论文《Bridging the Gap between Training and Inference for Neural Machine Translation》获得了最佳长论文奖。在本文中,机器之心对此论文通讯作者、中国科学院计算所的冯洋老师进行了专访。

神经机器翻译是自然语言除理中的重要任务。目前的通用做法是,训练时输入源句子(source sentence)和目标句子(target sentence)组成的句子对,训练神经网络模型后,在测试集上生成翻译文本。

尽管近年来神经机器翻译相关的研究可能取得了长足的进步,神经机器翻译模型依然无法达到人类翻译的水平,更无法在专业领域取代人工翻译。其所含原本重要的由于 阻碍了神经机器翻译的发展。

首先,神经机器翻译任务中模型训练的输入和模型推断的输入有很大的不同。在训练过程中,解码器生成字符的很久能否 受到 Ground Truth,即参考句(Reference Sentence)的约束。而在推断过程中,生成的目标句中的每个字符完整性根据模型给出的前原本字符进行推断,那么 Ground Truth 作为约束语境。

神经机器翻译中的第俩个那些的问題来自 Teacher Forcing 最好的办法。你這個 最好的办法要求模型的生成结果能否 和参考句一一对应。尽管你這個 最好的办法能否 强制约束模型的翻译结果,加快收敛,很久缺点显而易见。首先,可能保证五种语言中的每原本词在另五种语言中就有对应的词语。其次,强制词语对应消除了语义之类的很久 翻译结果,扼杀了翻译的多样性。

而今年的 ACL 2019 最佳长论文——Bridging the Gap between Training and Inference for Neural Machine Translation 则对这原本那些的问題提出了除理方案,并在多个机器翻译数据集上取得了一定的性能提升。在你這個 奖项出炉后,机器之心采访了论文通讯作者,中国科学院计算所的冯洋老师,请冯老师谈谈这篇论文和自然语言除理研究相关的事。

冯洋老师是中国科学院计算技术研究所副研究员,博士生导师,自然语言除理课题组负责人。2011 年在中科院计算所获得了博士学位很久,先后在英国谢菲尔德大学、美国南加州大学 Information Sciences Institute (USC/ISI) 开展研究工作。回国后先后在百度和清华大学工作,于 2017 年 6 月加入中科院计算所,入选计算所「新百星」人才引进计划。研究方向主很久自然语言除理、机器翻译和机器学习,先后在自然语言除理领域的顶级会议 ACL、EMNLP、COLING 等上发表了一系列论文,并担任 COLING 2018 的领域主席。发明权权了多项中国和美国专利,承担了国家重点研发计划、国家自然科学面上基金项目等项目,并作为主要参与人参与了美国国防部 DARPA 重大项目、欧盟重大项目和英国 EPSRC 基金项目。

以下为采访内容,机器之心进行了派发。

机器翻译目前最急需除理的那些的问題是 Teacher Forcing

机器之心:神经机器翻译(NMT)在自然语言除理领域可能是否是原本比较成长期期图片 的句子的方向,那么当您选择你這個 那些的问題时,目标和基本想法就有那些样的?

冯洋:我选择研究神经机器翻译的由于 是,它是原本相对定义比较规范的那些的问題,那些的问題五种的场景是固定的。很久,对于你這個 那些的问題来说,做得好与不好,更多地取决于研究者对那些的问題理解的厚度,可能说算法的好坏。而对于团队来说,研究你這個 那些的问題也是很有必要的,可能研究你這個 那些的问題能否 团队很「solid」(扎实)的积累。

机器之心:也很久说,你這個 那些的问題对于团队的基础技术和能力是五种很好的锻炼,五种很好的培养可能,能否 另原本理解吗?

冯洋:对的。

机器之心:在机器翻译领域中,目前有那些难点急需除理?又有那些有潜力的研究方向?

冯洋:我认为目前最大的那些的问題是 Teacher Forcing,它要求模型生成的翻译和 Ground Truth 完整性对应。首先,另原本可能扼杀了翻译的多样性。另外,模型可能完整性保证和 Ground Truth 的译文完整性一致。有很久,模型在某一句上,通过调参能否 达到和 Ground Truth 完整性一致的结果,很久在另句子可能就无法达到了。对于那么达到完整性一致的句子,模型会被给予惩罚,而并那么去评价翻译的结果好不好,这是原本那些的问題。全都,对于有潜力的点,我认为训练的框架很值得研究。另外,基于语义的翻译也很值得探究。很久,目前研究成果很少,就有说不值得研究,很久难度非常大。下一步可能否 对译文方面,对翻译结果有原本正确的评估,这是不为什么么要的。

机器之心:能否 请您谈谈,目前自然语言除理领域比较值得关注和研究的热点那些的问題?

冯洋:目前人机对话应该是比较热门的领域。这是可能它的应用场景很广阔。研究界尝试了全都最好的办法,也取得了一定的效果,很久目前匮乏五种通用的、固定的场景,也匮乏原本得到验证的、广泛在工业界能否 应用的模型。全都说我随便说说人机对话接下来还有很长的路要走,应该是原本比较有潜力的研究方向。一块儿人机对话的需求也非常旺盛,现在有全都产品就有转向智能化,智能化就能否 人机对话应用,比如智能音箱和导航等,在未来人机对话的应用会非常广泛。

至于机器翻译方向,它是由应用决定最终研究的方向。随便说说机器翻译技术可能比较成长期期图片 的句子了,很久仍有需求那么得到除理。现在各大公司依然在努力研究同声传译方面的技术,很久实际上不难 做了。在实际应用中,演讲者地处的环境非常嘈杂,在演讲者即兴讲话的状况下,它的那些的问題就会很明显。还有全都研究方面的工作能否 去做。

关于最佳论文

为了除理机器翻译地处的那些的问題,在论文 Bridging the Gap between Training and Inference for Neural Machine Translation 中,冯洋老师和团队成员提出了使用 Oracle 词语,用于替代 Ground Truth 中的词语,作为训练阶段约束模型的数据。

选择 Oracle Word 的最好的办法有五种,五种是选择 word-level oracle,另五种则是 sentence-level oracle。

词语级别的 Oracle Word 选择最好的办法。图源:论文。

word-level oracle 的选择最好的办法如图所示,在时间步为 j 时,获取前原本时间步模型预测出的每个词语的预测分数。为了提高模型的鲁棒性,论文在预测分数基础加进去去进去了 Gumbel noise,最终取分数最高的词语作为此时的 Oracle Word。

sentence-level oracle 的选择最好的办法则是在训练时,在解码句子的阶段,使用集束搜索的最好的办法,选择集束宽为 k 的句子(即 top k 个备选句子),很久计算每个句子的 BLEU 分数,最终选择分数最高的句子。

当然,这会带来原本那些的问題,即每个时间步都能否 获得该时间步长度上的备选句子,很久集束搜索获得的句子长度能否 和时间步保持一致。可能集束搜索生成的实际句子超出或短于你這個 长度该为什么么么办?这里研究人员使用了「Force Decoding」的最好的办法进行干预。而最终选择的 Oracle Word 也会和 Ground Truth 中的词语混合,很久使用衰减式采样(Decay Sampling)的最好的办法从中选择出作为约束模型训练的词。

针对论文中的很久 那些的问題,机器之心也请教了冯洋老师。

机器之心:亲戚亲戚我门我门知道,这篇论文的基本思想是:不仅使用 Ground Truth 进行约束,在训练过程中,也利用训练模型预测出的上原本词语作为其中的备选词语,另原本的灵感是从哪里得到的呢?

冯洋:亲戚亲戚我门我门很早就发现了另原本原本那些的问題——训练和测试的很久模型的输入是不一样的。亲戚亲戚我门我门希望模型在训练过程中也要能用到预测出的词语。看过最近很久 周围的工作,亲戚亲戚我门我门慢慢想到,将 Ground Truth 和模型另一方预测出的词一块儿以 Sampling 的最好的办法输入进模型。

机器之心:刚才您提到有很久 周围的工作,能否 请您谈谈有那些相关的论文?

冯洋:那些周围的论文在 Related Work 所含写到,那些工作的基本思想就有一样的,就有希望将预测出的词语作为模型输入。比如说,根据 DAD(Data as Demonstrator)的最好的办法。你這個 最好的办法将预测出的词语和后原本词语组成的词语对(word-pair)以 bigram 的最好的办法输入作为训练实例加入。另五种是 Scheduled Sampling 的最好的办法,也是用 Sampling 的最好的办法,把预测出的词语作为输入加入到模型训练中。

机器之心:论文使用了五种最好的办法实现将预测词语作为训练的输入,五种是在 Word-level 选择 Oracle Word,另五种是在 Sentence-level 选择 Oracle Sentence,能否 请您完整性介绍下 Sentence-level 的最好的办法?

冯洋:Sentence-level 的最好的办法能否 简单理解为进行了一次解码。亲戚亲戚我门我门从句子中取出前 k 个候选译文。这里的 k 亲戚亲戚我门我门选择了 3,即 Top3 的句子。很久在那些句子中再计算亲戚我门我门的 BLEU 分数,并选择分数最高的句子,作为 Oracle Sentence。

机器之心:亲戚亲戚我门我门知道,论文中,在选择 Oracle Sentence 的过程中会进行「Force Decoding」。能否 强制保证生成的句子和原有的句子保持一致的长度。您认为另原本的最好的办法会带来那些样的那些的问題?

冯洋:这是强制模型生成和 Ground Truth 长度一样的句子。另原本模型可能会生成很久 另原本并就有模型想生成的结果,这可能会带来很久 那些的问題。很久对于 Teacher Forcing 来说这是能否 的,可能 Teacher Forcing 五种要求每原本词就有对应。全都说,随便说说看起来亲戚亲戚我门我门干预了句子的生成,很久在 Teacher Forcing 的场景下,你這個 干预不一定是坏的。

机器之心:为那些说另原本的干预不一定是坏的?

冯洋:亲戚亲戚我门我门能否 留意的是,Force Decoding 的最好的办法是在训练阶段进行的,可能训练中另原本做了,模型就会逐渐地适应你這個 过程。另一方面,Force Decoding 能否 平衡很久 极端的生成结果。比如说,当句子长度为 10,但模型只生成了仅有 2 个词的句子,可能是模型生成了有 20 个词的句子,全都说 Force Decoding 也能否 平衡另原本的极端状况。在 Teacher Forcing 的场景下,这是五种折中的最好的办法,必须完整性说另原本的最好的办法是不好的。

机器之心:在研究的过程中您遇到了那些困难的地方?

冯洋:研究过程也就有老是顺利的。在有了算法的很久,模型并那么达到理想的效果。亲戚亲戚我门我门不清楚是细节方面的很久 那些的问題,还是模型五种是不 work 的。对此,亲戚亲戚我门我门进行了很久 尝试,最后发现是模型随便说说是 work 的。

机器之心:在那些方面进行了尝试?

冯洋:首先是 Decay 方面的那些的问題,怎样才能让模型 Decay。第俩个是关于选择 Oracle Word 和 Oracle Sentence,那些方面亲戚亲戚我门我门进行了全都尝试。

机器之心:实验结果不理想的状况时,怎样才能进行改进呢?

冯洋:有好多个方面能否 进行改进。首先是神经网络上,可能神经网络它自身的特点,很久 参数能否 进行研究和调整。其次是关于模型五种,亲戚亲戚我门我门能否 检查模型的输入的结果是就有很久的。很久 上方结果也能否 检查一下,亲戚亲戚我门我门能否 从逻辑层面检查模型是否是真正的按照预期去工作。

机器之心:能否 请您介绍下参与论文的研究团队?

冯洋:论文的一作张文是刘群老师的博士生,是该工作的主要完成者,近年来在自然语言除理顶会上发表了多篇文章。平时我会协助刘群老师指导张文的工作。还有一位作者是腾讯微信团队的孟凡东,是论文的三作,是亲戚亲戚我门我门实验室的优秀毕业生,会提出很久 建议。还有一位作者是实验室的实习生游狄。

机器之心:您参加了全都顶会。亲戚亲戚我门我门近年来看过有全都华学是者参与顶会,也获得了全都奖项,您怎样才能看待你這個 那些的问題呢?

冯洋:这能否 叫做「中国崛起」那些的问題吧,随便说说很正常。我随便说说现在神经网络研究对亲戚亲戚我门我门华学是者是原本很好的可能。亲戚亲戚我门我门知道,华学是者能力很强。在过去,全都研究能否 积累,全都单位可能过去的积累比较多,全都在此基础上做出的成果也比较多。而现在神经网络时代,你這個 领域刚兴起,亲戚亲戚我门我门的基础积累是一样的。另外,神经网络的全都研究是开源的,另原本就打破了全都壁垒。亲戚亲戚我门我门华学是者学习能力很强,在另原本的环境下,亲戚亲戚我门我门崛起是很正常的。

预训练模型虽好,但专业场景能否 专业除理方案

机器之心:亲戚亲戚我门我门知道最近有全都预训练语言模型,如 BERT 和 XLNet,在多个自然语言除理任务中取得了 Bench Mark。那些预训练语言模型也能否 应用在神经机器翻译任务上,也取得了一定的效果。您随便说说现在可能有全都另原本的模型了,再去研究专门针对特定任务的架构,另原本的意义和优势在哪里?

冯洋:像预训练语言模型你這個 通用架构,是能否 帮助亲戚亲戚我门我门在特定的任务上提升效果,很久那些语言模型并那么针对特定的那些的问題提出除理方案。全都说针对特定的任务提出除理方案是很有必要的,可能每个那些的问題的场景就有一样。针对专业的场景应该有专业的模型,可能有通用的模型能否 除理所有的那些的问題。

机器之心:前几天 Facebook 刚开源了原本新的预训练语言模型——roBERTa,在 BERT 的基础上增加了全都算力和训练的数据量。您随便说说像另原本疯狂地往模型上堆训练数据量和算力的最好的办法,一定能取得很好的效果吗?

冯洋:就同样的模型来说,堆算力、扩大训练数据集肯定会有更好的效果。

很久,另原本的最好的办法更适合工业界。可能工业界有实际的应用,就有相应的能力,能否 另原本去做。在学术界来说,亲戚亲戚我门我门更要关注到算法方面的突破。有了好的算法,加进去去进去好的算力,要能有更好的加成。

学术研究能否 夯实理论基础,除理核心那些的问題

机器之心:在您选题、立题过程中,有那么很久 经验能否 给读者亲戚我门我门们分享一下?

冯洋:我建议我的学生去做以下几点。首先是要多读论文,这是肯定的。在读论文的过程中,必须只看对方做了那些,很久要善于去提炼论文要除理那些那些的问題,很久是论文使用了那些样的最好的办法。

在选题立题的过程中,首先能否 明确要除理的那些的问題是那些。第俩个有你在的除理方案是那些。在你這個 过程中,能否 选择除理认为不为什么么要的那些的问題,可能是很感兴趣的那些的问題。也能否 去发现别的研究者那么考虑到的,有很大提升空间的那些的问題,能否 从这原本厚度来选择。

机器之心:最后原本那些的问題,您认为作为人工智能领域的研究者,应该秉持怎样才能的研究理念和治学的理念?

冯洋:我随便说说,研究者能否 能做很久 除理原本或多个任务的关键那些的问題的研究。从根本上除理那些的问題,触及那些的问題的核心,而就有为了把神经网络做好而去做研究。

此外,在学生培养上,若果亲戚亲戚我门我门无须急着发论文,要做好的研究。平能否 注意多做很久 基础理论的积累,当基础理论打扎实了,研究的路会越走越宽。可能仅靠拍脑袋可能一时的灵感去做研究,刚结速了能摘到很久 低枝的果实,可能比较容易出成果。慢慢的,当亲戚亲戚我门我门研究得那么难的很久,出成果就会比较困难了。

来源:机器之心

注:文章内的所有配图皆为网络转载图片,侵权即删!

免责声明:本文由入驻贤集网资讯专栏的作者撰写可能网上转载,观点仅代表作者另一方,不代表贤集网立场。如有侵权可能很久 那些的问題,请联系举报。

本网转载并注明自其它来源的作品,目的在于传递更多信息,无须代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。很久 媒体、网站或另一方从本网转载时,能否 保留本网注明的作品来源,并自负版权等法律责任。

如涉及作品内容、版权等那些的问題,请在作品发表之日起一周内与本网联系,很久视为放弃相关权利。