AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”

 天顺注册招商   2021-01-08 07:52   33 人阅读  0 条评论

天顺平台招商【总代QQ223345】

原标题:AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”

晓查 发自 凹非寺

量子位 报道 | 公众号 QbitAI

自然语言理解 (NLU)迎来新的里程碑。

在最新的NLU测试基准 SuperGLUE中,人类首次被AI超越了。

SuperGLUE相比“前辈”GLUE大大提升了问题的难度,天顺平台招商【总代QQ223345】提出一年多以来,人类一直处于第一位。

现如今,人类一下子被 两家AI超越。

一个是来自 微软DeBERTa,一个是来自 谷歌T5+Meena

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第1张

超越人类的两大NLU模型

对NLP领域的人来说,微软DeBERTa模型并不陌生,早在去年8月微软就开源了该模型的代码,并提供预训练模型下载。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第2张

展开全文

最近,最近微软训练了更大规模的模型,该版本由 15亿参数的48个Transformer层组成。增大规模带来的性能提升,使单个DeBERTa模型SuperGLUE上的得分(90.3)首次超过了人类(89.8),居于榜单首位。

DeBERTa(注意力分离的解码增强BERT)是一种基于Transformer的神经语言模型,使用自监督学习对大量原始文本语料库进行预训练。

和其他预训练语言模型 (PLM)一样,DeBERTa旨在学习通用语言表示形式,适应各种下游NLU任务。DeBERTa使用三种新技术——分离的注意力机制、增强的掩码解码器和一种用于微调的虚拟对抗训练方法。改进了以前的最新PLM(如BERT、RoBERTa、UniLM)。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第3张

这项研究是由微软研究团队的4位华人学者完成。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第4张

另一超越人类的AI是由CMU博士生王子瑞提交的T5+Meena。这两项技术均来自谷歌。

其中,Meena是一个 26亿参数端到端训练的神经对话模型,它具有一个演进Transformer编码器块和13个演进Transformer解码器块。

编码器负责处理对话上下文,帮助Meena理解对话中已经说过的内容。然后,解码器使用该信息来制定实际响应。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第5张

T5是谷歌去年提出的“文本到文本迁移Transformer”,也就是用迁移学习让不同的NLP任务可以使用相同的模型、损失函数和超参数,一个框架在机器翻译、文档摘要、问答和情感分析上都能使用。

T5最大的模型具有110亿个参数,早在推出之时就取得了SuperGLUE上的最高水平,至今仍仅次于榜单前二模型和人类。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第6张

关于SuperGLUE

SuperGLUE是由Facebook、纽约大学、华盛顿大学和DeepMind四家机构于2019年8月提出的新NLU测试基准,以取代过去的GLUE。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第7张

由于之前微软、谷歌和Facebook的模型连续刷新GLUE基准测试得分,已有不少AI模型超越了人类的表现。因此GLUE已不能顺应NLU技术的发展,SuperGLUE应运而生。

我们从最初的GLUE基准测试中吸取的经验教训,并推出了SuperGLUE,这是一个采用了GLUE的新基准测试,具有一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜。

我们从最初的GLUE基准测试中吸取的经验教训,并推出了SuperGLUE,这是一个采用了GLUE的新基准测试,具有一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜。

四家机构在SuperGLUE的官方文档中如是说。

AI在这张“问卷”上首次超越人类,SuperGLUE被微软谷歌两家“攻破”  第8张

这些问题用当前最先进的算法还不能很好地解决,却很容易被人类理解。

尤其是“选择合理的替代方案”(COPA)这一项因果推理任务。它要求系统能根据给出的句子,在两个选项中找出可能的原因或结果。比如:

那个男人的脚趾断了。这是什么原因造出的?

备选答案1:他的袜子上有一个洞。

备选答案2:他把锤子掉在脚上了。

那个男人的脚趾断了。这是什么原因造出的?

备选答案1:他的袜子上有一个洞。

备选答案2:他把锤子掉在脚上了。

人类可以在COPA上获得了100%的准确率,而BERT只有74%,这表明了NLU还存在巨大的进步空间。

现在SuperGLUE上超越了人类表现,微软的研究人员认为:“这是通向通用AI的重要里程碑”。

微软DeBERTa源代码与预训练模型:

https://github.com/microsoft/DeBERTa

谷歌T5和Meena:

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

参考资料

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

加入AI社群,与优秀的人同行

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

本文地址:https://lkwed.com/post/5489.html
版权声明:本文为原创文章,版权归 天顺注册招商 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?