科技前沿看点研究人员开发了一种识别计算机生成文本的方法

2021-04-27 21:00:05

新时代高科技不计其数越来越发达，小伙伴们看过不少科技新闻吧，在我们生活中应该也用到很多这些高科技东西，有哪些小伙伴值的关注的呢，今天就跟大家分享一篇有关科技方面知识，希望大家会喜欢。

这个问题引发了Sebastian Gehrmann博士学位。SEAS的候选人和IBM的研究员Hendrik Strobelt开发了一种统计方法，以及一个开放式访问交互式工具，用于检测AI生成的文本。

自然语言生成器通过预测最常见的单词来训练数以千万计的在线文本并模仿人类语言。例如，单词“have”，“am”和“was”静态地最有可能出现在单词“I”之后。

使用这个想法，Gehrmann和Strobelt开发了一种方法，它不是识别文本中的错误，而是识别过于可预测的文本。

“我们的想法是，随着模型变得越来越好，它们肯定比人类更糟糕，可检测到，与人类一样好或更好，这可能很难用传统方法检测到，”格尔曼说。

“之前，你可以通过所有错误来判断文本是机器生成的，”Strobelt说。“现在，它不再是错误，而是使用极有可能(并且有点无聊)的单词来调出机器生成的文本。通过这个工具，人类和AI可以一起工作来检测假文本。”

Gehrmann和Strobelt将于7月28日至8月2日在SEAS的计算机语言学会(ACL)会议上与SEAS计算机科学副学士Alexander Rush共同撰写他们的研究成果。

Gehrmann和Strobelt的方法，称为GLTR，基于一个模型，该模型使用来自网站的4500万个文本 - 公共版本的OpenAI模型GPT-2。因为它使用GPT-2来检测生成的文本，所以GLTR最适合GPT-2，但也可以很好地对抗其他模型。

以下是它的工作原理：如果您将一段文本输入到工具中，它会突出显示绿色，黄色，红色或紫色的文本，每种颜色都表示该单词在其前面的单词上下文中的可预测性。绿色意味着这个词是非常可预测的，黄色，适度可预测，红色不可预测，紫色意味着模型根本不会预测这个词。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢

三晋生活网