如果绿色和黄色词的份额越大
来源:津信变频器 发布于:2019-4-21 9:10:32 点击量:
2019/04/22 08/23/55 【丹佛斯变频器 www.dfsbp.com】这说明一个重要观点:语言模型可能擅长检测自己的输出,但不一定擅长检测其他语言模型的输出。
看来,人类打击互联网假新闻还是任重道远啊。她将该工具用于更严格的测试,不仅仅提供 GPT-2 生成变频器维修的文本,还提供了由其他语言模型生成的文本,包括变频器维修 一个用亚马逊评论训练的模型和一个用《龙与地下城》语伟肯变频器料训练的模型。上个月,OPENAI 发布其最新语言模型变频器维修 ——GPT-2,但因为担心它可能被用来制造大量伪造和虚假的信息,颇为戏剧性地决定不开源该模型。所以从理论上讲,红色和紫色词的越多,该文本由人类书写的概率就越大;如果绿色和黄色词的份额越大,该文本由语言模型生成的概率就越大。因此,如果某个语言模型能够轻松地预测某一段落中的大部分词语,那这段文本很可能就是这个语言模型生成的。
她发现,这个工具无法预测每个段落中的大部分单词,因此该工具认为这些文本是人类写的。
图 丨 OPENAI GPT-2 生成的假新闻。
图 丨 美国入学标准化测试中的阅读理解短文,由人类书写。
在一项新实验中,来自麻省理工学院-IBM WATSON 人工智能实验室和哈佛大学自然语言处理实验室的研究人员思考,能够生成如此逼真的文本的语言模型,是否可以用来检测其他语言模型生成的文本的真假。
这个假设背后的想法很简单:语言模型通过不断预测单词序列中的下一个概率最大的单词来产生句子。当为该工具提供一段文字时,它会让每个单词高亮不同的颜色,从绿色到黄色到红色,表示预测几率逐渐下降;如果语言模型根本没有预测出某一单词,它会用紫色高亮该单词。
研究人员通过构建基于 OPENAI GPT-2 开源的小模型的交互式工具来测试他们的想法。
事实上,研究人员发现,GPT-2 的小模型和完整版本的模型所写的段落几乎完全是绿色和黄色,而人类写的科学文摘和美国入学标准化测试中阅读理解段落中的文字有很多红色和紫色。
这一决定也使得 AI 社区开始讨论:如何检测这类虚假新闻
20190422082355
>下一篇:如果考虑到这种反弹出现在前期暴跌的环境之后
相关阅读
- 由国际清洁能源论坛和变频器维修中国—东盟中心
- 归属于上市公司股东的扣除变频器维修非经常性损益的净利润2.66亿元
- 为支持我国承诺在伟肯变频器全球应对气候变化上发挥积极作用作出我们应有的贡献
- 我们用同样的方法来分析法律文本
- 帮助现有FPGA客户加快上市速度