居然:deepseek写的还是人写的?西湖大学教授用ai识别ai,准确率90%

随着deepseek、chatgpt等ai大语言模型的飞速进化,机器生成内容越来越“拟人”,“真假美猴王”的经典桥段,正在人工智能领域重演。西湖大学张岳教授的“自然语言处理实验室”研发出一款能够识别机器生成内容的ai程序fast-detectgpt,能够以96%的准确率识别chatgpt生成文本,对deepseek生成文本的检测准确率达89%。
“真假美猴王”上演,谁是如来?
2023年12月发表在国外期刊上的一项研究,讨论了顶级期刊的语言学家能够在多大程度上区分ai写作和人工写作——72位语言学专家参与了这项调研,结果显示正确率不足40%。
事实上,机器生成的文本与人类生成的文本虽然看起来很像,但在语义、语法、用词习惯等细节处理上存在许多不同。张岳解释,机器的思考偏向“统计性”,而人类的思考里除了“统计性”,还有“因果性”。具体体现在当遇到困难,人类会反思,但这种能力大模型尚不具备。
张岳进一步解释,以写文章为例,ai的写法是学习现有的数据,从中挑选最“安全”的词,也就是按照概率高低来选词,这和人类写作的创造性有本质区别。例如在“我吃了一顿...”这个句式中,机器往往会在“吃”这一动词后使用搭配概率较高的“饭”,但人类可能会说:“我吃了一顿美味。”
研究团队认为,人类和机器在给定上下文的情况下,词汇选择存在明显差异,而机器与机器之间的这种差异并不明显,这就是fast-detectgpt的工作原理。
另辟蹊径,“以子之矛,攻子之盾”
有了原理,如何操作?fast-detectgpt研发者之一、西湖大学博士生鲍光胜解释,面对一句话或者一篇文章,fast-detectgpt会从ai的角度出发先想想,如果是自己写会怎么写?然后根据这个自问自答的参考答案,比对原文看看重合度有多高,相当于“以子之矛,攻子之盾”。
具体而言,当fast-detectgpt接收到一个文本片段,首先会在不改变原意的情况下进行改写,把局部的同义词替换掉,再将这份替换后的文本与原始文本进行对比。如果原始文本是ai写的,两者的相似度会比较高。简单来说,ai对ai写的内容更熟悉,可以“深入敌后”认出同类作品。
记者将一段由deepseek生成的文本输入到fast-detectgpt中,fast-detectgpt判断出该文本有93%的概率由deepseek生成。
据介绍,出于对ai安全性和可信赖方面的担忧,欧美等国已有不少用ai检测ai的研究,比如普林斯顿大学学生开发的gptzero、斯坦福大学研究团队推出的detectgpt等。此次由西湖大学研发的fast-detectgpt相较于detectgpt的检测速度提高了340倍,检测准确率提升75%;在chatgpt和gpt-4生成文本的检测上,其准确率均超过商用系统gptzero。
此外,fast-detectgpt不仅对不同语种和内容都有良好的适用性,还能识别ai润色和翻译的文章。无论是人写的经由ai润色或翻译的文字,还是ai写的经由人润色或翻译的文字,都逃不过fast-detectgpt的“法眼”。
ai持续进化,矛更利还是盾更坚?
尽管当前的技术大幅提高了对ai生成文本识别的准确性,但张岳坦言,不久的将来,ai可能会发展出“反侦察”技术,从而提高内容识别难度,人与机器之间这种“矛”与“盾”的攻防角色会不断互换、演进。
另一个担忧在于,当人类吸收的语料中越来越多混杂入ai生成内容,人类的语言会不会越来越接近ai?对此张岳表示,随着互联网上ai生成内容的不断增加,一批与ai相伴而生的年轻人可能会逐步学习ai的表达风格。但人类的表达始终具有“因果性”,目前与ai还存在本质区别。而未来,ai可能学会像人一样思考,届时识别难度可能更高。
“在ai不断接近人类认知的进化过程中,需要持续关注ai的安全问题,保证ai始终在人类的可控范围内。”张岳说。
分享让更多人看到
客户端下载
热门排行
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 评论
- 关注