比特币平台-比特币今日价格-比特币交易平台排名
>>

居然:deepseek r1与openai模型文风相似达74.2%?研究质疑deepseek数据

2025-03-16 18:42:24 | 来源:
小字号

机器之心报道

编辑:张倩、佳琪

在 deepseek 生成的文本中,有 74.2% 的文本在风格上与 openai 模型具有惊人的相似性?这是一项新研究的结论。

最近的研究来自 copyleaks——重点关注检测文本中的抄袭和 ai 生成内容的平台。

这个家平台表示,正如每个人都有独特的指纹一样,人工智能也有自己独特的、可识别的特征。比如deepseek的文风一股强烈的「ds味」:意象堆得非常满,每个词都有通感、隐喻和互文。和其他人的文字放在一起,我们很容易看出哪段话背后必有deepseek指点。

来源:http://xhslink.com/a/6n6jlytwrm36

因此 copyleaks 开发出了一种精确的方法,能够识别具体是哪种 ai 模型写下某段文字,即使该 ai 创造另一种写作风格时也是如此。

具体来说,他们开发了一个由三个分类器训练组成的llm检测集成系统,这些分类器具有不同的架构和数据。该集成系统经过训练,可以对四大语言模型——claude、gemini、llama和openai模型——生成的文本进行分类。只有当集成系统中的所有三个分类器一致一致输出分类时,才认为预测是有效的。copyleaks继承,该集成系统是由claude、gemini、llama和openai开发的模型生成的文本测试集上得到了验证,并达到了极高的准确度(0.9988)和非常低的假活跃率(0.0004)。

借助这个集成系统,copyleaks 去分析四个新模型生成的文本,包括 phi-4、grok-1、mixtral-8x7b-instruct-v0.1 和 deepseek-r1,看看这些模型生成的内容是否与上述四大模型相似。分类器的最终输出需要三个子子器一致,否则会标记为「无智慧」(不同意)

结果表明,对于 phi-4 模型生成的文本(如图 1a 所示),集成系统在 99.3% 的文本上没有达成一致意见;对于 grok-1 模型生成的文本(如图 1b 所示),集成系统在 100% 的文本上都没有达成一致意见。这意味着,集成系统的分类器无法识别 phi-4 或 grok-1生成的文本与其所训练的四大语言模型家族(claude、gemini、llama 和 openai 模型)中的任何一个模型的写作风格相似。

对于 mixtral 模型生成的文本(如图 1c 所示),集成系统中 65% 的文本没有达成一致意见,有 26% 的文本被 openai 生成识别,8.8% 的文本被 llama 生成识别。

对于 deepseek 模型生成的(如图 1d 所示),集成系统将 74.2% 的文本识别为由 openai 生成,而剩余的 25.7% 的文本被标记为「文本认知」。

copyleaks 认为,phi-4 模型高达 99.3% 的「无意见」率以及 grok-1 模型 100% 的「无意见」率表明,这些模型的风格特征与上述四大语言模型非常不同。mixtral 模型 65% 的「无意见」率表明,该模型主要具有独特的风格特征,这些特征没有被集成系统完全捕捉到。然而,26% 的文本被重构为 openai,8.8%的文本被澄清为 llama,这表明 mixtral 与这些语言模型之间存在一定的风格相似性。

copyleaks 强调,deepseek-r1 模型的结果令人瞩目。74.2% 的文本被整理为 openai,这表明这两个模型之间存在肥胖的风格相似性。

在报告出炉后,福布斯联系到了 copyleaks 数据科学主管 shai shai nisan。nisan 将 deepseek-r1 与 openai 模型之间存在明显的风格相似性问题,引申为对 deepseek 训练过程的质疑,暗示其可能使用 openai 模型的输出作为训练数据。

他说,“虽然这种相似性并不能明确说明 deepseek 是衍生产品,但它确实引发了人们对开发过程的质疑。我们的研究重点在于写作风格,在这一领域,deepseek 与 openai 的相似性是显着的。考虑到 openai 在市场上的领先地位,我们的研究结果表明,有必要对 deepseek 的架构、训练数据和开发过程进行进一步的调查。”

福布斯的文章中指出,也导致了这种类似性的另一个可能:数据。ai 模型可能会随着时间的推移在风格上趋于一致,尤其是在重叠数据集上进行训练的情况下。

另外,copyleaks 用于检测相似性的系统足够准确、调查是否也是一个值得探讨的问题。

自从deepseek r1走红以来,幼儿对于这个模型的质疑就没有停过,但质疑归质疑,使用deepseek的机构还是一路增猛。

而从缩小矩阵规模到提高损害效率,deepseek上周已经开源了方面面提高生成式算法执行效率的核心技术,对开源精神的坚守,是对质疑的更好回应。

接下来,我们看看 copyleaks 所用的检测方法。

copyleaks 的检测方法

为了让判断更全面,copyleaks 分别用 openai 模型、llama、claude 和 gemini 生成了 5 万条英文文本来训练这些分类器。研究人员采用以下 5 个标准来评估分类器是否能够准确地识别出某段话出自哪个 ai 之手:

推理矩阵精确率和召回率f值总体假阳性率 (fpr)宏平均f值(β=0.5)

他们用 openai、llama、claude 和 gemini 这些 ai 模型生成的英文文本来训练这些分类器。为了保证训练的公平性,每个分类器都会收到来自不同 ai 模型的训练样本的相同数量。

每个类别 i 的假阳性率代表着有多少比例的非 i 类实例被错误地分类为 i 类。简单来说,看这个值就能知道分类器有多容易把其他 ai 的文本判别为某个特定 ai 的文风,计算公式为:

总体 fpr 则通过对所有类别的 fpr 取平均得到的:

以下是三个分类器的成绩单,从准确率看,三个分类器的表现都不错,接近99%。

在得到这三个训练有素的「判官」之后,为了进一步降低误判的概率,研究人员测试了两种交叉验证方法——多数投票制(少数服从多数)和一致一致制(必须三票总)——到底哪种更可信。

数据给出了明确的答案,一致同意制的宏平均 fpr 为 0.0004,根据三个分类器共同投票,收集全票通过的结果错判概率极低,这也是 copyleaks 最终选择的统计方法。

在技术报告中,copyleaks 给出了更详细的信息。

报告链接:https://copyleaks.com/wp-content/uploads/2025/03/detecting_stylistic_fingerprints_of_large_language_models.pdf

您觉得这份报告的结果及相关的推论靠谱吗?

參考文獻:

https://www.forbes.com/sites/torconstantino/2025/03/03/deepseeks-ai-style-matches-chatgpts-74-percent-of-the-time-new-study/

(责编:陈羽、刘圆圆)

分享让更多人看到

客户端下载

热门排行

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
返回顶部
网站地图