世界今头条!OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
时间:2023-06-23 09:24:27来源:机器之心
机器之心编译

编辑:杜伟、梓文


【资料图】

你的就是我的,我的还是我的。

在生成式 AI 盛行的全新时代,大型科技公司在使用在线内容时正在奉行「照我说的做,而不是做我所做的」策略。在一定程度上,这种策略可以说是一种双标以及话语权的滥用。

同时,随着大语言模型(LLM)成为 AI 发展的主流趋势,无论是大型还是初创公司,都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。

近日,根据 Insider 的报道,微软支持的 OpenAI、谷歌及其支持的 Anthropic 多年来一直在使用其他网站或公司的在线内容来训练他们的生成式 AI 模型。这些都是在没有征求具体许可的情况下完成的,并将构成一场酝酿中的法律斗争的一部分,决定了网络的未来以及版权法在这一新时代的应用方式。

这些大型科技公司可能会争辩说他们是合理使用,是否真的如此有待商榷。但是他们却不会让自己的内容被用来训练其他 AI 模型。所以不禁要问,为什么这些大型科技公司却能在训练大模型时使用其他公司的在线内容呢?

这些公司很聪明,但也非常虚伪

大型科技公司使用他人在线内容却不允许他人使用自己的,这种说法是否有确切证据,这可以从他们一些产品的服务和使用条款中看出端倪。

首先来看 Claude,它是 Anthropic 推出的类似于 ChatGPT 的 AI 助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级,将上下文 token 扩展到了 100k,处理速度大大加快。

Claude 的服务条款是这样的。你不得以下列方式(这里列举出部分)访问或使用本服务,如果这些限制的任何一项与可接受使用政策不一致或不明确,则以后者依从为先:

开发与我们的服务竞争的任何产品或服务,包括开发或训练任何 AI 或机器学习算法或模型

未经条款允许,从我们的服务中抓取、爬取或以任何其他方式获取数据或信息

Claude 服务条款地址:/s/9f502c93-cb5c-4571-b205-1e479da61794/#terms

同样地,谷歌的生成式 AI 使用条款也是如此,「你不得使用本服务来开发机器学习模型或相关技术。」

谷歌生成式 AI 使用条款地址:/terms/generative-ai

OpenAI 的使用条款又怎样呢?与谷歌类似,「你不得使用本服务的输出来开发与 OpenAI 竞争的模型。」

OpenAI 使用条款地址:/policies/terms-of-use

这些公司很聪明,他们知道高质量的内容对于训练新的 AI 模型至关重要,所以不允许别人用这样的方式使用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型,这又该如何解释呢?

目前,OpenAI、谷歌和 Anthropic 拒绝了 Insider 的置评请求,并且没有做出任何回应。

Reddit、推特和其他公司:受够了

实际上,其他公司意识到正在发生的事情时并不高兴。今年 4 月,多年来一直被用于 AI 模型训练的 Reddit 计划开始对其数据的访问收费。

Reddit 首席执行官 Steve Huffman 表示,「Reddit 的数据语料库非常有价值,因此我们不能把这些价值免费提供给世界上最大的公司。」

同样今年 4 月,马斯克指责 OpenAI 的主要支持者微软非法使用 Twitter 的数据来训练 AI 模型。「诉讼时间到」,他在推特上写道。

不过在回复 Insider 的置评时,微软表示「这个前提有太多的错误,我甚至不知道从何说起。」

OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 模型来深化这个问题。据 Axios 报道,他于近期表示,「我们正在尝试开发新的模式,如果 AI 系统使用了你的内容,或者使用了你的风格,你就会因此获得报酬。」

Sam Altman

出版商(包括 Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动科技公司付费使用其内容训练 AI 模型。

目前 AI 模型的训练方式「打破」了网络

有前微软高管表示这一定有问题。微软老将、著名软件开发者 Steven Sinofsky 认为,目前 AI 模型的训练方式「打破」了网络。

Steven Sinofsky

他在推特上写道,「过去,爬取数据是用来换取点击率的。但现在只是用来训练一个模型,没有给创作者、版权所有者带来任何价值。」

也许,随着更多公司的觉醒,生成式 AI 时代这一不均衡的数据使用方式会很快被改变。

原文链接:/openai-google-anthropic-ai-training-models-content-data-use-2023-6

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@

标签:

最新
  • 世界今头条!OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流

    机器之心编译编辑:杜伟、梓文你的就是我的,我的还是我的。在生成式AI

  • 王力宏好听的歌曲有哪些_王力宏好听的歌_每日播报

    1、王力宏:《大城小爱》《唯一》《爱的就是你》《就是现在》《心中的

  • 热资讯!2800日元折合人民币多少_日元2800是人民币多少

    问题:相信大家都知道,每个国家的货币都不一样,所以如果货币需要兑换

  • 问渠哪得清如许为有源头活水来拼音_问渠哪得清如许 为有源头活水来 天天微动态

    1、意思:要问为什么那方塘的水会这样清澈呢?是因为有那永不枯竭的源

  • 国内首套±1200千伏车载式自动化直流耐压试验系统投入使用_新资讯

    人民网北京6月21日电(记者杜燕飞)记者从南方电网公司获悉,近日,在

  • 当前消息!“中东投资机构”出手!蔚来获11亿美元战略投资 专家:有助于企业加速出海

    24小时财经资讯平台,依托新锐财经日报《每日经济新闻》(NationalBusin

  • 印象主义特点有哪些_印象主义特点 焦点滚动

    1、特征:印象派音乐不会通过音乐直接描绘现实生活中的图画。2、相反,

  • 周大福最好看的手镯_周大福网红手镯多少钱好不好看有哪些产品

    最佳答案来自“百灵”网友“肖小荣”:用户回答:我看到别人戴这种带草

  • 小众“救命药”亟待建立长效供给机制|天天快播

    最近,一款用于治疗肾上腺皮质功能减退症等病症的激素类药物——醋酸氢

  • 热血无赖手柄重新映射键是哪个(热血无赖怎么用手柄玩简介介绍)

    对于热血无赖怎么用手柄玩这个问题感兴趣的朋友应该很多,这个也是目前

  • 整体出口车流量同比增长20%以上 日均出、入省总流量将达38万

    2023年端午节假期从6月22日至24日,为期3天,其中假期第一天(6月22

  • 世界最资讯丨芋圆怎么煮好吃 芋圆加什么一起煮好吃?

    想必现在有很多小伙伴对于芋圆怎么煮好吃是什么方面的知识都比较想

  • 【天天新视野】契税的计税依据是什么?营业税有几种征收方式?

    购房契税税率是多少?购房契税是指以所有权发生转移变动的不动产为

  • dnf缪斯技能栏怎么摆放(地下城与勇士缪斯怎么玩)

    dnf缪斯技能栏怎么摆放缪斯技能可以按照以下方式摆放:1 以输出为

  • 天天热资讯!柏林米特设计公寓酒店_关于柏林米特设计公寓酒店概略

    1、柏林米特设计公寓酒店位于柏林。酒店距离勃兰登堡门打车9分钟,车程

  • 世界热点评!柏桦讲清代奇案_关于柏桦讲清代奇案概略

    1、《柏桦讲清代奇案》是2018年6月中国民主法制出版社出版的图书,作者

  • 旅游
    • 山区巡回医疗 送医上门解民忧-环球播报

    • 杭州4号线二期_杭州4号线

    • 当前快播:山乡吹来艺术风(千万工程 一线探访)

    • 营收6000万,估值100亿,锦江电子有什么魔力?