在今年的WWDC大会上,苹果宣布与OpenAI合作。ChatGPT将被嵌入到下一代iOS系统的多个地方,提供书写辅助、创建自定义拟我表情,并使Siri更加智能。
而且完全免费!
但是,这样做对苹果公司来说难道不需要任何成本吗?
据报道, 苹果公司并未为此向 OpenAI 支付任何费用。那么 OpenAI 为什么要这么做呢?毕竟,这需要大量的处理能力、管理时间、开发工作等等。苹果的动机不难理解:它能将最前沿的人工智能技术集成到自己的平台中。
那么OpenAI又能得到什么呢?
数据墙
在具有里程碑意义的系列文章《情境意识》中,“数据墙”的概念得到了解释:
这一切背后可能存在一个重要的变数:互联网数据正在枯竭。这意味着,很快,那种简单地利用更多抓取的数据预训练大型语言模型的方法可能会遇到严重的瓶颈。
前沿模型已经基于互联网上的大部分数据进行训练。例如,Llama 3 就使用了超过 15T 个词元进行训练。 用于 LLM 训练的Common Crawl 包含了互联网的大部分数据,其原始数据量超过 100T 个词元,尽管其中大部分是垃圾数据和重复数据(例如,相对简单的去重处理就能得到 30T 个词元,这意味着 Llama 3 几乎已经使用了所有数据)。此外,对于代码等更具体的领域,词元数量则要少得多,例如,据估计,公共 GitHub 代码库的词元数量也只有数万亿。
训练逻辑学习模型(LLM)需要海量数据。事实上,我们已经面临数据短缺的问题。所有公开的大型数据集都已被过度训练,而像抓取所有Reddit帖子或推文这类巧妙的方法也早已被用尽。虽然还有电子书、YouTube视频和其他资源,但核心问题在于数据量终究有限。
现在,苹果公司向 OpenAI 提供了一个庞大的新数据存储库:数亿用户在 iPhone、iPad、Apple Watch 和 Mac 上所做的一切。
记住,萨姆·奥特曼是个骗子。
当然,他们不会用苹果用户数据进行训练。当然不会。
还要记住,萨姆·奥特曼一直以来都无视安全、规则和限制。这就是他被解雇的原因。
如果你真的相信你从苹果公司获得的数据不会被用来改进 ChatGPT 的模型,那我倒想把纽约的一座桥卖给你。
官方说法是苹果公司担任 OpenAI 的品牌大使……你懂的。