OpenAI近日传出使用了YouTube的影音内容来训练GPT系列,文字已经不足以训练语言模型了吗?
YouTube变GPT-4新饲料? Google怎么看?为了训练AI,据传OpenAI把目标指向了YouTube。
根据《纽约时报》的报导,OpenAI对语言模型训练的素材需求大增,目前网络上的文字内容已经不够,OpenAI利用语音转文字工具「Whisper」转录了100万小时的YouTube影片内容来训练GPT- 4。
Google发言人马特・布莱恩(Matt Bryant)表示对OpenAI的做法一无所知,并且强调禁止「未经授权抓取或下载YouTube内容」。 YouTube执行长尼尔.莫汉(Neal Mohan)日前在《彭博社》受访时提到,目前并没有证据指出OpenAI违规使用YouTube的影音内容,但若属实,的确会违反YouTube平台的使用条款。
尼尔.莫汉提到:「从影片创作者的角度来看,创作者将他们辛苦创作的作品上传到YouTube,一定会有期待受到服务条款的保障。这个服务条款就是:不允许下载文字记录或影片片段内容等。这(指使用YouTube的影音内容来训练模型)明显违反了服务条款。」
也就是说,目前还不能证实OpenAI是否真的利用YouTube来训练AI模型,但似乎也不让人意外。
为什么OpenAI、Meta、Google需要这么多数据?约翰霍普金斯大学(Johns Hopkins University)理论物理学家贾里德.卡普兰尼(Jared Kaplany),同时也是AI新创公司Anthropic的创始人之一,在2020时发表的论文指出,语言模型读取的资料越多,效能就越好。
也就是说,开发大型语言模型(LLM)最重要的环节就是「喂食」AI模型大量的资料。根据《彭博社》报导指出,随着OpenAI、Google和其他公司竞相开发更强大的人工智慧,他们正在寻求更多的资料内容来训练他们的人工智慧模型,以获得更好的品质。
研究机构Epoch提到,AI公司使用数据的速度比生成数据的速度还要快。 Meta的内部资料中,Meta生成式AI副总裁艾哈迈德.达赫勒(Ahmad Al-Dahle)表示,「除非获得更多数据,否则Meta无法追赶上OpenAI。」
科技巨头为了AI数据,正着手修改服务条款如何取得大量的资料成为大型语言模型公司的发展命脉。研发AI大型语言模型的公司如OpenAI、Google、Meta等公司正透过更改服务条款来取得现有用户的资料。
《纽约时报》提到,2023年Google曾要求隐私权管理部门扩大使用服务条款,内容是允许Google利用公开的Google文件、Google地图上的餐厅评论等来训练开发中的AI语言模型。 Meta也于2023年讨论收购出版社Simon&Schuster(美国六大出版商之一),以取得长篇作品,并讨论从网络上搜集受版权保护的内容。
而Google也表示,其语言模型使用了「部分YouTube影音内容」进行训练,并取得了影片创作者的许可。
Meta也表示,已经「积极投资」将AI整合到Instagram和Facebook的服务中,并且取得数10亿的公开共享图像和影音来训练模型。
根据《纽约时报》,目前AI使用网络上的资料训练,已经使用超过3兆字,大约是牛津大学博德利图书馆(英国第二大的图书馆)的藏书文字的2倍。
你的资料,终究有一天被AI用!如何保护自己?而当科技巨头们对数据无限的需求,也引发了许多创作者对于版权问题的疑虑和诉讼。
《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练语言模型。 OpenAI和微软表示,使用这些文章是「合理使用」,是版权法所允许的。
为了解决数据不足的问题,许多语言模型公司正在开发人工智慧生成的文本(合成数据)来训练AI语言模型,除了减少对于版权资料的依赖,也可以开发出更好的AI模型版本,以提升竞争优势。
但此合成数据仍然处于争议阶段。使用合成数据来训练语言模型也可能导致强化语言模型的偏见和错误,OpenAI的研发人员表示,这种方法可能会导致语言模型的故障,因此语言模型公司仍在尝试其他新的做法。
在找到更好的方法之前,想必各家科技巨头还会持续想出获取数据的方式,换个角度说,在「数据量大等于好」的前提没有破解前,数据战争还会持续下去。
以上就是YouTube变GPT-4新饲料?文字已经不够用了吗?有违反版的全部内容,望能这篇YouTube变GPT-4新饲料?文字已经不够用了吗?有违反版可以帮助您解决问题,能够解决大家的实际问题是塔岸网一直努力的方向和目标。
OKX Jumpstart本周将上线ZK ,比特币、以太币都可以参与质押,该如何参加?Polyhedra Network是什么?一次搞懂。OKX Jumpstart上线新项目ZK (Polyhedra Network)据OKX官方公告显示,OKX Jumpstart将上线ZK (Polyhedra ...
04-26
在迷因币世界中,不能只让「狗」独领风骚,「猫系迷因币」也正在悄悄崛起。本文将介绍两大猫币$POPCAT与$WEN,它们究竟如何赢得社群的心?不让狗独占版面,「猫系迷因币」也不可忽视!最近的加密世界,迷因币狂潮一波接一波,从各式各样的狗狗、青蛙等,就连美国总统候选人川普,都成了迷因的主角,让加密社群热...
04-26
比特币价格不断突破新高,全球前两大交币安、OKX的平台币价格也破纪录!BNB在30天内爆涨64%;OKX平台币OKB也于3月10日突破70美元。交易所也飞天!OKB、BNB币价创新高随着比特币(BTC)价格不断突破新高,全球前两大交易所的平台币也破纪录!最大交易所币安(Binance)平台币BNB,...
04-26
亚洲最大的Web3 钱包Bitget Wallet宣布正式启动其官方生态代币BWB,并推出BWB 积分空投计划。平台币BWB 启动,积分空投活动已上线BWB 代币的总供应量为10 亿枚,其中5% 将用于社群空投,以BWB 积分的形式分配给用户,未来可兑换为BWB 。目前积分空投活动已正式开始,从3 ...
04-26
迷因币BOME 的成功,使得迷因币「预售发行模式」再次在Solana 生态系统中盛行起来。然而,近日有一个迷因币SLERF 在三天预售期间成功筹集总价值约1,000 万美金的SOL,但项目发起人在烧毁LP 代币的时候操作失误,不小心将将原本保留给空投份额的SLERF 与其他垃圾币一起烧毁了。再加上铸...
04-26