OpenAI被指竊取 YouTube 影片來訓練 GPT-4
灣仔 298 電腦資訊網記者報導
根據紐約時報的報導,大型 AI 公司為了擴展資料存取,採取了一些爭議性的做法,例如:OpenAI 最近被指竊取 YouTube 影片來訓練 GPT-4,引發侵權疑慮
華爾街日報本週稍早報導指出,AI 公司在收集高品質訓練資料時遇到了瓶頸。紐約時報今日進一步揭露了這些公司應對此問題的一些做法,而這些做法不出所料地遊走在 AI 著作權法的灰色地帶。
報導指出,OpenAI 為了取得訓練資料,開發了 Whisper 音訊轉錄模型,並利用該模型轉錄了超過一百萬小時的 YouTube 影片,以訓練其最先進的大型語言模型 GPT-4。紐約時報報導,OpenAI 知道此舉在法律上存在疑慮,但認為這是合理使用。報導還指出,OpenAI 總裁葛雷格·布洛克曼親自參與了影片收集工作。
OpenAI 發言人琳賽·海爾德在寄給 The Verge 的電子郵件中表示,該公司為每個模型策劃「獨特」的資料集,以「幫助它們理解世界」並維持其全球研究競爭力。海爾德補充說,該公司使用「包括公開資料和非公開資料合作夥伴關係在內的各種來源」,並正在研究生成自己的合成資料。
紐約時報的文章指出,OpenAI 在 2021 年耗盡了有用的資料,並在用完其他資源後,討論轉錄 YouTube 影片、播客和有聲書。當時,它已使用包含來自 Github 的電腦程式碼、國際象棋走法資料庫和 Quizlet 的學校作業內容等資料訓練其模型。
Google 發言人馬特·布萊恩特在寄給 The Verge 的電子郵件中表示,該公司「已看到 OpenAI 活動的未經證實報導」,並補充說「我們的 robots.txt 檔案和服務條款都禁止未經授權擷取或下載 YouTube 內容」,呼應了該公司的使用條款。YouTube 執行長尼爾·莫漢本週也對 OpenAI 使用 YouTube 訓練其影片生成模型 Sora 的可能性表達了類似的看法。布萊恩特表示,當 Google「有明確的法律或技術依據」時,會採取「技術和法律措施」來防止此類未經授權的使用。
根據紐約時報的消息來源,Google 也從 YouTube 收集了轉錄資料。布萊恩特表示,該公司「根據我們與 YouTube 創作者的協議,訓練我們的模型使用一些 YouTube 內容」。
紐約時報寫道,Google 的法律部門要求該公司的隱私團隊調整其政策語言,以擴展其使用消費者資料(例如 Google Docs 等辦公室工具)的權限。據報導,新政策故意在 7 月 1 日發布,以利用美國獨立日假期週末的注意力分散。
Meta 同樣遇到了優質訓練資料可用性的限制,紐約時報聽到的錄音中,其 AI 團隊在努力追趕 OpenAI 的同時,討論了其未經許可使用受著作權保護的作品。該公司在「瀏覽網路上幾乎所有可用的英文書籍、散文、詩歌和新聞文章」後,顯然考慮採取購買書籍許可證甚至直接收購大型出版商等措施。此外,由於劍橋分析醜聞後進行的注重隱私的變革,該公司在使用消費者資料方面的能力也受到限制。
Google、OpenAI 和更廣泛的 AI 訓練領域正與快速消失的訓練資料庫搏鬥,而這些資料庫會隨著模型吸收的資料量而變得更好。華爾街日報本週寫道,到 2028 年,公司可能會超過新內容的產生速度。
華爾街日報週一提到,解決此問題的可能方法包括使用模型自己建立的「合成」資料訓練模型,或所謂的「課程學習」,其中涉及以有序的方式向模型提供高品質資料,希望它們可以使用更少資訊建立「更聰明的概念聯繫」,但這兩種方法都尚未得到證實。然而,這些公司的另一種選擇是使用任何他們能找到的東西,無論他們是否有許可,而根據去年左右提起的多起訴訟,這種方式可以說是充滿了風險。
灣仔298電腦資訊網帶你知多一點點!
AI 公司面臨訓練資料短缺問題
隨著 AI 模型變得越來越複雜,它們需要大量的訓練資料才能發揮作用。然而,高品質訓練資料的供應有限,這對 AI 公司構成了挑戰。
資料短缺的原因
- 現有資料的品質不佳:許多現有的資料集存在偏見、不準確和過時等問題。
- 資料收集的成本高昂:收集和整理訓練資料需要大量的人力和資源。
- 資料保護法規:越來越多的法規限制了公司收集和使用個人資料。
AI 公司的應對措施
為了應對資料短缺問題,AI 公司正在採取各種措施:
- 開發合成資料:使用生成式 AI 模型創建逼真的合成資料。
- 使用課程學習:以有序的方式向模型提供資料,以幫助它們更有效地學習。
- 與資料提供商合作:與擁有高品質資料的公司合作,例如新聞機構和研究機構。
- 遊走法律灰色地帶:有些公司被指控未經許可使用受著作權保護的資料來訓練模型。
資料短缺的影響
資料短缺對 AI 公司的影響是多方面的:
- 模型效能下降:缺乏高品質資料會導致模型效能下降。
- 創新受阻:資料短缺會阻礙 AI 公司開發新的創新產品和服務。
- 競爭優勢喪失:擁有更多資料的公司將在競爭中佔據優勢。
可能的解決方案
解決資料短缺問題需要多管齊下的方法:
- 政府支持:政府可以資助資料收集和整理計畫。
- 產業合作:AI 公司可以合作建立共享資料集。
- 技術進步:開發新的技術來生成合成資料和提高課程學習的效率。
資料短缺是 AI 產業面臨的重大挑戰。然而,通過創新和合作,AI 公司可以克服這一挑戰並繼續開發強大且有用的 AI 模型。
[完]
對於以上消息,各位298電腦讀者又怎看呢?
歡迎到我們的「討論區」分享你的意見。
另外,如果你有什麼新的資訊想讓廣大的電腦愛好者知道,也可以主動向我們編輯部電腦記者報料,報料電郵:info@wanchai298.com
灣仔298電腦資訊網
免費網上電腦雜誌,電腦IT人集中地!
網址:www.wanchai298.com