
ChatGPT是個通才,可以與各行各業(yè)的人們對話,因?yàn)樗脕碛?xùn)練的語言,來自整個網(wǎng)絡(luò)和人類所有的知識寶庫,并且建立在一個看似無所不包的知識體系之上。
無論是ChatGPT之類的聊天機(jī)器人,還是其他的內(nèi)容生成技術(shù)與應(yīng)用,背后都是日益強(qiáng)大的學(xué)習(xí)和訓(xùn)練的計算系統(tǒng),它們被稱為大型語言模型(LLM),動輒設(shè)置成千上萬億個參數(shù)。機(jī)器很難像人類一樣通過推理來進(jìn)行有效的學(xué)習(xí),所以機(jī)器學(xué)習(xí)的能力很大程度上依賴于海量的數(shù)據(jù)。
【資料圖】
但是,人類的語言是有限的,當(dāng)計算機(jī)建立起越來越巨大的算力和強(qiáng)大的算法,自然語言作為“原料”供應(yīng),是不是終有一天像石油一樣,被人類開采枯竭?當(dāng)前的機(jī)器學(xué)習(xí)模型依賴于不斷增長的巨大數(shù)據(jù)集,其發(fā)展趨勢是否可能會放緩?
是的,語言數(shù)據(jù)資源是有限的,高質(zhì)量的語言數(shù)據(jù)更是有限的。
來自阿伯丁大學(xué)、麻省理工大學(xué)、圖賓根大學(xué)的Pablo Villalobos等6位計算機(jī)科學(xué)家,近日發(fā)布了一篇論文,名為《我們會用完數(shù)據(jù)嗎?機(jī)器學(xué)習(xí)中數(shù)據(jù)集縮放的局限性分析》。他們開發(fā)的概率模型,估算了2022年至2100年之間可用的語言和視覺數(shù)據(jù)的總量,估計了語言和視覺模型訓(xùn)練數(shù)據(jù)集規(guī)模的演變趨勢,試圖發(fā)現(xiàn)由于可用數(shù)據(jù)耗盡而導(dǎo)致的趨勢的極限。
目前絕大多數(shù)存量數(shù)據(jù)是用戶生成的,存儲在社交媒體平臺、博客、論壇等。有三個因素決定了在一個給定的時間段內(nèi)產(chǎn)生多少內(nèi)容:人口數(shù)量、互聯(lián)網(wǎng)滲透率、每個互聯(lián)網(wǎng)用戶產(chǎn)生的平均數(shù)據(jù)量。
互聯(lián)網(wǎng)上的大部分文本數(shù)據(jù)對訓(xùn)練大型語言模型(LLM)都沒有用,專業(yè)人士通常只使用高質(zhì)量的數(shù)據(jù)來訓(xùn)練模型,因?yàn)檫@是他們希望模型學(xué)習(xí)和效仿的語言類型。常見的高質(zhì)量數(shù)據(jù)的來源是書籍、新聞文章、科學(xué)論文、維基百科和過濾后的網(wǎng)頁內(nèi)容。這些數(shù)據(jù)源的一個共同特性是,它們經(jīng)過了質(zhì)量和有用性的篩選。例如,在新聞、科學(xué)文章或開源代碼項(xiàng)目中,有用性必須由專業(yè)標(biāo)準(zhǔn)(如同行評議)的篩選產(chǎn)生。
他們發(fā)現(xiàn),語言數(shù)據(jù)枯竭情況比視覺數(shù)據(jù)嚴(yán)峻得多。
語言和視覺模型的數(shù)據(jù)存量的增長速度比訓(xùn)練數(shù)據(jù)集的大小慢得多,所以如果按照目前的趨勢繼續(xù)下去,數(shù)據(jù)集最終會因?yàn)閿?shù)據(jù)枯竭而停止增長。
對于語言模型來說,數(shù)據(jù)耗盡的情況將在2030年到2040年之間發(fā)生。語言大模型的訓(xùn)練數(shù)據(jù)主要來自互聯(lián)網(wǎng),現(xiàn)在的模型越做越大,已經(jīng)把網(wǎng)上能收集到的網(wǎng)頁數(shù)據(jù)用的差不多了,或者說隨著算力投入的進(jìn)一步增加,基本上能夠把網(wǎng)絡(luò)上收集到的數(shù)據(jù)全部用盡。
近在眼前的擔(dān)憂是,高質(zhì)量語言數(shù)據(jù)在 2026 年之前耗盡。
高質(zhì)量數(shù)據(jù)增長的放緩是不可避免的,對于高質(zhì)量的語言數(shù)據(jù)來說尤其如此。高質(zhì)量的數(shù)據(jù)集通常包括了50%的用戶生成內(nèi)容,15%~20%的書籍,10%~20%的科學(xué)論文,近10%的代碼和近10%的新聞。
研究人員估算了數(shù)字化書籍、公共GitHub和科學(xué)論文中可用文本的全部數(shù)量,并假設(shè)其占據(jù)高質(zhì)量數(shù)據(jù)集的30%到50%之間,從而預(yù)測出當(dāng)前高質(zhì)量語言數(shù)據(jù)的總存量為9萬億(即9e12,上下限大概為4.6萬億到17萬億)個單詞,每年增長率為 4% 到 5%。以高質(zhì)量語言數(shù)據(jù)庫作為上限來預(yù)測語言數(shù)據(jù)集的增長,放緩發(fā)生得更早,在2026年之前。
相比之下,低質(zhì)量語言數(shù)據(jù)的存量在69萬億~7.1億億個單詞之間,當(dāng)前增長率在6.41%至17.49%之間。其中,谷歌這樣資金雄厚的大公司可用的數(shù)據(jù)存量約為100萬億個單詞;所有科技公司可用的約為1000萬億個單詞;全人類擁有約1億億個單詞,也包括了所有的短信、電話和視頻會議等所產(chǎn)生的數(shù)據(jù)。低質(zhì)量數(shù)據(jù)集先是隨著時間推移會快速增長,達(dá)到2030年后,增長會大幅放緩,直到耗盡數(shù)據(jù)存量。
視覺數(shù)據(jù)的情況要復(fù)雜一些。
現(xiàn)在互聯(lián)網(wǎng)上的存量視覺數(shù)據(jù)數(shù)量在8.1萬億到23萬億之間,目前的年增長率在8%左右,視覺模型數(shù)據(jù)耗盡的情況將在2030年到2060年之間發(fā)生,相對于語言模型來說,目前看起來情況還沒有那么嚴(yán)重。IDEA研究院計算機(jī)視覺與機(jī)器人研究中心講席科學(xué)家張磊博士認(rèn)為,主要原因是視覺數(shù)據(jù)的維度和復(fù)雜度要更高,使得現(xiàn)有模型能夠使用的數(shù)據(jù)量和網(wǎng)上存在的數(shù)據(jù)量相比還有比較大的差距。
“視覺數(shù)據(jù)更復(fù)雜,視覺方面的問題也更多樣化。現(xiàn)在的視覺大模型通常都是針對全圖(whole image)理解的預(yù)訓(xùn)練,即模型只是針對全圖做分類或圖文檢索類的學(xué)習(xí),但是視覺還有很多細(xì)粒度的問題,比如物體檢測、視覺分割等,大模型學(xué)到的全圖表征用于細(xì)粒度問題也會性能遞減。這些困難使得視覺模型還不能簡單地用增加數(shù)據(jù)的方法來解決。”
張磊博士還強(qiáng)調(diào),視覺模型繼續(xù)增加數(shù)據(jù)量,獲得的增益也會逐漸變小,這也需要視覺算法方面的進(jìn)一步改進(jìn),因此,視覺大模型目前還沒有達(dá)到單純增加數(shù)據(jù)提高效果的階段,還有更多的問題需要研究。
如果未來數(shù)據(jù)效率提升,大模型用更少的數(shù)據(jù)就能實(shí)現(xiàn)相同的功能;如果證明縮放定律是錯誤的,即使數(shù)據(jù)效率沒有額外的提升,或許還有更好的方法來使用更少的數(shù)據(jù);如果通過遷移學(xué)習(xí),多模態(tài)模型可能被證明比單一模態(tài)的模型表現(xiàn)得更好,這將有效地增加數(shù)據(jù)存量,從而擴(kuò)大所有數(shù)據(jù)模態(tài)存量的組合。
合成數(shù)據(jù)將來是一個重要的數(shù)據(jù)來源,這一點(diǎn)受到最近騰訊發(fā)布的AIGC報告的極度看好。MIT科技評論將AI合成數(shù)據(jù)列為2022年10大突破性技術(shù)之一;Gartner也預(yù)測稱,到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù),成為訓(xùn)練AI的主要數(shù)據(jù)來源。
此外,一些非自然語言的數(shù)據(jù)也會大量產(chǎn)生。例如,如果大規(guī)模采用自動駕駛汽車將導(dǎo)致空前數(shù)量的道路視頻記錄;如果擁有充足的預(yù)算(如有政府或大公司的參與),也許能夠增加數(shù)據(jù)的產(chǎn)出,特別是在針對特定領(lǐng)域的高質(zhì)量數(shù)據(jù)。
目前一個問題仍在擺在眼前:更多的數(shù)據(jù)難道一定就會“喂養(yǎng)”出更好的模型嗎?也不一定。正如前文張磊博士所說的,“目前視覺模型的相關(guān)困難還不能簡單地用通過增加數(shù)據(jù)的方法來解決。”
關(guān)鍵詞:
網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 www.yjkq2010.com All Rights Reserved.
中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
欧美色综合网_狠狠色狠色综合曰曰_麻豆精品一区二区av白丝在线_久久精品综合一区 亚洲精品免费在线| 国产欧美日产一区| 日韩一区二区在线看| 亚洲欧洲无码一区二区三区| 国内精品写真在线观看| 精品国产sm最大网站| 老色鬼精品视频在线观看播放| 欧美精品视频www在线观看| 亚洲综合偷拍欧美一区色| 在线精品亚洲一区二区不卡| 亚洲品质自拍视频| 色综合久久综合网欧美综合网| 国产精品久久久久一区| 99久久精品国产毛片| 亚洲综合免费观看高清在线观看| 色8久久精品久久久久久蜜| 亚洲午夜私人影院| 日韩丝袜美女视频| 成人精品鲁一区一区二区| 国产精品第13页| 在线免费视频一区二区| 日本三级亚洲精品| 国产视频一区二区在线| 91亚洲大成网污www| 午夜激情一区二区三区| 久久网这里都是精品| av网站免费线看精品| 亚洲妇女屁股眼交7| 欧美精品一区二区蜜臀亚洲| 91丝袜高跟美女视频| 日本不卡高清视频| 中文字幕一区二区三区在线不卡 | 欧美韩国日本一区| 日本伦理一区二区| 国产综合成人久久大片91| 亚洲欧美电影一区二区| 日韩一级二级三级| 91国内精品野花午夜精品| 国产在线日韩欧美| 日本亚洲天堂网| 一区二区三区成人| 国产日韩欧美亚洲| 亚洲精品一区二区三区影院| 欧美日韩一区久久| 99麻豆久久久国产精品免费| 韩国成人福利片在线播放| 天天免费综合色| 亚洲国产一区二区视频| 亚洲欧美日韩国产综合| 亚洲国产精品成人综合| 久久精品一区四区| 亚洲精品一区二区精华| 6080亚洲精品一区二区| 欧美日韩一区小说| 欧美三级电影一区| 91碰在线视频| 成人av免费在线播放| 国产乱妇无码大片在线观看| 狠狠色丁香婷婷综合久久片| 裸体歌舞表演一区二区| 久久国产免费看| 国模套图日韩精品一区二区| 狠狠狠色丁香婷婷综合激情| 极品尤物av久久免费看| 久久99国产乱子伦精品免费| 久久精品国产免费看久久精品| 日本不卡在线视频| 美女视频免费一区| 国产一区欧美日韩| 丁香婷婷综合激情五月色| 成人久久18免费网站麻豆| 99国产精品国产精品毛片| 色先锋久久av资源部| 欧美日韩一级二级三级| 欧美一级在线观看| 久久婷婷色综合| 中文字幕日韩av资源站| 有坂深雪av一区二区精品| 丝袜国产日韩另类美女| 秋霞午夜鲁丝一区二区老狼| 久久99精品久久久久久国产越南| 久99久精品视频免费观看| 国产精品一二二区| 色香蕉久久蜜桃| 91精品国产品国语在线不卡| 精品国产免费人成电影在线观看四季 | 欧美亚洲国产bt| 欧美另类一区二区三区| 欧美一级日韩免费不卡| 2017欧美狠狠色| 亚洲视频在线一区观看| 午夜精品aaa| 国产高清不卡一区二区| 一本大道久久精品懂色aⅴ| 91精品欧美一区二区三区综合在| 久久久久久免费网| 亚洲国产wwwccc36天堂| 国产福利一区在线| 欧美午夜视频网站| 国产日本一区二区| 亚洲高清免费视频| 成人av高清在线| 日韩欧美一级二级三级| 亚洲免费观看视频| 久久精品国内一区二区三区| 一本大道久久a久久精二百| 精品国内片67194| 亚洲成人先锋电影| 99久久久久免费精品国产| 日韩视频免费观看高清完整版在线观看 | 亚洲欧美激情视频在线观看一区二区三区 | 欧美在线色视频| 久久人人97超碰com| 亚洲综合视频在线| www.欧美色图| 久久综合av免费| 日韩高清不卡一区二区三区| 99久久免费国产| 国产蜜臀97一区二区三区| 日本v片在线高清不卡在线观看| 91亚洲精品一区二区乱码| 久久先锋影音av| 久久精品999| 日韩欧美亚洲国产精品字幕久久久| 亚洲激情一二三区| 99精品1区2区| 17c精品麻豆一区二区免费| 国产精品一级二级三级| 欧美大片顶级少妇| 青青草一区二区三区| 欧美亚洲丝袜传媒另类| 综合欧美一区二区三区| 99视频有精品| 亚洲日本在线观看| 色偷偷成人一区二区三区91| 最近中文字幕一区二区三区| 成人精品国产福利| 亚洲欧洲日韩av| 97精品国产露脸对白| 亚洲欧美综合网| 99re视频这里只有精品| 中文字幕综合网| 日本电影亚洲天堂一区| 亚洲综合色区另类av| 欧美日韩亚洲综合在线| 午夜精品福利一区二区三区av| 欧美视频精品在线| 日韩高清电影一区| 久久蜜桃av一区二区天堂| 国产成人免费网站| 亚洲人成精品久久久久| 欧美午夜精品电影| 蜜臀av一区二区在线免费观看| 欧美草草影院在线视频| 粉嫩嫩av羞羞动漫久久久| 亚洲图片欧美激情| 欧美老人xxxx18| 国产一区二区免费看| 中文字幕制服丝袜一区二区三区 | 亚洲精品视频在线看| 欧美日韩一区二区欧美激情| 美腿丝袜亚洲色图| 中日韩av电影| 欧美视频在线一区| 极品美女销魂一区二区三区免费| 亚洲国产精品v| 欧美日韩精品高清| 男男成人高潮片免费网站| 久久综合久久综合九色| 91在线免费看| 麻豆成人在线观看| 亚洲免费av高清| 精品国产精品网麻豆系列 | 欧美日韩一区在线| 国产成人av在线影院| 一区二区国产盗摄色噜噜| 欧美久久久一区| 国产成人精品综合在线观看 | 国产精品国产三级国产专播品爱网| 色综合久久综合中文综合网| 久久99久久久久久久久久久| 亚洲欧美在线另类| 日韩精品一区二区三区视频播放 | 精品国产一区二区三区久久久蜜月| 懂色一区二区三区免费观看| 日日骚欧美日韩| 国产日韩av一区二区| 欧美日韩中文另类| 国产成人午夜99999| 日本欧美一区二区在线观看| 亚洲丝袜另类动漫二区| 久久精品亚洲乱码伦伦中文| 欧美日韩高清一区二区| 成人免费视频视频| 激情深爱一区二区| 五月天欧美精品| 一区二区三区不卡视频在线观看| 久久精品欧美一区二区三区不卡 | 欧美日本国产一区| av电影在线观看不卡|