百度被網(wǎng)暴,AI大模型“套皮”海外知名項(xiàng)目,百度首次回復(fù):假的 當(dāng)前熱文
圖片來(lái)源:無(wú)界AI畫(huà)繪畫(huà)工作生成
3月16日,百度創(chuàng)始人李彥宏做了大語(yǔ)言模型“文心一言”的發(fā)布會(huì)。
(資料圖)
結(jié)果,觀眾只記住了白襯衫和白腰帶,并且紛紛表示好奇,李彥宏保養(yǎng)的不錯(cuò)。然后感慨,Robin Li與其分享百度雄心勃勃的語(yǔ)言大模型,不如講一講如何保養(yǎng),搞不好還能帶個(gè)貨,股價(jià)也許就上去了。
雖然,網(wǎng)絡(luò)上鍵盤(pán)俠吐槽很多,但還是有很多媒體寫(xiě)到:《中國(guó)百度硬剛chatGPT,國(guó)產(chǎn)之光》。沒(méi)辦法,AI這個(gè)領(lǐng)域,好像只有百度能打,起碼,大部分公眾的認(rèn)知是這樣。
如果說(shuō)16日發(fā)布會(huì)后公眾的態(tài)度是希望百度扛起對(duì)線chatGPT的大旗。這兩天,畫(huà)風(fēng)變了,吐槽排山倒海而來(lái),可以說(shuō)是怒其不爭(zhēng)了。
首先是一批圖片,顯示文心一言理解能力很差。
另外,還有一批圖片,更是把文心一言給狠狠錘了一把。大意是說(shuō),文心一言更懂英文,不懂中文。直言百度作假,文心一言是套殼了chatGPT,水貨。那么,真的是這樣子嗎?
01 百度文心一言被爆錘,國(guó)產(chǎn)都不行?
微博賬號(hào)“劉大可先生”錘百度的文字被傳播得很廣,光點(diǎn)贊就有2.2萬(wàn)。
他是這么說(shuō)的:百度這個(gè)所謂的人工智能,其實(shí)就把中文句子機(jī)翻成英語(yǔ)單詞,拿去用國(guó)外剛剛開(kāi)源的人工智能“Stable Diffusion”生成了圖畫(huà),再返回給你,說(shuō)是自己畫(huà)的。
他給出的理由有很多,這里僅舉一個(gè)例子。
上圖,“劉大可先生”的要求是畫(huà)“云中的平面”,結(jié)果文心一言畫(huà)了個(gè)飛機(jī),“劉大可先生”說(shuō),這是因?yàn)椤霸浦械钠矫妗睓C(jī)翻之后是“plane in cloud”,所以文心一言背后的英語(yǔ)的人工智能當(dāng)然會(huì)畫(huà)個(gè)飛機(jī)。下面這張圖在社交網(wǎng)絡(luò)傳播非常廣,揭示的“真相”與上文是一樣的。
自從chatGPT誕生后,以及包括一系列AI畫(huà)圖軟件,像Stable-Diffusion、Midjourney、DALLE等誕生以來(lái),我們其實(shí)看到了很多的應(yīng)用,底層都是這些開(kāi)源的模型。但是通過(guò)“漢化”,可以給中國(guó)的用戶(hù)帶來(lái)很好的體驗(yàn)。
百度的文心一言是不是也這樣?這個(gè)“判斷”可能是武斷的。
2月20日晚間,復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊(duì)發(fā)布國(guó)內(nèi)首個(gè)類(lèi)ChatGPT模型MOSS,但是很快就被吐槽,它的中文水平不如英文。
3月30日,阿里達(dá)摩院低調(diào)地在魔搭社區(qū)(ModelScope)放出了“文本生成視頻大模型”。結(jié)果,這個(gè)大模型也是更懂英文,有體驗(yàn)者寫(xiě)到,他輸入提示詞:A panda eating bamboo on a rock。77秒后,大模型給出了一個(gè)2秒的熊貓吃竹子視頻。如果換成中文:一只大熊貓坐在巖石上吃竹子。出來(lái)的結(jié)果就是一只類(lèi)似于貓咪的小動(dòng)物。離題萬(wàn)里。
02 中文數(shù)據(jù)天生缺陷?
為什么會(huì)這樣呢?在微博賬號(hào)“劉大可先生”爆錘百度的微博文字下面,第一個(gè)留言的名叫“歐陽(yáng)少慳",他說(shuō),文心一言出現(xiàn)這種情況的因?yàn)樵谟?,目前開(kāi)源的圖文數(shù)據(jù)大部分是英文的,可以參考LAION這個(gè)開(kāi)源數(shù)據(jù)庫(kù),所以目前的diffusion model基本都是英文驅(qū)動(dòng),這也導(dǎo)致了“劉大可先生”說(shuō)的怪異現(xiàn)象。
“當(dāng)然,我們期待同等規(guī)模的中文開(kāi)源數(shù)據(jù)庫(kù)的出現(xiàn)。stable diffusion是一種網(wǎng)絡(luò)結(jié)構(gòu),開(kāi)發(fā)者完全可以使用LAION數(shù)據(jù)集和sd結(jié)構(gòu)訓(xùn)練一個(gè)自己的網(wǎng)絡(luò),不需要套皮?!彼f(shuō)。
23日中午,百度官方公眾號(hào)發(fā)了一則聲明,寫(xiě)到:“文心一言完全是百度自研的大語(yǔ)言模型,文生圖能力來(lái)自文心跨模態(tài)大模型ERNIE-ViLG。在大模型訓(xùn)練中,我們使用的是全球互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),符合行業(yè)慣例。大家也會(huì)從接下來(lái)文生圖能力的快速調(diào)優(yōu)迭代,看到百度的自研實(shí)力。”
有從業(yè)者稱(chēng),這基本等于承認(rèn)使用了LAION。LAION,這是目前最為知名的大規(guī)模圖文多模態(tài)數(shù)據(jù)集。作為一個(gè)非營(yíng)利性組織,LAION提供數(shù)據(jù)集、工具和模型來(lái)解放機(jī)器學(xué)習(xí)研究。官網(wǎng)寫(xiě)到:我們通過(guò)這樣做,鼓勵(lì)開(kāi)放的公共教育,并通過(guò)重用現(xiàn)有數(shù)據(jù)集和模型來(lái)更環(huán)保地使用資源。
從這個(gè)角度理解,說(shuō)文心一言“套皮”或許還是比較武斷的。到底是不是“套皮”,或者百度的語(yǔ)言大模型在技術(shù)上有沒(méi)有參考海外項(xiàng)目?我們還要等待更多的來(lái)自行業(yè)的披露信息。
但是,這個(gè)事情從側(cè)面肯定能說(shuō)明一個(gè)問(wèn)題,雖然,我們一直強(qiáng)調(diào)中國(guó)有海量的數(shù)據(jù),但企業(yè)的實(shí)踐卻表明:不好用。
復(fù)旦MOSS大模型被質(zhì)疑中文水平不如英文時(shí),MOSS研究團(tuán)隊(duì)就坦承,“MOSS的英文回答水平比中文高,因?yàn)樗哪P突鶎W(xué)習(xí)了3000多億個(gè)英文單詞,中文詞語(yǔ)只學(xué)了約300億個(gè)?!?/p>
而澎湃新聞采訪了粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA)認(rèn)知計(jì)算與自然語(yǔ)言中心文本生成算法團(tuán)隊(duì)負(fù)責(zé)人王昊,他說(shuō):“數(shù)據(jù)質(zhì)量的差別是主要瓶頸之一。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開(kāi)源程度較低,導(dǎo)致中文數(shù)據(jù)集的規(guī)模相對(duì)較小。此外,英文作為科研主流語(yǔ)言,在學(xué)術(shù)界和工業(yè)界中得到廣泛應(yīng)用,積累了大量高質(zhì)量的語(yǔ)料數(shù)據(jù),這為英文自然語(yǔ)言處理的研究提供了極大的優(yōu)勢(shì)?!?/p>
有一個(gè)數(shù)據(jù)很現(xiàn)實(shí):雖然簡(jiǎn)體中文互聯(lián)網(wǎng)用戶(hù)和英文互聯(lián)網(wǎng)用戶(hù)規(guī)模相當(dāng),但在全球排名前1000萬(wàn)個(gè)網(wǎng)站中,英文內(nèi)容占比60.4%,中文內(nèi)容占比僅為1.4%。
這會(huì)是中國(guó)企業(yè)探索大語(yǔ)言模型的問(wèn)題和瓶頸嗎?可能也不是?;蚴怯^念,尤其是意識(shí)形態(tài)的阻礙更大。
中關(guān)村新場(chǎng)景MA Club發(fā)起人檀林在一次分享中質(zhì)問(wèn):“做一個(gè)中國(guó)的大語(yǔ)言模型,自己給自己砌一道墻,和全球分開(kāi)。就像做一個(gè)純中文的操作系統(tǒng)一樣,能有多大的意義?大家都知道,簡(jiǎn)體中文的數(shù)據(jù)質(zhì)量很差,語(yǔ)料庫(kù)的知識(shí)含量和價(jià)值已經(jīng)比海外的幾個(gè)大語(yǔ)言模型要低得多了,所以如果現(xiàn)在還非要給自己一個(gè)束縛的話,我覺(jué)得這種態(tài)度在開(kāi)局就輸了?!?/p>
中國(guó)企業(yè)要想在大語(yǔ)言模型的賽道分一杯羹,蹚出一條路,使用英文數(shù)據(jù)是不得已,沒(méi)辦法。當(dāng)然,我們顯然更期待中文數(shù)據(jù)領(lǐng)域能有更好的發(fā)展。
關(guān)鍵詞:
責(zé)任編輯:hnmd004
- 百度被網(wǎng)暴,AI大模型“套皮”海外知名項(xiàng)目2023-03-24
- 音樂(lè)巨星為何能在投資界聲名鵲起?2023-03-24
- 前字節(jié)跳動(dòng)視覺(jué)技術(shù)負(fù)責(zé)人王長(zhǎng)虎離職投身生2023-03-24
- 孫宇晨在美被指控欺詐交易,涉嫌非法推廣加2023-03-24
- 騰訊啟動(dòng)“碳尋計(jì)劃”,資助規(guī)模億元級(jí)別 2023-03-24
- 先瑞達(dá)2022年?duì)I收3.96億元,同比增長(zhǎng)30%_全2023-03-24
- 我國(guó)鋰電年總產(chǎn)值首次突破萬(wàn)億元|新要聞2023-03-24
- 環(huán)球要聞:英國(guó)航天局支持研發(fā)在月球上使用2023-03-24
- 【焦點(diǎn)熱聞】國(guó)產(chǎn)神器!6000KJ+超大型液壓2023-03-24
- 我國(guó)鋰電年總產(chǎn)值首次突破萬(wàn)億元|環(huán)球即時(shí)2023-03-24
- 全球短訊!“斗士”瞿曉鏵:風(fēng)雨過(guò)后2023-03-24
- 世界微資訊!國(guó)產(chǎn)神器!6000KJ+超大型液壓2023-03-24
- 環(huán)球熱點(diǎn)評(píng)!我國(guó)鋰電產(chǎn)業(yè)總產(chǎn)值破萬(wàn)億!2023-03-24
- 更多中國(guó)企業(yè)正在加入節(jié)能增效行動(dòng)倡議2023-03-24
- 細(xì)節(jié)之處見(jiàn)真章 發(fā)現(xiàn)廣汽本田e:NP1極湃1的2023-03-24
- 熱訊:恭喜!朱婷轟27分殺進(jìn)決賽沖冠,女排2023-03-24
- 長(zhǎng)三角城市上演樓市松綁大比拼 李嘉誠(chéng)預(yù)言2023-03-24
- 天天快消息!未來(lái)哪些專(zhuān)業(yè)就業(yè)前景好 十大2023-03-24
- 貴金屬正規(guī)平臺(tái)有哪些?國(guó)內(nèi)貴金屬平臺(tái)匯總2023-03-24
- 網(wǎng)上銀行的好處都有哪些?網(wǎng)上銀行的分類(lèi)有2023-03-24
- 擔(dān)心房?jī)r(jià)下跌遭批 辛集房?jī)r(jià)下跌最慘的小區(qū)2023-03-24
- 焦點(diǎn)資訊:福建出臺(tái)16條指導(dǎo)意見(jiàn):推動(dòng)區(qū)域2023-03-24
- 游戲股異動(dòng)拉升,盛天網(wǎng)絡(luò)大漲15%2023-03-24
- 總產(chǎn)值首次突破萬(wàn)億元!我國(guó)鋰電行業(yè)將迎來(lái)2023-03-24
- 中國(guó)一重與通用技術(shù)集團(tuán)簽署設(shè)備采購(gòu)協(xié)議2023-03-24
- 餓了么注冊(cè)放心點(diǎn)商標(biāo),已將其確認(rèn)為長(zhǎng)期戰(zhàn)2023-03-24
- 今日訊!德國(guó)兩家銀行計(jì)劃不行使AT1債券的2023-03-24
- 精選!世界鋼鐵協(xié)會(huì):2月全球粗鋼產(chǎn)量同比2023-03-24
- 全球快資訊:中核集團(tuán)三門(mén)核電4號(hào)機(jī)組開(kāi)工2023-03-24
- 觀察:中國(guó)一重與通用技術(shù)集團(tuán)簽署設(shè)備采購(gòu)2023-03-24
精彩推薦
閱讀排行
- 貴金屬正規(guī)平臺(tái)有哪些?國(guó)內(nèi)貴金...
- 網(wǎng)上銀行的好處都有哪些?網(wǎng)上銀...
- 工商銀行西安分行以黨建特色名片...
- 當(dāng)前速遞!3月23日國(guó)內(nèi)黃金期貨漲0.48%
- 短期修復(fù)還是中期反轉(zhuǎn)?機(jī)構(gòu)對(duì)新...
- 環(huán)球快資訊:全國(guó)中成藥集采將啟...
- 珠海橫琴率先實(shí)現(xiàn)數(shù)字人民幣境外...
- 德和科技IPO:被取消專(zhuān)精特新“...
- 風(fēng)險(xiǎn)投資如何投資?風(fēng)險(xiǎn)投資市場(chǎng)...
- 黃金日k線圖有什么用?同花順不...