先锋影音资源人妻无码_久久国产精品亚色影院_亚洲av中文无码字幕色本_a级国产乱理伦片在线观

豆包視覺(jué)模型:以更低成本推動(dòng)AI技術(shù)普惠

2024-12-24 16:42

12月18日,上海世博中心,火山引擎 Force 大會(huì)正式開(kāi)始前,現(xiàn)場(chǎng)近4000人被一條廣告片吸引住了注意力。

一個(gè)人舉著手機(jī),對(duì)準(zhǔn)一個(gè)白色的球形物,詢問(wèn)豆包:你知道這是什么嗎?豆包回答:這是一臺(tái)創(chuàng)意加濕器,外形像太空艙,頂部小孔可噴霧氣。他又把手機(jī)對(duì)準(zhǔn)一頁(yè)雜志,詢問(wèn)是什么圖片。豆包回答:這是一張星云圖,可能是獵戶座中M78星云。

用手機(jī)攝像頭隨意掃描,豆包能解析體檢報(bào)告,能修改錯(cuò)誤的代碼,能看懂簡(jiǎn)筆畫(huà),能幫人尋找高鐵檢票口,就像一個(gè)懂得一切知識(shí)的萬(wàn)能幫手。

廣告片背后是豆包模型的視覺(jué)能力,這是12月18號(hào)字節(jié)跳動(dòng)重磅推出的新能力。相比語(yǔ)言模型,視覺(jué)模型有更豐富的交互形式,能極大拓展模型的應(yīng)用場(chǎng)景。

圖:火山引擎總裁譚待

當(dāng)天,豆包還進(jìn)一步放大招,通過(guò)技術(shù)創(chuàng)新優(yōu)化成本,讓視覺(jué)模型價(jià)格比行業(yè)價(jià)格便宜85%,以更低成本推動(dòng)AI技術(shù)普惠和應(yīng)用發(fā)展。火山引擎總裁譚待表示,豆包大模型雖然發(fā)布較晚,但一直在快速迭代進(jìn)化,目前已成為國(guó)內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。

視覺(jué)模型進(jìn)入“厘”時(shí)代

大會(huì)現(xiàn)場(chǎng),譚待展示的一張PPT,讓人夢(mèng)回5月。

5月份時(shí),譚待也是展示了一張PPT,宣布豆包語(yǔ)言模型比行業(yè)平均價(jià)格降低99.3%,讓語(yǔ)言模型的價(jià)格首次進(jìn)入“厘”時(shí)代,自此掀起了國(guó)內(nèi)大模型降價(jià)的高潮。

這一次,不同的場(chǎng)地,相似的動(dòng)作,豆包視覺(jué)理解模型定價(jià)為每千tokens輸入價(jià)3厘,1元錢就可處理284張720P的圖片,比行業(yè)價(jià)格便宜85%。

豆包語(yǔ)言模型降價(jià)后,豆包大模型使用量快速增長(zhǎng),截至12月中旬,日均tokens使用量已超過(guò)4萬(wàn)億,較5月首次發(fā)布時(shí)增長(zhǎng)了33倍。這一次,豆包視覺(jué)模型也有望延續(xù)語(yǔ)言模型的成績(jī)。

譚待稱,“讓每家企業(yè)用得起”是視覺(jué)理解模型的定價(jià)邏輯,“我們希望用合理的、可持續(xù)的、一步到位的價(jià)格,讓企業(yè)和開(kāi)發(fā)者可以放心大膽地做多模態(tài)的創(chuàng)新?!?/p>

研究顯示,人類接受的信息超過(guò)80%來(lái)自視覺(jué)。視覺(jué)理解將極大地拓展大模型的能力邊界,同時(shí)也會(huì)降低人們與大模型交互的門檻,為大模型解鎖更豐富的應(yīng)用場(chǎng)景。

但此前,視覺(jué)模型的價(jià)格一直是阻礙AI應(yīng)用普及的難題。無(wú)論對(duì)于創(chuàng)業(yè)者還是用戶,都有較高門檻。

豆包視覺(jué)模型降價(jià)后,有望帶動(dòng)AI視覺(jué)應(yīng)用的普及。譚待稱,這次豆包推出視覺(jué)模型,希望一次做到位,就像當(dāng)初推出語(yǔ)言模型一樣,讓大家都能用起來(lái),用起來(lái)就有更多的反饋、更多的創(chuàng)新,這是非常重要的事情。

推動(dòng)AI技術(shù)普惠、應(yīng)用爆發(fā)

視覺(jué)理解模型即“看圖說(shuō)話”,可以識(shí)別圖像中的物體類別、形狀等要素,理解物體之間的關(guān)系,給出空間和場(chǎng)景的整體判斷。相對(duì)比語(yǔ)言模型,視覺(jué)模型將帶來(lái)更大的AI應(yīng)用場(chǎng)景。

正式發(fā)布視覺(jué)模型之前,豆包已經(jīng)邀請(qǐng)了數(shù)百家企業(yè),內(nèi)測(cè)了2個(gè)月,在多種場(chǎng)合應(yīng)用視覺(jué)模型。

根據(jù)測(cè)試結(jié)果,在教育、電商、圖片問(wèn)答領(lǐng)域,豆包視覺(jué)模型能力有明顯的突破。教育場(chǎng)景下,家長(zhǎng)把手機(jī)對(duì)準(zhǔn)一張孩子的英語(yǔ)作文,豆包可以自動(dòng)批改,并標(biāo)注錯(cuò)誤,進(jìn)行打分。電商場(chǎng)景下,用戶發(fā)一張圖片給豆包,豆包可以幫忙找出同款品牌,并給出推薦價(jià)格。圖片問(wèn)答領(lǐng)域,在國(guó)外旅游的人拍一張建筑,豆包可以立刻告訴他建筑位于哪座城市,具有什么歷史故事。

除上述三個(gè)場(chǎng)景外,金融、醫(yī)療、建筑、物流、體育等領(lǐng)域,視覺(jué)模型也能發(fā)揮更大作用。

據(jù)了解,豆包視覺(jué)理解模型不僅能精準(zhǔn)識(shí)別視覺(jué)內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,完成分析圖表、處理代碼、解答學(xué)科問(wèn)題等任務(wù)。此外,該模型有著細(xì)膩的視覺(jué)描述和創(chuàng)作能力。

目前,豆包視覺(jué)理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。豆包戰(zhàn)略研究負(fù)責(zé)人周昊表示:“豆包一直在努力,讓用戶的輸入更快更方便”。為此,豆包產(chǎn)品非常注重多模態(tài)的輸入和打磨,包括語(yǔ)音、視覺(jué)等能力,這些模型都已通過(guò)火山引擎開(kāi)放給企業(yè)客戶。

大會(huì)上,豆包3D生成模型也首次亮相。該模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用,可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

譚待表示:“今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過(guò)AI云原生和豆包大模型家族,火山引擎希望幫助企業(yè)做好AI創(chuàng)新,駛向更美好的未來(lái)?!?/p>

任曉寧/文

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【字節(jié)跳動(dòng)】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

熱新聞