豆包視覺(jué)模型：以更低成本推動(dòng)AI技術(shù)普惠

2024-12-24 16:42

12月18日，上海世博中心，火山引擎 Force 大會(huì)正式開(kāi)始前，現(xiàn)場(chǎng)近4000人被一條廣告片吸引住了注意力。

一個(gè)人舉著手機(jī)，對(duì)準(zhǔn)一個(gè)白色的球形物，詢問(wèn)豆包：你知道這是什么嗎？豆包回答：這是一臺(tái)創(chuàng)意加濕器，外形像太空艙，頂部小孔可噴霧氣。他又把手機(jī)對(duì)準(zhǔn)一頁(yè)雜志，詢問(wèn)是什么圖片。豆包回答：這是一張星云圖，可能是獵戶座中M78星云。

用手機(jī)攝像頭隨意掃描，豆包能解析體檢報(bào)告，能修改錯(cuò)誤的代碼，能看懂簡(jiǎn)筆畫(huà)，能幫人尋找高鐵檢票口，就像一個(gè)懂得一切知識(shí)的萬(wàn)能幫手。

廣告片背后是豆包模型的視覺(jué)能力，這是12月18號(hào)字節(jié)跳動(dòng)重磅推出的新能力。相比語(yǔ)言模型，視覺(jué)模型有更豐富的交互形式，能極大拓展模型的應(yīng)用場(chǎng)景。

圖：火山引擎總裁譚待

當(dāng)天，豆包還進(jìn)一步放大招，通過(guò)技術(shù)創(chuàng)新優(yōu)化成本，讓視覺(jué)模型價(jià)格比行業(yè)價(jià)格便宜85％，以更低成本推動(dòng)AI技術(shù)普惠和應(yīng)用發(fā)展。火山引擎總裁譚待表示，豆包大模型雖然發(fā)布較晚，但一直在快速迭代進(jìn)化，目前已成為國(guó)內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。

視覺(jué)模型進(jìn)入“厘”時(shí)代

大會(huì)現(xiàn)場(chǎng)，譚待展示的一張PPT，讓人夢(mèng)回5月。

5月份時(shí)，譚待也是展示了一張PPT，宣布豆包語(yǔ)言模型比行業(yè)平均價(jià)格降低99.3%，讓語(yǔ)言模型的價(jià)格首次進(jìn)入“厘”時(shí)代，自此掀起了國(guó)內(nèi)大模型降價(jià)的高潮。

這一次，不同的場(chǎng)地，相似的動(dòng)作，豆包視覺(jué)理解模型定價(jià)為每千tokens輸入價(jià)3厘，1元錢就可處理284張720P的圖片，比行業(yè)價(jià)格便宜85％。

豆包語(yǔ)言模型降價(jià)后，豆包大模型使用量快速增長(zhǎng)，截至12月中旬，日均tokens使用量已超過(guò)4萬(wàn)億，較5月首次發(fā)布時(shí)增長(zhǎng)了33倍。這一次，豆包視覺(jué)模型也有望延續(xù)語(yǔ)言模型的成績(jī)。

譚待稱，“讓每家企業(yè)用得起”是視覺(jué)理解模型的定價(jià)邏輯，“我們希望用合理的、可持續(xù)的、一步到位的價(jià)格，讓企業(yè)和開(kāi)發(fā)者可以放心大膽地做多模態(tài)的創(chuàng)新?！?/p>

研究顯示，人類接受的信息超過(guò)80%來(lái)自視覺(jué)。視覺(jué)理解將極大地拓展大模型的能力邊界，同時(shí)也會(huì)降低人們與大模型交互的門檻，為大模型解鎖更豐富的應(yīng)用場(chǎng)景。

但此前，視覺(jué)模型的價(jià)格一直是阻礙AI應(yīng)用普及的難題。無(wú)論對(duì)于創(chuàng)業(yè)者還是用戶，都有較高門檻。

豆包視覺(jué)模型降價(jià)后，有望帶動(dòng)AI視覺(jué)應(yīng)用的普及。譚待稱，這次豆包推出視覺(jué)模型，希望一次做到位，就像當(dāng)初推出語(yǔ)言模型一樣，讓大家都能用起來(lái)，用起來(lái)就有更多的反饋、更多的創(chuàng)新，這是非常重要的事情。

推動(dòng)AI技術(shù)普惠、應(yīng)用爆發(fā)

視覺(jué)理解模型即“看圖說(shuō)話”，可以識(shí)別圖像中的物體類別、形狀等要素，理解物體之間的關(guān)系，給出空間和場(chǎng)景的整體判斷。相對(duì)比語(yǔ)言模型，視覺(jué)模型將帶來(lái)更大的AI應(yīng)用場(chǎng)景。

正式發(fā)布視覺(jué)模型之前，豆包已經(jīng)邀請(qǐng)了數(shù)百家企業(yè)，內(nèi)測(cè)了2個(gè)月，在多種場(chǎng)合應(yīng)用視覺(jué)模型。

根據(jù)測(cè)試結(jié)果，在教育、電商、圖片問(wèn)答領(lǐng)域，豆包視覺(jué)模型能力有明顯的突破。教育場(chǎng)景下，家長(zhǎng)把手機(jī)對(duì)準(zhǔn)一張孩子的英語(yǔ)作文，豆包可以自動(dòng)批改，并標(biāo)注錯(cuò)誤，進(jìn)行打分。電商場(chǎng)景下，用戶發(fā)一張圖片給豆包，豆包可以幫忙找出同款品牌，并給出推薦價(jià)格。圖片問(wèn)答領(lǐng)域，在國(guó)外旅游的人拍一張建筑，豆包可以立刻告訴他建筑位于哪座城市，具有什么歷史故事。

除上述三個(gè)場(chǎng)景外，金融、醫(yī)療、建筑、物流、體育等領(lǐng)域，視覺(jué)模型也能發(fā)揮更大作用。

據(jù)了解，豆包視覺(jué)理解模型不僅能精準(zhǔn)識(shí)別視覺(jué)內(nèi)容，還具備出色的理解和推理能力，可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算，完成分析圖表、處理代碼、解答學(xué)科問(wèn)題等任務(wù)。此外，該模型有著細(xì)膩的視覺(jué)描述和創(chuàng)作能力。

目前，豆包視覺(jué)理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。豆包戰(zhàn)略研究負(fù)責(zé)人周昊表示：“豆包一直在努力，讓用戶的輸入更快更方便”。為此，豆包產(chǎn)品非常注重多模態(tài)的輸入和打磨，包括語(yǔ)音、視覺(jué)等能力，這些模型都已通過(guò)火山引擎開(kāi)放給企業(yè)客戶。

大會(huì)上，豆包3D生成模型也首次亮相。該模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用，可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作，成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

譚待表示：“今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車，最重要的事就是確保自己要登上這趟列車。通過(guò)AI云原生和豆包大模型家族，火山引擎希望幫助企業(yè)做好AI創(chuàng)新，駛向更美好的未來(lái)?！?/p>

任曉寧/文

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【字節(jié)跳動(dòng)】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議