我們正在經(jīng)歷一場聲勢浩大的AI新基建大潮。
半年之內(nèi),大模型從小范圍共識(shí)迅速擴(kuò)散。中信所發(fā)布的報(bào)告顯示,目前已發(fā)布的參數(shù)模型超過10億的大模型數(shù)量已經(jīng)接近80個(gè),一半來自企業(yè),一半來自科研機(jī)構(gòu)。
(資料圖片)
國內(nèi)大模型生態(tài)逐漸形成的過程中,也開始剝離對(duì)OpenAI的追隨逐漸尋找適合自己的道路。衡量大模型成功與否的標(biāo)準(zhǔn),也從硬橋硬馬的參數(shù)競賽,來到了真刀真槍地解決問題上。
商湯科技在今年4月份首次公布了“日日新SenseNova”的大模型體系,發(fā)布了包括自研中文大語言模型“商量SenseChat”在內(nèi)的多個(gè)AI大模型及應(yīng)用。近日在世界人工智能大會(huì)上,商湯科技宣布了“日日新SenseNova大模型”體系的第一次重大迭代。大語言模型“商量”升級(jí)到2.0版本。
它更強(qiáng)了。在整個(gè)商湯科技大模型布局體系中,它的作用也愈發(fā)明顯。
更強(qiáng)的“商量2.0”
怎么直觀體現(xiàn)“商量2.0”的能力提升?商湯科技董事長兼CEO徐立在現(xiàn)場演示了老子與孔子之間的一場并不存在的對(duì)話。
“商量2.0”的回答圍繞“道”來進(jìn)行??鬃酉蚶献訂柕?,老子雖然已經(jīng)悟道,但無法與孔子言說,只是拂袖而去。這一場演繹出的對(duì)話行云流水。“商量2.0”甚至在文中加了一個(gè)玩笑:
孔子曰:“吾聞夫子大名,今日得一見,實(shí)乃三生有幸!”
老子笑道:“非也,吾與汝同道而行,何來‘三生’?”
并且依據(jù)問題,整個(gè)對(duì)話以文言形式出現(xiàn)。并且為了避免混淆,“商量2.0”也在回答的第一句話寫明了“這只是虛構(gòu)之作,不應(yīng)被視為歷史的真實(shí)記錄”這樣的前提。
“商量1.0”首次推出時(shí),現(xiàn)場的演示已經(jīng)展現(xiàn)了它優(yōu)秀的多輪對(duì)話以及人機(jī)共創(chuàng)能力。三個(gè)月后,“商量2.0”在知識(shí)信息準(zhǔn)確性、邏輯判斷能力、上下文理解能力、創(chuàng)造性等方面都有了更多提升。
比如用“商量2.0”來做旅行規(guī)劃,并且吩咐它做成表格:
或者來考驗(yàn)考驗(yàn)關(guān)于“女朋友說的都對(duì)”的事:
甚至不只是能讀懂女朋友,“商量2.0”還能讀出點(diǎn)反諷或者陰陽怪氣的語氣了:
這三個(gè)月“商量2.0”到底經(jīng)歷了什么,其實(shí)看看幾場考試結(jié)果就知道了。在全球范圍內(nèi)的三個(gè)權(quán)威大語言模型評(píng)測基準(zhǔn)(MMLU、AGIEval、C-Eval)的測評(píng)結(jié)果中,“商量2.0”的表現(xiàn)都超過了ChatGPT。
除此之外,可能有一些人在前面老子與孔子對(duì)話的演示照片中注意到了“商量2.0”出現(xiàn)了XL和S兩個(gè)版本的分屏演示,這是“商量2.0”在升級(jí)后增加了更多不同參數(shù)尺寸的大模型以供客戶選擇,其中最小參數(shù)的模型版本甚至可以跑在手機(jī)終端上。
在語言上“商量2.0”新增了阿拉伯語和粵語等新語種。支持簡體中文、繁體中文以及英語等多語言之間的交互。并且“商量2.0”對(duì)超長文本的支持,也從2k提升到32k,能夠更加充分理解上下文。
對(duì)于商湯科技這樣核心面向ToB的大模型廠商來說,大模型本身的素質(zhì)只是起點(diǎn),企業(yè)客戶如何以自己的需求給大模型定義出具體輪廓,后者如何實(shí)現(xiàn)穩(wěn)定的迭代流程并一步步逼近真實(shí)的痛點(diǎn),是最終分勝負(fù)的地方。
開放知識(shí)庫融合能力
商湯科技訓(xùn)練出一個(gè)具備超強(qiáng)的理解、對(duì)話、推理等能力的“商量2.0”后,企業(yè)客戶還可以用自己沉淀下來的企業(yè)知識(shí)讓大模型變成能夠服務(wù)好自己企業(yè)的“專業(yè)人才”。如何高效解決這些工程問題非常重要。
商湯科技此次推出的“商量2.0”新增了知識(shí)庫融合接口,讓企業(yè)可以無需等待基礎(chǔ)大模型的迭代升級(jí),快速擁有專業(yè)知識(shí)和能力。融合了知識(shí)庫后,可以增強(qiáng)模型對(duì)知識(shí)更新理解的能力,加強(qiáng)知識(shí)的快速理解和獲取,同時(shí)客戶訓(xùn)練模型的成本會(huì)大幅降低。
商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示:“有了知識(shí)庫,不需要進(jìn)入到我們的模型本身,就可以比較簡單、方便地將這個(gè)領(lǐng)域的相應(yīng)知識(shí)總結(jié)在一起”,并且因?yàn)樾畔⒏訙?zhǔn)確,也解決了幻覺的問題。
作為效率工具的數(shù)字人
“商量2.0”的全面升級(jí)的同時(shí),“日日新SenseNova大模型”體系內(nèi)AIGC平臺(tái)能力也在不斷突破,并且在融合語言大模型能力后,實(shí)現(xiàn)了跨越式提升。
比如前面提到的文生圖創(chuàng)作平臺(tái)“秒畫”此次升級(jí)到了3.0版本,模型參數(shù)提升到了70億量級(jí),生成圖片的細(xì)節(jié)刻畫達(dá)到專業(yè)攝影級(jí)別。而在提示詞這個(gè)頭疼問題上,“商量2.0”為“秒畫3.0”提供了提示詞的自動(dòng)擴(kuò)展能力。這意味著用戶只需要少量簡單的提示詞就可以達(dá)到一張細(xì)節(jié)豐富的圖像結(jié)果。
而在數(shù)字人領(lǐng)域,此次商湯科技的數(shù)字人視頻生成平臺(tái)“如影”也升級(jí)到了2.0版本,“如影2.0”的語音和口型流暢度的提升超過30%,并且可以實(shí)現(xiàn)4K視頻效果。發(fā)布會(huì)上,經(jīng)濟(jì)學(xué)家任澤平、延參法師以及徐立本人的數(shù)字人形象現(xiàn)身,效果足以亂真。
在大模型的落地場景中,數(shù)字人是一個(gè)非常重要的承載方式,近日十分火熱的數(shù)字人直播帶貨就是一個(gè)典型場景。而直播帶貨包括短視頻也是“如影2.0”在3個(gè)月內(nèi)測和公測中間,客戶最聚焦的場景之一。
商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青表示,在AIGC這個(gè)大框架內(nèi),“商量2.0”可以承擔(dān)短視頻直播的文案和劇本創(chuàng)作。而“如影2.0”如何在交流上能夠緊跟潮流,也要依靠“商量2.0”的語言大模型能力去學(xué)習(xí)時(shí)新的短視頻語料。
短視頻和直播場景之外,“如影2.0”正在加速進(jìn)入各行各業(yè)。
比如保險(xiǎn)行業(yè),每一個(gè)保險(xiǎn)專員都有為客戶宣傳新產(chǎn)品或是其他個(gè)性化的服務(wù)型內(nèi)容輸出需求,“如影2.0”可以在客戶的生日或某個(gè)理財(cái)產(chǎn)品發(fā)布的節(jié)點(diǎn)去代替保險(xiǎn)專員做個(gè)性化的內(nèi)容和服務(wù);在教育行業(yè),“如影2.0”已經(jīng)開始協(xié)助國內(nèi)頭部職業(yè)教育平臺(tái)的教師制作教育素材,解決內(nèi)部對(duì)視頻制作的需求。
“數(shù)字人是一個(gè)很典型的企業(yè)內(nèi)部的效率工具?!睓枨啾硎?。
如影作為一個(gè)AIGC創(chuàng)作平臺(tái)未來會(huì)繼續(xù)在視頻生成領(lǐng)域做深,欒青認(rèn)為這是由于內(nèi)容創(chuàng)作正在經(jīng)歷一個(gè)從文字、圖片到視頻的維度變化。
邁向多模態(tài)
由于圖片與視頻信息在真實(shí)世界中的占比極大,遠(yuǎn)超語言信息,對(duì)于真實(shí)世界的理解需求讓基礎(chǔ)大模型的未來一定會(huì)走向多模態(tài),這一點(diǎn)透過“商量2.0”已經(jīng)初見端倪。除了文字,“商量2.0”擁有了對(duì)圖片和視頻內(nèi)容的分析能力。
比如,如上圖展示,“商量2.0”可以在一張雜亂的辦公桌照片中識(shí)別出具體物件之后,結(jié)合每個(gè)物品的特性來回答“當(dāng)你感覺熱時(shí),你會(huì)做什么”這樣接近流程設(shè)計(jì)的開放問題;或者在看到一張菜單照片后,幫助用戶在一個(gè)限定價(jià)格區(qū)間內(nèi)給出點(diǎn)菜方案。
最初從計(jì)算機(jī)視覺的研究切入AI領(lǐng)域,已經(jīng)跨過一次AI浪潮的商湯科技更確信這一次大模型拉起的浪潮會(huì)是一次真正的機(jī)會(huì)。
現(xiàn)在的大模型研究都是基于transformer網(wǎng)絡(luò)架構(gòu)?!吧虦珡?019年開始從事大模型研究,那時(shí)候做視覺走的就是這條路線”,在商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛看來,今天一些視覺標(biāo)準(zhǔn)和自然語言標(biāo)準(zhǔn)正在逐漸趨向融合,“我們往多模態(tài)方向發(fā)展的時(shí)候,語言、視覺開始有更加深度的融合,就體現(xiàn)出比較強(qiáng)的這方面的積累和能力。”
我們現(xiàn)實(shí)生活當(dāng)中遇到的很多應(yīng)用場景,如在自動(dòng)駕駛、機(jī)器人等一系列領(lǐng)域,都要運(yùn)用到多模態(tài)?!暗嵌嗄B(tài)的數(shù)據(jù)和一些任務(wù),往往不容易獲取,需要有很深的行業(yè)積累,這方面也是商湯的優(yōu)勢所在。”王曉剛介紹到。
在今年世界人工智能大會(huì),首次公開亮相三個(gè)月后,商湯“日日新SenseNova大模型”體系以全面升級(jí)的姿態(tài)對(duì)企業(yè)級(jí)用戶開放。同時(shí)許多人沒有注意到,商湯還聯(lián)合上海人工智能實(shí)驗(yàn)室一起宣布了書生多模態(tài)大模型。未來,商湯是否能率先找到?jīng)Q勝多模態(tài)之路的鑰匙,很值得期待。(文章來源:品玩網(wǎng))
(CIS)
關(guān)鍵詞: