AI推動數(shù)字人“飛入尋常百姓家”
發(fā)布時間:2025-05-12 15:16:19 | 來源:科技日報(bào) | 作者:都 芃 | 責(zé)任編輯:吳一凡2025年日本大阪世博會中國館自4月開館以來,吸引眾多游客“打卡”。游客走進(jìn)中國館,遠(yuǎn)遠(yuǎn)就能聽到一聲“俺老孫來也”。這聲音來自科大訊飛股份有限公司(以下簡稱“科大訊飛”)為中國館打造的精通中、日、英三種語言的“AI孫悟空”,其外形、音色均復(fù)刻了經(jīng)典動畫電影《大鬧天宮》中的孫悟空。
“AI孫悟空”背后,是近年來迅速發(fā)展的數(shù)字人技術(shù)。作為AI、元宇宙等新興產(chǎn)業(yè)的關(guān)鍵連接點(diǎn),數(shù)字人在數(shù)字經(jīng)濟(jì)發(fā)展中的角色愈發(fā)重要。隨著大模型技術(shù)在該領(lǐng)域的深入應(yīng)用,數(shù)字人正逐步從“可用”走向“好用”,推動相關(guān)產(chǎn)業(yè)進(jìn)入新的發(fā)展階段。
形成三大類應(yīng)用場景
數(shù)字人是指通過建模等多種數(shù)字智能技術(shù)創(chuàng)建的數(shù)字智能體。它擁有人類外觀形象、聲音語言,能夠模擬肢體動作,具備思維能力,并能在大模型支撐下實(shí)現(xiàn)學(xué)習(xí)、生成、互動等功能。
在技術(shù)和需求雙輪驅(qū)動下,我國數(shù)字人產(chǎn)業(yè)生態(tài)日益完善,應(yīng)用規(guī)模不斷擴(kuò)大,且產(chǎn)業(yè)鏈上下游的生產(chǎn)、運(yùn)營、服務(wù)能力逐漸提升。天眼查數(shù)據(jù)顯示,截至2024年,我國與數(shù)字人相關(guān)的企業(yè)已達(dá)114.4萬家,僅2024年前5個月就新增注冊企業(yè)17.4萬余家,顯示出數(shù)字人產(chǎn)業(yè)的市場潛力與活力。
在中國互聯(lián)網(wǎng)協(xié)會專家咨詢委員會委員武鎖寧看來,要避免數(shù)字人技術(shù)流于形式,造成資源浪費(fèi),必須要找到應(yīng)用出口,以點(diǎn)帶面推進(jìn)數(shù)字人應(yīng)用落地。
以應(yīng)用為牽引,數(shù)字人產(chǎn)業(yè)正加速構(gòu)建“技術(shù)—場景—商業(yè)”閉環(huán)生態(tài)。
中國互聯(lián)網(wǎng)協(xié)會發(fā)布的《中國數(shù)字人發(fā)展報(bào)告(2024)》(以下簡稱《報(bào)告》)分析,數(shù)字人應(yīng)用場景目前初步形成媒介數(shù)字人、服務(wù)數(shù)字人、行業(yè)數(shù)字人三大類別。其中,媒介數(shù)字人是當(dāng)下較為成熟的數(shù)字人應(yīng)用形式。圍繞媒介數(shù)字人產(chǎn)生的場景數(shù)量占比可達(dá)50%,其逼真的形象和流暢的語言表達(dá),極大提升了信息傳播的互動性與趣味性。
例如,在去年中央廣播電視總臺首次推出的“跨年科技秀”——《中國科技創(chuàng)新盛典》上,出現(xiàn)了主持人張騰岳與“AI分身”同臺主持的場景。這位基于科大訊飛旗下訊飛智作平臺打造的“AI主持人”,不僅擁有和真實(shí)主持人一樣的聲音、表情、動作,還可以神態(tài)自若地與主持人交流,準(zhǔn)確理解對方話語并迅速作出恰當(dāng)回應(yīng),交互流暢程度讓觀眾真假難辨。
《報(bào)告》顯示,除媒介數(shù)字人外,服務(wù)數(shù)字人也實(shí)現(xiàn)了全面升級,具備更強(qiáng)的交互能力,場景數(shù)量占比達(dá)30%,廣泛應(yīng)用于政務(wù)、電商、金融等領(lǐng)域;行業(yè)數(shù)字人則開始萌芽,場景數(shù)量占比達(dá)20%,逐步在醫(yī)療、教育和企業(yè)管理中發(fā)揮作用。
有望成為AI創(chuàng)新入口
數(shù)字人大致經(jīng)歷了從真人驅(qū)動到程序驅(qū)動,再到如今AI驅(qū)動的三個階段。
早期由真人驅(qū)動的數(shù)字人雖然也能呈現(xiàn)出虛擬數(shù)字形象,但主要借助計(jì)算機(jī)圖形學(xué)建模和動作捕捉等技術(shù),背后仍需真人提供大量語言、動作等數(shù)據(jù)進(jìn)行支撐。由程序驅(qū)動的數(shù)字人可以不再由真人提供語言、動作等數(shù)據(jù),但它基于固定計(jì)算機(jī)程序,更接近于“數(shù)字機(jī)器人”,無法實(shí)現(xiàn)高逼真度的擬人化效果。近年來,由AI驅(qū)動的數(shù)字人不僅在語音播報(bào)、動作表情等細(xì)節(jié)呈現(xiàn)上愈加逼真,還逐步擁有了更加強(qiáng)大的交互和思維能力。
“幾年前,數(shù)字人可能會有唇形、表情不匹配,動作僵硬等問題。這是因?yàn)閿?shù)字人本身對文本語義理解不到位,且表情和動作大多依賴有限的預(yù)設(shè)資源,無法與文本內(nèi)容進(jìn)行精準(zhǔn)匹配?!笨拼笥嶏w數(shù)字人業(yè)務(wù)負(fù)責(zé)人郜靜文說,隨著大模型技術(shù)在數(shù)字人領(lǐng)域的深入應(yīng)用,數(shù)字人產(chǎn)品性能已邁上新臺階。
例如,去年10月,科大訊飛發(fā)布超擬人數(shù)字人。它基于多模擴(kuò)散生成大模型,能根據(jù)語音的節(jié)奏、語調(diào)和內(nèi)容實(shí)時生成肢體動作,突破了動作預(yù)設(shè)模板限制,極大提升了數(shù)字人在動態(tài)場景中的表現(xiàn)力。騰訊發(fā)布的智影數(shù)字人能夠?qū)崿F(xiàn)“形象克隆”和“聲音克隆”,用戶只需上傳少量圖片、視頻和音頻素材,就能快速生成自己的數(shù)字人分身并定制音色。阿里巴巴的開源AI數(shù)字人EchoMimic,則能賦予靜態(tài)圖像生動的語音和表情。
“簡而言之,大模型技術(shù)既能讓數(shù)字人真正理解語義,也能讓它根據(jù)對文本的理解快速生成相應(yīng)的動作、表情,從而做到惟妙惟肖?!臂o文說。
中國互聯(lián)網(wǎng)協(xié)會理事長尚冰認(rèn)為,數(shù)字人正成為AI活躍的應(yīng)用落地入口,與大數(shù)據(jù)、智能終端、具身智能等產(chǎn)業(yè)的鏈接度、嵌入度、融合度較強(qiáng),或?qū)⒊蔀橄乱淮ヂ?lián)網(wǎng)活躍的交互界面之一。要關(guān)注創(chuàng)新應(yīng)用的落地實(shí)踐,積極探索數(shù)字人等新興業(yè)態(tài),加速形成規(guī)模化應(yīng)用優(yōu)勢。
武鎖寧也認(rèn)為,數(shù)字人是AI應(yīng)用突破口、AI創(chuàng)新入口。AI驅(qū)動的數(shù)字人,有望為各行各業(yè)帶來更加豐富多彩的應(yīng)用,而這些應(yīng)用恰恰可以引導(dǎo)AI走向務(wù)實(shí)發(fā)展的道路。
打造個性化“數(shù)字分身”
隨著數(shù)字人的廣泛應(yīng)用,諸多場景對數(shù)字人提出了更高要求。
“比如電商直播、客服問答等場景,對數(shù)字人的實(shí)時交互能力提出了極高要求。數(shù)字人既要能與用戶實(shí)時對話,還要根據(jù)對話內(nèi)容生成相應(yīng)的動作、表情,否則就會影響業(yè)務(wù)處理效率,直接影響用戶體驗(yàn)?!臂o文介紹,為提升數(shù)字人視頻生成模型效率,公司團(tuán)隊(duì)研發(fā)了動作表征抽取技術(shù),將語音和文本輸入轉(zhuǎn)化為緊湊的中間表征,有效壓縮了視頻維度。借助這項(xiàng)技術(shù),系統(tǒng)可以像速記員一樣,從輸入的文字、語音中快速提取出關(guān)鍵信息,減少無關(guān)信息數(shù)據(jù)量,并據(jù)此進(jìn)行視頻生成,大大提升視頻生成效率,保障數(shù)字人與用戶互動的實(shí)時性。
還要看到的是,雖然數(shù)字人產(chǎn)業(yè)發(fā)展勢頭迅猛,但當(dāng)下仍處于快速成長期。郜靜文認(rèn)為,目前數(shù)字人產(chǎn)品出現(xiàn)了同質(zhì)化現(xiàn)象,個性化、定制化將成為未來數(shù)字人產(chǎn)業(yè)的重要發(fā)展方向。隨著生成式AI技術(shù)的發(fā)展,數(shù)字人的制作門檻和成本迅速降低,制作效率和內(nèi)容多樣性顯著提升,用戶根據(jù)自身特點(diǎn)打造更具個性化的數(shù)字人產(chǎn)品已成為現(xiàn)實(shí)。現(xiàn)在,僅憑一張照片、一句話錄音等素材就能生成個性化的超擬人數(shù)字人,極大簡化了數(shù)字人定制對于預(yù)設(shè)素材的要求,優(yōu)化了用戶的操作路徑。
郜靜文也坦言,雖然大模型技術(shù)正在推動數(shù)字人“飛入尋常百姓家”,但要實(shí)現(xiàn)更精細(xì)化的效果,仍需進(jìn)行大量數(shù)據(jù)喂養(yǎng)和交互訓(xùn)練。此外,隨之而來的隱私泄露、數(shù)據(jù)安全等問題不容忽視。
“可能未來我們每個人都會有一個‘?dāng)?shù)字分身’,它可以協(xié)助我們處理工作,解答生活中的疑惑,成為我們的陪伴。”郜靜文說。