人民網
人民網>>傳媒>>人民網研究院>>研究前沿

新技術浪潮下的智能視聽步入深度變革新階段

 ——2023年人工智能賦能網絡視聽產業觀察報告 

人民網研究院
2023年10月21日12:30 | 來源:人民網研究院
小字號

2023年,生成式人工智能技術突破式發展,在全球范圍內掀起熱潮,通用大語言模型和垂直模型應用探索爆發式推進,人工智能對各行業的影響進一步加速。網絡視聽成為人工智能新技術加速應用的核心場景,圍繞影視劇、短視頻、網絡直播等視聽形態,在人工智能促進深度合成、視頻修復及智能推薦等方面,涌現出諸多創新應用案例,推動智能視聽逐漸步入深度變革新階段。

中共中央總書記、國家主席、中央軍委主席習近平近日對宣傳思想文化工作作出重要指示強調,“新時代新征程,世界百年未有之大變局加速演進,中華民族偉大復興進入關鍵時期,戰略機遇和風險挑戰並存,宣傳思想文化工作面臨新形勢新任務,必須要有新氣象新作為”。

網絡視聽作為我國文化產業的重要組成部分,在扎實推進社會主義文化強國建設中承擔著全新使命。人工智能新技術的創新應用,對推動網絡視聽產業高質量發展具有重要作用。梳理典型案例,研判未來趨勢,對智能視聽發展意義重大。

一、人工智能賦能網絡視聽創新應用案例

2023年,生成式人工智能空前火爆,極大拓展了視聽產品生產想象空間。人工智能技術的突破式發展與創新應用,給視聽行業帶來了“質量與效率”變革,推動視聽產品實現更多創意、更高效率、更新體驗與更高品質。

(一)綜合視頻:AI深度滲透產品創作,創造全新體驗

2023年,隨著AI大模型和多模態AI技術的融合發展,人工智能生成內容的創作能力、通用化能力以及工業化水平快速提升。影視創作中的AI前沿技術應用進入新階段,貫通影視內容策劃、開發、制作和宣發等各個環節。

杭州亞運會期間,央視網《大咖陪你看》節目首次探索將人工智能運用在內容採集、生產環節中。欄目組通過人工智能大模型智能分析每天最受關注的熱點話題,向亞運選手們發起提問。除此之外,為了提升觀眾和運動員的互動參與感,《大咖陪你看》還與人工智能進行了內容共創,推出了《亞運頌詩》欄目,海報素材和文案靈感均由人工智能輔助生成,在社交媒體上吸引了眾多用戶參與共創,該欄目為中國跳水夢之隊寫下了“如飛似燕輕盈躍,十米懸落水不驚”的詩句。

影視制作公司和長視頻平台方面,AI更全面滲透到內容生產、視頻運營等各個環節,更多創作者探索通過“人工+AI”方式進行影視畫面生產,尤其在一些動畫電影中AI技術應用更加廣泛。影視制作機構光線傳媒相關負責人認為,“AI對動畫電影主要環節效率的提升可能會達到50%,對整個動畫電影制作的周期效率提升30%。”

視頻平台愛奇藝在2023年第二季度財報中透露,大語言模型能力與多模態視頻理解技術等AI技術已被應用到長視頻的劇情理解、提煉等環節,實現了自動化批量產出拆條、解說、混剪等多類型視頻內容及多元化圖文內容。該技術目前對場景和人物拆解的准確率超過90%,有效提升了劇本評估、預算規劃和資源管理等方面的效率。

業內普遍認為,雖然當前AI能在極短的時間內提供一個大致接近構想的作品,但當需要進一步精細化、風格化、個性化加工時,目前的AI工具仍無法做到。同時,AI的原創性不夠,隨著“生成—篩選”這一過程被不斷重復,開始逐漸呈現出審美同質化等問題。作為創意產業,影視劇輔助生產所需要的AI工具不宜採用某種通用模型,而應走向垂直化、個性化模型。

(二)短視頻:AI創作功能快速迭代,催生“超級生產者”

相對於專業的影視制作,AI技術在短視頻方面的應用門檻相對更低。在生成式人工智能概念火爆之前,市面上已經有很多AI短視頻制作工具,幫助降低短視頻制作難度,如抖音官方視頻剪輯軟件“剪映”此前已經有AI圖片轉視頻等功能。

在關鍵詞自動提取、字幕自動生成等基本操作基礎上,文本自動配音、文本轉視頻、數字人播報、個性化文案、多元風格等升級功能在2023年加速發展。

2023年10月3日,在杭州亞運會跳水比賽收官之際,央視網體育發布了一條由AI技術智能生成的短視頻——《為智能亞運點贊 全紅嬋和陳芋汐的每次對決都注定是一場“神仙打架”》。央視網借助能實現畫面快速傳輸的“無影”雲電腦、嵌入預設模版、匹配字幕等多項AI技術進行短視頻內容的創制。該短視頻不僅通過AI實現了高效智能檢選創作素材,還可以對已有素材進行合理化剪輯和拼接,並利用大數據算法評估視頻畫面的傳播潛力,即觀眾的“愛看”程度。同時,該短視頻還運用了大語言模型和繪畫創作大模型等AI產品,涉及的主要功能包括多輪對話、文案創作、邏輯推理、多模態理解、多語言支持以及輔助圖片創作等。AI技術的應用提高了短視頻的創作與傳播效率,拉近了觀眾與賽場的距離。

《每日經濟新聞》2022年12月推出AI短視頻自動生成平台,實現了從文字創作到媒資庫智能匹配,再到短視頻自動生成,最后到多平台一鍵分發的全流程AI化。通過該平台,《每日經濟新聞》完成了所有文字稿件的全量視頻化。平台試運行期間,每經視頻號和抖音號的日均播放量環比增長143%和17%﹔日淨增粉絲數環比增長超過70%。日產視頻達到200余條,產能相比之前實現了十多倍的增長。

隨著AI技術發展,內容平台的服務能力迎來升級。以創作者的圖文轉視頻需求為例,“剪映”為此推出“圖文成片”功能,即輸入一段文字,該平台會智能匹配圖片素材,添加字幕、旁白和音樂,最終自動生成視頻。快手旗下的視頻剪輯類產品“快影”和功能拍攝類產品“一甜相機”,已於今年陸續內測包括“AI動漫視頻”、“AI文案推薦”、“AI瞬息宇宙”、“AI簡筆畫”在內的多款創作功能。騰訊旗下短視頻動畫智創產品“玩句”、B站官方剪輯軟件“必剪”等平台也提供了AI剪輯創作相關的功能。

作為創作基礎工具的AI模型與產品、平台加速發展,初步獲得可觀的商業流量。據相關負責人2023年4月透露, “快影”的“一鍵成片”AI功能日均消費量超4.5億,文案成片日均作品消費量超4000萬。分析認為,AI未來將賦能個體,打造諸多短視頻的“超級生產者”,從而為內容迭代和行業發展帶來更多可能性。

(三)網絡直播:數字人涌入直播間,豐富消費場景

2023年,人工智能技術進一步應用到電商直播、音樂會直播、體育直播等多種場景中,催生直播行業創新玩法,網絡直播的消費場景和商業模式迎來新突破。

大批數字人虛擬主播涌入直播間帶貨,成為當前網絡直播行業的火熱景象。在直播電商流量和人力成本高漲的情況下,數字人直播成為不少平台和企業探索的方向。

2023年618電商促銷節期間,京東推出虛擬主播產品。據京東戰報顯示,“開門紅”開啟10分鐘,數字人直播間開播商家數較去年雙11的增幅接近400%。雅詩蘭黛、歐萊雅、寶潔等知名品牌均嘗試接入虛擬主播服務於電商直播。

直播尤其是直播帶貨過程中引進虛擬主播優勢明顯。AI數字人主播具備專業過硬、情緒穩定、永不疲勞的特點,可以幫助企業大大降低人工成本和運營費用。不過,數字人直播目前處在發展應用的初期,受多方面因素制約,直播效果仍有待提升優化。數字人在一些平台的使用規則尚處於探索中,相關法律法規及細則也有待進一步明確和完善。

體育賽事直播方面,今年杭州亞運會期間,依托中國移動能力中台的智能字幕能力,咪咕智能字幕升級為低時延雙行滾動字幕,並在原普通話解說字幕的基礎上,首次推出了中國七大方言中的閩南語、粵語直播智能字幕,字幕中文准確率達92%,為提升用戶觀賽體驗賦能。據了解,為實現更加精准的字幕轉寫服務,咪咕針對方言轉寫准確率普遍偏低、運動員姓名及運動專業術語易錯等難題,運用了方言聲學模型優化技術,並進行垂類翻譯干預訓練,讓粵語、閩南語等不同解說語言的智能字幕均能准確呈現。

演唱會音樂會直播方面,利用視頻修復等人工智能技術,不少年代久遠的演唱會直播視頻重新推出,引發了網民情感共振。此外,基於直播與元宇宙概念的結合,多家直播平台搭建沉浸式場景,探索更具顛覆性的社交方式和多元化的興趣營銷場景。

(四)網絡音頻:AI席卷“耳朵經濟”,大模型重塑音頻行業

2023年,部分垂直類音頻平台通過引入AI大模型,促進了AI領域前沿技術在音頻產業落地應用。

相比於圖像和視頻,AI技術進入音頻行業的步伐雖相對較晚,但目前在語音識別、語音合成、語音互動、語音信號處理等領域中的應用已較為成熟。內容創作方面,AI提高音頻內容生產效率,解放創作者的內容生產力,促進音頻及播客創作生態的繁榮。語音交互方面,AI提高音頻產品科技水平,提升消費者體驗,滿足用戶多樣化需求。

截至2023年初,喜馬拉雅平台已通過AI技術創作有聲書專輯超37000部,其中“單田芳聲音重現”系列專輯總播放量超1億次。2023年7月,喜馬拉雅推出AI智能創作工具“雲剪輯”,集合智能音量、智能配樂、音轉文剪輯、AI分段、智能檢測、一鍵成片等功能,目的是降低音頻播客內容創作的門檻,提升創作效率。據介紹,喜馬拉雅“雲剪輯”的“音頻轉文字剪輯”功能,是利用AI技術把音頻內容轉成文字,創作者可以直接通過“看”對照文字,像編輯word文檔一樣剪輯音頻,從而提高后期剪輯效率。“智能檢測”功能則可以幫助創作者一鍵識別氣口、口水音等,並將不需要的口癖等進行刪除,不必再逐字逐句地剪輯。此外,“智能配樂、智能音量”功能,方便創作者通過AI為播客內容選擇具備版權的並與內容匹配的音樂,對音頻音量也能做到一鍵調節音量均衡、淡入淡出,提升創作效率。

在音樂領域,隨著AI技術的成熟,AI變音、調音技術等得到應用推廣,通過收集大量語音素材進行模型訓練和后期處理,AI可以生成模仿不同音色翻唱的歌曲,B站、QQ音樂、網易雲音樂等平台上逐漸涌現了一批使用AI技術模擬當紅歌手翻唱歌曲的作品。如今年5月“AI孫燕姿”翻唱的作品憑借極具辨識度的音色以及對各種曲風的駕馭能力火爆全網。由此引發的版權問題引發討論,一些機構積極探索版權問題解決方案。

分析認為,雖然利用AI技術生成音頻可大幅減少時間和成本,提高生產效率和水平,但是AI在音頻內容生產方面也存在一些局限性。AI無法模仿出真人特有的語調和情感,因技術因素限制在生成音視頻時可能存在一些不真實的細節和瑕疵,需要不斷改進和優化。

除了內容的生產創作,大模型還廣泛應用於語音交互服務領域。國內音頻企業荔枝主要將AI技術應用於機器人語音聊天方面,開發並上線AI聊天機器人應用產品,為用戶提供在線AI對話等功能。2023年2月下旬,荔枝在其全球化聲音社交產品內接入了AI大模型,推出人工智能聊天機器人模塊,並在3月底推出了全新升級版的聊天機器人。該聊天機器人不僅能幫助用戶創建在線理想好友,還能為用戶提供更加個性化的AI聊天體驗和廣泛的互動場景,推動AI機器人與原有社交生態的有效融合,從而為用戶提供更多情緒傾訴和情感陪伴價值。

分析認為,AI音頻行業將快速實現商業化落地,並觸發各細分應用場景全面變革。圍繞音頻生成、語音交互、識別翻譯、個性化推薦等領域,其應用產品將覆蓋在線辦公、移動社交、廣告營銷、學校教育、體育比賽、居家養老等多元場景。

二、相關法規政策與行業規范

隨著人工智能技術的進一步成熟和應用場景的擴展,人工智能創新應用給行業和全社會帶來的治理挑戰不容忽視。國家相關部門密集出台相關政策法規,推動人工智能技術合理有效利用,及時劃定“底線”和“紅線”。相關行業規范及平台自治規定陸續發布。

(一)人工智能相關法律法規與政策規定

2022年12月,國家互聯網信息辦公室、工業和信息化部、公安部聯合發布《互聯網信息服務深度合成管理規定》,該規定在《網絡安全法》《個人信息保護法》等法律法規框架下,對使用深度合成技術提供互聯網信息服務的情形提出了專門性、具體性要求。其中提到:深度合成服務提供者對使用其服務生成或編輯的信息內容,應當添加不影響使用的標識。提供智能對話、合成人聲、人臉生成、沉浸式擬真場景等生成或者顯著改變信息內容功能的服務的,應當進行顯著標識,避免公眾混淆或者誤認。規定還要求,深度合成服務提供者建立健全管理制度和技術保障措施,制定公開管理規則、平台公約,對使用者進行真實身份信息認証,加強深度合成內容管理,建立健全辟謠機制和申訴、投訴、舉報機制。

2023年4月,由廣播電視人工智能應用國家廣播電視總局重點實驗室組織編制的《廣播電視和網絡視聽深度偽造防范技術要求(2022版)》對外公示。該文件重點在深度偽造鑒別、面部識別、黑名單、深度偽造防范能力評估等方面提出要求,為廣播電視和網絡視聽機構在內容審核、發布等環節提升深度偽造防范能力提供參考。

2023年7月,國家網信辦聯合國家發展改革委、教育部、科技部、工業和信息化部、公安部、國家廣電總局公布《生成式人工智能服務管理暫行辦法》(以下稱《辦法》),自2023年8月15日起施行。這是中國首次對生成式AI研發及服務作出明確規定。《辦法》提出國家堅持發展和安全並重、促進創新和依法治理相結合的原則,採取有效措施鼓勵生成式人工智能創新發展,對生成式人工智能服務實行包容審慎和分類分級監管,明確了提供和使用生成式人工智能服務的總體要求。

2023年9月,科技部、教育部、工信部等十個部門聯合發布《科技倫理審查辦法(試行)》,對科技倫理審查主體、審查程序、監督管理等內容作出明確規定。其中規定,從事生命科學、醫學、人工智能等科技活動的單位,研究內容涉及科技倫理敏感領域的,應設立科技倫理(審查)委員會。

(二)相關標准規范與平台自治規定

2023年4月,中國移動通信聯合會元宇宙產業工作委員會、中國通信工業協會區塊鏈專業委員會等共同發布“關於元宇宙生成式人工智能(類ChatGPT)應用的行業提示”。該提示提出,要嚴格遵守國家及行業相關法律法規要求,增強合規謹慎經營的理念,全面提高風險管控水平﹔提供生成式人工智能服務應當真實准確客觀多樣,應採取相應措施防止生成虛假信息,不得上傳或留存含有侵犯知識產權的內容,防止對生成式人工智能應用進行濫用,避免擾亂健康市場秩序等等。

2023年10月,全國信息安全標准化技術委員會官網發布《生成式人工智能服務安全基本要求》(征求意見稿),面向社會公開征求意見。這是國內首個專門面向生成式AI安全領域的規范意見稿,也是對今年7月推出的《生成式人工智能服務管理暫行辦法》的支撐。該意見稿給出了生成式人工智能服務在安全方面的基本要求,包括語料安全、模型安全、安全措施、安全評估等,適用於面向我國境內公眾提供生成式人工智能服務的提供者提高服務安全水平,或是提供者自行或委托第三方開展安全評估,也可為相關主管部門評判生成式人工智能服務的安全水平提供參考。

2023年5月,抖音發布《抖音關於人工智能生成內容的平台規范暨行業倡議》,針對人工智能生成的視頻、圖片和衍生的虛擬人直播,首次明確其在平台內的行為規范。其中提到,創作者、主播、用戶、商家、廣告主等平台生態參與者,在抖音應用生成式人工智能技術時,發布者應對人工智能生成內容進行顯著標識,幫助其他用戶區分虛擬與現實,特別是易混淆場景。此外,發布者需對人工智能生成內容產生的相應后果負責,無論內容是如何生成的﹔虛擬人需在平台進行注冊,虛擬人技術使用者需實名認証。抖音還禁止用戶利用生成式人工智能技術創作、發布侵權內容,包括但不限於肖像權、知識產權等。一經發現,平台將嚴格處罰。

三、未來發展趨勢與建議

面對新形勢新任務新使命,視聽行業必須在人工智能等科技浪潮下抓住機遇,積極拓展創新應用,推動行業高質量發展。

(一)網絡視聽成為AI大模型垂直應用探索落地核心場景

當前,在通用大模型研發競爭加速的基礎上,AI技術發展的重點未來將轉向實用性和可持續性方向,關注如何將大模型與實際應用場景相結合,實現真正的商業化應用。垂直領域應用將是大模型的主戰場,相關技術的飛速發展已在金融、零售、制造、物流等多個領域催生出商業價值,並將更廣泛地賦能各行各業。

其中,網絡視聽始終是信息網絡新技術創新應用的前沿領域,未來也將進一步成為大模型垂直應用探索落地的核心場景,推動網絡視聽生產方式變革,並融合VR等新技術發展,催生新業態新模式,最終重塑視聽傳播生態格局。

對於視聽行業相關企業和平台來說,應積極加快產業布局,與人工智能企業開展深度合作,加快研發基於人工智能的視聽新應用。針對技術發展的難點焦點問題,圍繞相關產業發展與治理需求,主管部門應積極推動產學研用協同,推動行業在算力、算法、技術落地等方面的聯合攻關,突破發展瓶頸。

(二)生成式人工智能迭代升級,打造視聽行業深度變革新起點

目前,人工智能生成內容對於視聽行業的影響直觀體現在降低行業門檻、降低制作成本和提升生產力方面。同時,生成式人工智能技術的局限性仍比較突出,其算法和技術仍處於不斷發展和完善的過程中,可靠性和普適性仍有待進一步提高。

另一方面,不能因當前的應用局限而忽視生成式人工智能對行業的深度變革影響。目前生成式人工智能的底層技術和產業生態已形成了新格局,未來在更多行業的海量應用場景有望打開。隨著數據規模快速膨脹、算力性能不斷提升以及人工智能算法不斷發展,未來生成式人工智能能夠替代內容創作者完成更多內容挖掘、素材查詢調用等基礎性勞動,創新內容生產范式,為更具藝術性和創造性的內容創作提供可能。

在此背景下,“平均水平的基礎勞動”加速被取代,未來視聽創作焦點更多轉向高質量創意、藝術審美與內容共情,推動更高水平競爭。技術應用與生產范式的突破性創新,也將成為整個視聽產業新變局的起點,推動視聽形態、場景、體驗、產業布局的多維變革,並對文化發展、社會交往等方面產生深遠影響。這一過程中,除了提升對新技術應用的敏感性,還需提升對技術深刻、深遠影響的認知水平,更好理解視聽產業在新時期的角色使命。

(三)新技術交叉融合發展,助力“視聽+”產業新生態

當前,人工智能新技術的發展演進不是單一升級,而是與5G、VR等新技術發展相互融合、多點突破,以技術的融合發展應用提升創新密度、解決復雜問題、豐富產品體驗。正如人工智能的突破式發展,對元宇宙的真正“脫虛向實”將發揮關鍵作用,最終推動實現視聽形態的升維創新重構。

另一方面,在“萬物皆媒”的時代,視聽作為一種低門檻、生活化的溝通方式,具備巨大的信息交流“基礎設施”優勢,使得網絡視聽行業不斷與教育、健康、旅游、制造等各行業交叉融合發展,推動形成“大視聽”的產業發展新生態。

隨著技術融合與產業融合相互促進,跨模態、多元化、邊界消融將成為重要特征。這一過程中,以系統思維布局新技術發展,打破阻礙競爭的壁壘至關重要。

(四)治理協調性有效性加強,AI治理框架逐步完善

在人工智能快速發展過程中,如何做好AI技術應用與治理的平衡,建立合理審慎的AI倫理和治理框架,塑造負責任的AI生態,越來越受到社會各界的重視。

在當前政策措施基礎上,下一階段圍繞人工智能技術應用的敏捷治理、分類分級管理將進一步加強,人工智能治理體系逐步完善。在智能視聽方面,尤其需要統籌推進“技術”監管與“內容”治理,實現發展與規范的動態平衡。近年來,我國頒布《網絡信息內容生態治理規定》《網絡數據安全管理條例(征求意見稿)》《互聯網信息服務算法推薦管理規定》和《互聯網信息服務深度合成管理規定》《生成式人工智能服務管理暫行辦法》等規定,從宏觀上劃定了人工智能技術發展的紅線,但就細節而言,涉及應用安全、知識產權保護等探索尚處於起步階段,仍需根據現實發展不斷細化和完善。

行業共治在人工智能治理框架中的作用尤為重要。仍需倡導相關行業聯盟、龍頭企業、研究機構以及標准組織等發揮資源整合優勢,圍繞人工智能的合法合規應用和健康有序發展聯合制定行業制度規范,共同打造人工智能良性發展生態。

2023年,面對人工智能新浪潮帶來的巨大沖擊,不少聲音也提醒,技術催動的深遠生態性變革尚需時日,產業仍需在喧囂中沉澱發展、平穩落地,一方面防止“高估一項技術在短期內的影響”,另一方面防止“低估其在長期內的影響”,人工智能賦能視聽行業的創新探索仍任重道遠。

(本報告由人民網研究院出品。 報告執筆人:人民網研究院研究員劉珊)

(責編:劉珊、劉志華)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部