By accepting you will be accessing a service provided by a third-party external to https://www.incgmedia.com/

NVIDIA Maxine SDK 視訊會議新革命,運用 AI 技術將最完美的姿態呈現於與會者面前

在疫情蔓延的現在,人們工作往往會使用到視訊會議的功能。本次 NVIDIA 推出嶄新的視訊會議新技術 NVIDIA Maxine SDK,將讓常見的視訊窘境成為過去式,讓我們來探索一下這個新技術吧。


NVIDIA Maxine SDK將改變人們對視訊會議的想像

在 NVIDIA (輝達) 研究人員開發的人工智慧 ( AI ) 協助下,從起床到打開筆電和網路攝影機,讓我們能在每次進行視訊通話時,呈現最完美的一面。

NVIDIA 針對視訊會議推出的 NVIDIA Maxine SDK,背後運用眾多深度學習模型,其中包含 Vid2Vid Cameo,該模型使用生成對抗網路 ( GAN ),只要使用單一人像平面照片,就能在視訊通話中合成出說話者栩栩如生的立體頭像。

參與者只需要在加入視訊通話前先上傳一張參考圖片,不論是自己的真實照片或卡通圖片,皆能使用這項功能。開會時,AI 模型會捕捉每個人的即時動作,接著將這些動作套用在先前上傳的靜態圖片上。

這意味著只要與會者先上傳好穿著正式服裝的照片,就算剛起床且頂著一頭亂髮、身上還穿著睡衣,直接進行會議也完全沒問題,因為 AI 會將與會者的臉部動作套用在靜態的參考照片上,讓我們能在會議平台中展現正式的穿著打扮。要是與會者將身體轉向左邊,這項技術可以調整視角,讓畫面看起來像是正對著網路攝影機。

除了讓與會者看起來裝扮得宜之外,這項 AI 技術還能將視訊會議所需的頻寬減少十倍,以避免出現畫面不穩和延遲的情況。該技術很快就會在 NVIDIA Video Codec SDK 中,作為 AI Face Codec 供大家使用。

這項專案的共同作者,也是 NVIDIA 的研究人員劉洺堉( Ming-Yu Liu )表示:「許多人使用的網路頻寬有限,但還是想要與親友們流暢地在網路上聊天,而這項技術除了能協助他們之外,還能協助動畫師、照片編輯和遊戲開發者完成手上的工作。」

NVIDIA 本週將於著名的 Conference on Computer Vision and Pattern Recognition (CVPR) 大會上發表 Vid2Vid Cameo,這是 NVIDIA 在這場線上大會中發表的 28 篇論文之一。Vid2Vid Cameo也可以在 AI Playground 上找到,任何人都可以在那裡親身體驗我們的研究展示。


AI 全面提升視訊效果

為了向經典的竊盜類電影還有 Netflix 的熱門節目致敬,NVIDIA 的研究人員在某次的視訊會議中,讓他們的對話頭像 GAN 模型大顯身手在演示的過程中強調 Vid2Vid Cameo 的重點功能,包括臉部重新定向、動畫化身和資料壓縮。

透過以下影片更加暸解Vid2Vid 及Vid2Vid Cameo:
這些功能很快就會出現在 NVIDIA Maxine SDK 內,為開發人員提供經最佳化調整的預先訓練模型,以用於視訊會議及直播串流中的視訊、音訊及擴增實境效果。
開發人員已經可以使用 Maxine AI 的功能,包括智慧降噪、視訊畫質提升與人體姿勢預測。供免費下載的 SDK 還能搭配 NVIDIA Jarvis 平台使用,以用於包括轉錄和翻譯在內的對話式 AI 應用項目。

只需要兩個元素,便能讓視訊會議暢行無阻

Vid2Vid Cameo 只需要兩個元素,便能建立出用於視訊會議的寫實 AI 對話頭像,包含一張使用者的臉部照片以及一個視訊串流內容,這兩項將決定這個影像要如何進行動作。
該模型在 NVIDIA DGX 系統上使用 18 萬個高品質對話頭像的資料集來進行訓練。該網路學習辨識二十個要點,以便在沒有人類加以標註的情況下,針對臉部動作建立模型。要點中包括針對眼睛、嘴巴和鼻子在內的特徵位置進行編碼。
接著,模型會從通話者的參考圖片中擷取這些要點的資訊,通話者可以事先將自己的圖片傳送給其他參與視訊會議的人,或從過往的會議中擷取並重複使用。如此一來,視訊會議平台只需傳送說話者臉部特徵的動作資料,而不用在每一個與會者之間傳送龐大的即時視訊內容。
對接收者來說,GAN 模型在接收端使用這些資訊來合成一個模仿參考圖片外觀的視訊畫面。
這項技術只需要壓縮和來回傳送頭部位置及要點資訊,不須傳送完整的視訊內容,便能將視訊會議的頻寬需求減少十倍,讓用戶擁有更流暢的通話體驗。因此,可以在不影響視覺品質的情況下,配合各種頻寬環境來調整模型,以傳輸不同數量的要點資訊。
使用者也能自由調整產生出的頭像視角,從側面或正面顯示、調低或調高攝影機的角度。照片編輯人員同樣能將這項功能應用在平面照片上。
NVIDIA 的研究人員發現,Vid2Vid Cameo 可以產生更為真實清晰的結果,不管參考圖片和視訊內容是否出自同一個人,或是 AI 把一個人的動作轉移到另一個人的參考圖片上,它的表現都比最先進的模型更為出色。
後面這項功能可以把說話者的臉部動作,用在視訊會議裡的數位化身上,並讓它們動起來,甚至是讓遊戲或卡通人物呈現出更有真實感的表情和動作。
Vid2Vid Cameo 模型論文的作者為 NVIDIA 研究人員 Arun Mallya和兩位來自台灣的 Ting-Chun Wang、和 Ming-Yu LiuNVIDIA Research 團隊由全球兩百多名科學家組成,專注於 AI、電腦視覺、自動駕駛車、機器人和繪圖等領域。
在此特別感謝於 Netflix 播出的《紙房子》影集中,替教授進行英語配音的演員 Edan Moses,感謝他為上述我們最新的 AI 研究成果影片所做出的貢獻。

全新 NVIDIA Canvas 應用程式測試版

NVIDIA 今天推出 NVIDIA Canvas 應用程式測試版,創作者使用素材而非顏色進行作畫,透過 RTX 加速的人工智慧 ( AI ) 將筆觸變成逼真的影像。藝術家在這個應用程式裡還能套用風格濾鏡,將創作中的影像變成特定畫家的風格。RTX 用戶可以下載和試用 Canvas 應用程式測試版,同時歡迎在 NVIDIA 論壇上與我們分享心得。


本文經 NVIDIA 授權發布,內容僅有做字詞修改,保留作者所述內容,但不代表映CG 立場。如需轉載請聯絡原作者。 

跟著《多雲時情》動畫導演,前進安錫國際動畫影展
全世界的動畫作品一次看!七大線上放映管道

相關文章

本期雜誌聚焦在「從動態設計到典禮執行統籌,揭開金曲35幕後製作」,深入剖析這場國內最重要的音樂盛事的幕後故事。另外,我們也邀請了三組在不同領域中發光發熱的動態設計團隊,分享他們的專案故事。
還沒有帳號嗎? 點此立即註冊!

登入您的帳號