Google 發表影像 AI 技術「Veo」，詠唱文字即生成高品質影片，整合 YouTube Shorts 平台提供一條龍服務！

2024年五15日, 星期三

Google 年度開發者大會 I/O 於 5/14 晚間登場 (美國時間)，發表了多項 AI 新工具，其中推出影像 AI 技術「Veo」是要跟 OpanAI 的 Sora 打對台，看誰能在影音生成領域稱霸，然而 Sora 已搶下眾人目光，Google 該如何擄獲使用者的心，官方計出與《蜘蛛人：返校日》演員 Donald Glover 合作影片 Demo，試圖在宣告公司的財力與公關宣傳力。就跟著映CG編輯一起來看影像 AI 技術「Veo」有什麼特點？

結合旗下 YouTube Shorts 等影音平台，「Veo」將成為網路影音工具霸主？

「Veo」能透過文字與參考圖像輸入生成超過一分鐘的 1080p 高畫質影音，並生成各種電影視覺風格與鏡頭移動。官方表示，「Veo」對視覺語言有著深層的了解，可以精準捕捉文字中的細微差別，在影像呈現錯綜複雜的細節。使用者也可同時上傳影片與輸入文字，將文字生成影像加入原有的影片，創造新的影片。另外，它還支援遮罩編輯，使用者可以在影片和文字中添加遮罩，即可改變影片的特定區域。

對編輯來說最棒的一點是，過往影像 AI 技術因為生成不一致常有幀與幀之間意外閃爍、跳躍或變形問題，使視覺不連貫，破壞觀影體驗。但「Veo」的尖端潛在擴散變壓器將會減少這些問題的發生，使角色、物件、場景與風格都保持原位，宛如拍攝真實世界一般。

官方也提到「Veo」會先在 VideoFX 工具中向部分創作者開放，之後會整合到 YouTube Shorts 和其他產品中，這點可說是 Google 最大的武器，假設「Veo」成為 YouTube Shorts 的內建功能，將能廣納更多創作者使用。

該影片的文字提示：

在熙熙攘攘的反烏托邦蔓延中快速拍攝，明亮的霓虹燈招牌、飛行的汽車和薄霧、夜晚、鏡頭光暈、體積照明。

一個快速追蹤鏡頭，穿過一個未來主義的反烏托邦蔓延，有明亮的霓虹燈標誌、天空中的星際飛船、夜晚、體積照明。

以最高速度行駛的汽車的霓虹燈全息圖，光速，電影，令人難以置信的細節，體積照明。

汽車離開隧道，回到現實世界的城市香港。

AI、現實傻傻分不清楚，新增浮水印辨識創作本質

「Veo」的訓練是多年影像生成工作的結合，包括生成查詢網路（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere，以及 Google 的 Transformer 架構和 Gemini。為了讓「Veo」更準確理解文字，官方為每個餵食的影片增加更多細節描述。也使用高品質的壓縮影片，提升模型性能，增加整體生成的品質，並減少生成影片的等待時間。