谷歌大幅更新生成式AI,推出視頻模型VEO 2和最新版Imagen3
作者:趙雨荷
來源:硬AI
谷歌的旗艦AI研究實(shí)驗(yàn)室Google DeepMind周一大幅升級(jí)其人工智能驅(qū)動(dòng)的內(nèi)容生成工具,推出了Veo 2視頻生成模型和增強(qiáng)版Imagen 3圖像模型,挑戰(zhàn)OpenAI在AI圖像和視頻生成的領(lǐng)先地位。谷歌表示,這些更新有望徹底改變創(chuàng)意工作流程,為視頻和圖像創(chuàng)作者提供更高的真實(shí)感和定制化體驗(yàn)。
谷歌介紹,Veo 2是谷歌的視頻生成工具,能夠生成多樣化主題和風(fēng)格的高質(zhì)量視頻。谷歌在博客中表示,這款模型在真實(shí)感方面表現(xiàn)卓越,能夠捕捉到人類表情和電影效果等細(xì)節(jié)。其增強(qiáng)的物理和電影學(xué)理解能力使用戶能夠生成令人驚嘆的內(nèi)容,包括跟蹤鏡頭和廣角構(gòu)圖等。
例如,Veo 2熟悉電影拍攝語言,用戶可以要求某種類型的風(fēng)格,指定鏡頭,建議電影效果,Veo 2都會(huì)以高達(dá)4K分辨率并延長(zhǎng)到數(shù)分鐘的視頻長(zhǎng)度來呈現(xiàn)。比如,要求“低角度跟蹤鏡頭穿越場(chǎng)景中央”或“特寫科學(xué)家通過顯微鏡觀察”的鏡頭,Veo 2都能實(shí)現(xiàn)。提示“18mm鏡頭”,Veo 2知道生成廣角鏡頭;要求“淺景深”,它會(huì)模糊背景,突出主體。
值得注意的是,這一分辨率是OpenAI Sora模型的4倍,視頻時(shí)長(zhǎng)更是其6倍以上。
不過,目前這些優(yōu)勢(shì)仍是理論上的。在谷歌的實(shí)驗(yàn)性視頻創(chuàng)作工具VideoFX中,Veo 2生成的視頻被限制為720p分辨率、8秒的長(zhǎng)度。(相比之下,Sora的最大輸出為1080p、20秒的短片。)
谷歌表示,雖然視頻生成模型往往會(huì)“幻象化”出不需要的細(xì)節(jié),例如多余的手指或意外的物體,但Veo 2在這一方面的表現(xiàn)更為真實(shí),生成錯(cuò)誤的頻率較低。
此外,Veo 2生成的視頻包括不可見的SynthID水印,用于標(biāo)記它們?yōu)锳I生成的內(nèi)容,從而減少誤用或錯(cuò)誤歸屬的風(fēng)險(xiǎn)。
DeepMind產(chǎn)品副總裁Eli Collins對(duì)媒體表示,隨著模型逐漸具備規(guī)?;褂玫臏?zhǔn)備,谷歌將通過其Vertex AI開發(fā)者平臺(tái)提供Veo 2。
開發(fā)者和創(chuàng)作者目前可以通過谷歌實(shí)驗(yàn)室(Google Labs)訪問該工具,預(yù)計(jì)到2025年,它將廣泛集成至諸如YouTube Shorts等平臺(tái)。
同時(shí),Imagen 3模型在圖像構(gòu)圖和細(xì)節(jié)準(zhǔn)確性方面得到了增強(qiáng),支持從寫實(shí)到抽象的各種風(fēng)格,能夠生成更豐富的紋理,并更加忠實(shí)地回應(yīng)用戶提示。
目前,Imagen 3已經(jīng)通過谷歌實(shí)驗(yàn)室的ImageFX工具在100多個(gè)國家上線,全球用戶可以試驗(yàn)其尖端功能。
此外,谷歌還推出了Whisk,這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。用戶可以輸入圖像,生成詳細(xì)的文字描述、重新混合風(fēng)格,或設(shè)計(jì)個(gè)性化作品,如數(shù)字玩偶或搪瓷徽章。
谷歌介紹,Whisk結(jié)合了Imagen 3模型和Gemini的視覺理解與描述能力。Gemini模型會(huì)自動(dòng)為用戶的圖像生成詳細(xì)的文字描述,并將這些描述傳遞給Imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場(chǎng)景和風(fēng)格。
本文來自微信公眾號(hào)“硬AI”,關(guān)注更多AI前沿資訊請(qǐng)移步這里
轉(zhuǎn)載原創(chuàng)文章請(qǐng)注明,轉(zhuǎn)載自資陽天行健機(jī)車配件有限公司,原文地址:http://dreamscapesoftheperverse.com/post/12804.html