(資料圖片)
開年以來,大模型吞噬應用的敘事持續引發市場擔憂,并波及Adobe、Figma和美圖旗下的一系列影像產品。近日,投資機構a16z團隊在最新報告分析中反駁了這一觀點,認為在AI生成圖像、視頻、音頻等媒體內容領域,并不存在“統治一切”的模型。“利用多模型能力并編排成工作流”的能力將是未來競爭的關鍵點。
不同于“大模型吞噬應用”的論調,a16z分析認為,AI生成確實能將原本需要攝影團隊數周拍攝和漫長剪輯周期的流程,轉化為幾條提示詞和一個可直接投入生產的資產庫,但在AI圖像、AI視頻等領域并沒有出現類似大語言模型(LLM)領域的壟斷現象,使用者往往會同時使用十幾個模型,而且在生成一個優質成品素材的過程中,很難通過一次推理調用即獲得成功。
a16z解釋說,這是因為該領域的每個模型都有強項和弱項,某個模型可能擅長寫實圖像,或動漫風格方面表現卓越,或具備強大的物理模擬能力,但這不意味著用戶會用它來同時完成背景移除、聲音生成或多鏡頭敘事場景等任務。在實踐中,開發者會將多個模型串聯:生成圖像,再移除背景、放大分辨率、重新著色、保持風格一致......才能達到品牌級的一致性和質量,而這不是一次提示詞就能做到的,也就是說,真正的工作單元不是“單個模型”完成的,而是通過“一個工作流”完成的。
a16z表示,基于上述多樣化的需求,用戶需要的是一種工作流平臺或軟件,這類平臺不僅要能快速調用各類模型、高效處理用戶請求,還要編排成多步驟的流水線且高效執行,并隨著技術進化不斷更迭新模型。
在a16z看來,隨著大模型廠商的模型能力更為驚艷,能接入多種模型并編排成完整工作流的公司也將進一步提升自己核心競爭力,而且它們還能幫助模型廠商從原型深入生產一線。











