你而家打開 YouTube/IG/TikTok,周圍都係「AI 生成影片」。但真正做內容、做廣告、做 agency、做電商交貨嘅人都知道——
AI Video 最難唔係生成第一條,最難係:可重複、可控、交到貨,仲要可以 scale。
所以今次我唔講感覺,直接用同一套評分框架 + 同一套 prompt / reference,做一個 scoreboard 實測,幫你慳返至少一個星期「逐個工具試到崩潰」嘅時間。
我用咩框架去評分?
我把「好唔好用」拆成四格:
成片質量(35%):自然度、穩定度、一致性、片感
可控性(35%):鎖唔鎖到產品/字體/造型/reference identity
自動化(15%):有冇官方 API、可唔可以 HTTP/polling、接唔接到 n8n
性價比(15%):同一筆錢可穩定產出幾多條「可用影片」
今日 7 位參賽者
Sora 2
Kling(2.6 + O1 Video)
Veo 3.1
Wan 2.6
Seedance(1.5 Pro / Pro)
Grok Imagine
PixVerse v5.5
Part 1|七個工具定位+你要記住嘅「USP」
1) Sora 2:高質感電影派(但人臉政策更嚴)
你要記住 3 個功能:
Style:唔使 prompt 寫到好長,直接揀 preset 定調(風格一致更易)
Storyboards:用分鏡方式排鏡頭,唔係一次過「賭生成」
Characters:建立可重用角色,而且 permissioned(可授權/可撤回/可追蹤使用)
限制你一定要知:
只支援上傳 1 張 reference image
對真人臉(likeness / 真實人物相)使用更嚴格:唔好諗住拎真人自拍當 reference 直出品牌片
香港目前不可直接使用(需要 VPN)
冇 Start / End frames 功能
Free 會有水印
規格摘要:
Orientation:16:9、9:16(橫/直都得)
常見片長:10s / 15s(部分平台如 Higgsfield:4s / 8s / 12s)
Free:有水印
價格
Free(邀請制):美加 iOS app,算力視情況,有水印
ChatGPT Plus(US$20/月):約 1000 credits(偏短片、720p、約 5 秒)
ChatGPT Pro(US$200/月):Sora 2 Pro、更長(到 25 秒)、1080p、同步音訊、無水印、更多 credits
API(按秒)
Sora-2 720p:$0.10/秒
Sora-2 Pro 720p:$0.30/秒
Sora-2 Pro 1080p:$0.50/秒

2) Kling:控制力派(尤其廣告「鎖人鎖物」)
Kling 家族重點係 可控與交付一致性,你最常碰到兩條線:
Kling 2.6:一次過出聲畫(支援 audio、甚至 lipsync)
Text-to-Video / Image-to-Video
常見 5s / 10s、輸出可選 1–4 條
免費有水印
Kling O1 Video:生成+編輯一體(多 reference 鎖定王者)
可以用自然語言做 edit / extend / restyle
最多可上傳 7 張 reference images
片長更細粒度(3–10s)、比例 9:16 / 1:1 / 16:9
對「交付型一致性」非常對口(廣告最常見嗰種)
價格(credit 訂閱制)
Free:每日少量 credits、720p、有水印
Standard:約 $6.99/月(1080p)
Pro:$25.99/月(可到 4K、更多 credits)
Premier / Ultra:更高產量
Kling 定價會跟 plan / 平台彈性大,落單前以自己帳戶顯示為準。

3) Veo 3.1:Google 生態+原生音訊+分鏡節奏控制好用
USP:原生 audio + timestamp prompting(分段寫鏡頭)
平台模式常見:
Start & End Frame(轉場更穩)
Multi-Image Reference(最多 3 張)
Text-to-video
注意:Gemini 免費試玩通常有每日配額上限(而且會變),做 production planning 千祈唔好當「無限」。
價格
API(按秒,含音訊版本):
Standard with audio:$0.40/秒
Fast with audio:$0.15/秒
常見輸出:8 秒(720p / 1080p)含原生音訊

4) Wan 2.6:交付型敘事(multi-shot 骨架)
主打 multi-shot:一次過生一段可剪嘅短敘事骨架
支援 Start / End frames
比例齊(16:9、9:16、1:1、4:3、3:4)
片長:5 / 10 / 15s
只支援上傳 1 張 reference image
免費有水印
有 credits 可加速(高峰期減少排隊)
價格
Free / Pro / Premium(credit 訂閱)
常見「每秒」標價:720p 約 $0.10/秒、1080p 約 $0.15/秒(提醒:要以平台 pricing tab 核對)

5) Seedance:成本可控+指令跟隨(大量草稿層很香)
USP:成本易估算、支援多比例、鏡頭策略(例如 Fixed lens:鎖鏡頭唔亂飄)
1.5 Pro 支援 start/end frames(常見 4s/8s/12s)
做「單 reference Image-to-Video鎖產品」時,指定要用 Seedance Pro(因為 1.5 Pro 偏向 start/end frames 工作流)
免費有水印
價格
BytePlus 官方例子:5 秒 720p 約 $0.988,並有 2M tokens free trial
其他平台(Kie / Replicate / fal 等)亦有更低價版本(視平台而定)

6) Grok Imagine:快、體驗導向(但 API 風險最大)
真正玩法:多數係 先 Text-to-Image,再用圖片 animate 成短片+聲效
無水印、速度快
只支援上傳 1 張 reference image
自動化風險:
xAI 官方未見穩定「Grok Imagine Video API」對外端點
市面多數係第三方包裝 → 穩定性、條款、私隱要自己核對
價格
Grok.com:目前個人可免費(但限額會變)
X Premium / SuperGrok:提高配額與優先權
第三方 API:可能 $0.05–$0.10 / clip(通常約 6 秒),但屬第三方依賴

7) PixVerse v5.5:文件清晰、credit 易算、商用向功能齊
支援:Text-to-Video / Image-to-Video、multi-shot、seed 可重現、preview mode、off-peak mode
v5.5 常見:1–10s、360/540(free)到 720/1080(付費)
只支援上傳 1 張 reference image
免費有水印
價格
$1 = 100 credits(官方甚至提供「不同模式消耗表」)
API plans 由 Free / Starter / Essential…一路到企業級(concurrency、效果、解析度都寫得好清楚)

Part 2|實測:成片質量(Text-to-Video)三關
同一條 prompt、同一套 reference,比較:自然度/穩定度/一致性/片感
Test 1:人物走位+微表情(「人」最基本可信度)
分數(100 分制)
Sora 2:90(A)
Veo 3.1:88(A)
Kling 2.6:80(B)
Grok Imagine:72(B)
Seedance 1.5 Pro:70(B)
Wan 2.6:62(C)
PixVerse 5.5:55(C)
一句總結:
Sora / Veo 最接近手機實拍(眼神、手部接觸、皮膚層次都自然)
Kling 真,但偏「磨皮」AI 感
Seedance 紋理真但走路+運鏡典型 AI
PixVerse 最明顯 AI 感

Test 2:手部近景操作(遮擋+重量感+接觸是否成立)
分數
Sora 2:92(A)
Kling 2.6:84(B)
Veo 3.1:84(B)
PixVerse 5.5:82(B)
Grok Imagine:75(B)
Wan 2.6:60(C)
Seedance 1.5 Pro:50(D)
一句總結:
Sora 最穩:遮擋正確、接觸連續、重量感成立
Kling / Veo:接觸對,但「球偏輕」
Wan:球似氣球
Seedance:遠近、物理、接觸都唔成立

Test 3:賽車過彎(穩定度+物理邏輯)
分數
Veo 3.1:82(B)
Grok Imagine:82(B)
Sora 2:74(B)
Kling 2.6:66(C)
Wan 2.6:52(D)
Seedance 1.5 Pro:52(D)
PixVerse 5.5:50(D)
一句總結:
Veo / Grok:做到車身側傾(roll),但輪胎略「滑水」、煞車重量感不足
Sora:太順滑 → 反而少重量感
Wan / PixVerse:場景或幾何崩壞屬失敗級

成片質量總排行(綜合三關觀感)
第一梯隊:Sora 2、Veo 3.1
第二梯隊:Kling 2.6(但偏 AI 光滑感)
第三梯隊:Grok、Seedance(可用但易露 AI)
第四梯隊:Wan、PixVerse(要非常挑場景/鏡頭才勉強)
Part 3|可控性(Image-to-Video)兩關:品牌交付最痛點
Image-to-Video Test 1:單 reference 產品罐(鎖包裝、鎖字體、鎖顏色)
分數
Sora 2:95(A)
Seedance Pro:88(B)
PixVerse 5.5:88(B)
Grok Imagine:80(B)
Veo 3.1:72(B)
Kling 2.6:60(C)
Wan 2.6:40(D)
結論:
要「字完全唔變」:Sora 2 最穩,已到可直接商用產品片水平。
Seedance Pro/PixVerse:鎖字鎖 logo 夠穩,但鏡頭動作要避開最易走樣段落
Kling 2.6:轉一圈後換字/變形,對品牌係致命
Wan:形狀顏色字體一齊變,等同唔鎖 identity

Image-to-Video Test 2:多 reference(鎖人+鎖衫+鎖鞋+鎖產品+鎖場景)
呢關我用 Kling O1 Video(因為 2.6 不支援 1–7 張多 reference 鎖定工作流)
分數
Kling O1 Video:90(A)
Veo 3.1:75(B)
其他(Sora / Wan / Seedance / Grok / PixVerse):暫不支援多 reference 同時鎖定(N/A)
一句總結:
你要「一次過鎖人鎖衫鎖鞋鎖產品」做廣告:Kling O1 係目前最直接。
Veo 可以做到一致,但動作表情仍帶少少 AI 味,要靠剪接與鏡頭策略補

Part 4|自動化:n8n 接入難度(做 1 條 vs 做 100 條)
我用一個好現實標準:唔係「有冇 API」咁簡單,而係你喺 n8n 入面接唔接得順。
Sora:n8n 有 OpenAI node 的 Video operations(支援 sora-2 / sora-2-pro)
Veo:n8n 官網有 Veo 3.1 eCommerce catalog video workflow 範例
Kling / Wan / Seedance / PixVerse:多數用 HTTP Request node 打 API(可做,但要自己砌)
Kling O1、PixVerse:你提供嘅描述係「官方 docs 相對清晰」→ 屬於可落地
Grok Imagine:多數靠第三方包裝 → 依賴風險最高
Part 5|價格與性價比(「每條片成本」先係真實世界)
以下用「官方或可核對數字」做粗略換算(方便做預算):
各工具大概成本(以 8–10 秒為單位思考)
Sora 2 API
720p $0.10/秒 → 10 秒約 $1
Pro 720p $0.30/秒 → 10 秒約 $3
Pro 1080p $0.50/秒 → 10 秒約 $5
Veo 3.1 API(含音訊)
Fast with audio $0.15/秒 → 8 秒約 $1.2
Standard with audio $0.40/秒 → 8 秒約 $3.2
Seedance(BytePlus 例子)
5 秒 720p 約 $0.988 → 10 秒約 $1.976 等級(實際會因 tokens 有浮動)
PixVerse
credit 換算最清晰:$1=100 credits,官方有模式消耗表(最易做財務模型)
Wan / Kling / Grok
受平台、方案影響更大(提醒:以自己平台 pricing tab 為準;Grok 牽涉第三方 API 風險)
性價比分級
A:Veo 3.1 Fast($0.15/秒+含 audio+質量 A 梯隊)
A-:Seedance 1.5 Pro(成本可控+free trial,適合大量草稿層)
B:Sora 2($0.10/秒很甜,但 Pro 高解會跳價)
B:PixVerse(credit 易算+功能商用向,但質量偏 C,適合模板流量內容)
C:Wan 2.6(交付型,但質量/可控性未到第一梯隊,定價視平台)
C:Kling(多 reference 值錢,但 credit 消耗與 plan 彈性大,要按產量算)
D:Grok Imagine(快,但第三方 API 依賴+條款風險,難做 pipeline 支柱)
Part 6|兩張「你可以直接抄走」的排行榜
① 功能(質量+可控性+自動化)綜合推薦
Sora 2:高質感+單產品鎖定最強+n8n 直接接 → 全能型
Veo 3.1:原生 audio+分鏡節奏好用+Fast 超抵 → 商用效率型
Kling O1:多 reference 鎖人鎖物最成熟 → 廣告交付控制型
PixVerse:文件清晰、credit 好算、功能齊 → 模板批量生產型
Seedance:草稿層/preview 層性價比高 → 前置量產型
Wan:平台差異大 → 看你用邊個平台
Grok Imagine:體驗快,但 API 風險 → 唔建議做唯一支柱
② 價格(性價比)排行榜(以「可用影片/可 scale」角度)
Veo 3.1 Fast > Seedance > Sora 2 > PixVerse > Wan ≈ Kling > Grok
最後:三句就揀到(按你嘅工作目標)
你要高質感+最少踩雷:主力用 Sora 2
你要原生音訊+壓成本+量產:主力用 Veo 3.1
你要多 reference 鎖人鎖衫鎖鞋鎖產品做廣告:直接用 Kling O1 Video
你要大量出草稿做前置,再交高端模型做 hero shot:用 Seedance/PixVerse 做前段量產
想拎到我用嚟實測嘅詳細 prompts、評分表 template、red flag checklist 同 pipeline 建議,直接去呢個 AI Video Tool Testing Kit.

探索全新部落格文章
隨時掌握我們的最新文章


.png)





.png)
.png)
.png)
.png)

