ElevenLabs AI 語音生成教學 2026:香港用家點樣用 AI 克隆聲音?
ElevenLabs 係目前最真實嘅 AI 語音生成工具,免費版每月 10,000 字符,可生成旁白、廣播稿朗讀、克隆聲音。本文教香港用家設定、廣東話效果同付費計劃分析。

ElevenLabs 免費版每月 10,000 字符(約 10 分鐘語音),支援廣東話,可生成旁白、Podcast 語音同克隆聲音,Starter $5 USD/月升至 30,000 字符,係目前最真實嘅 AI 語音工具。
想做 YouTube 旁白但唔想出聲?想將文章轉成 Podcast?想克隆自己把聲音做多語言版本?ElevenLabs 係目前市場上語音最自然、情緒最豐富嘅 AI TTS 工具,香港用家直接登記就用得,仲支援廣東話輸入。本文由免費版用法到 Voice Clone 步驟,全面教你使用。
ElevenLabs 可以做咩?(TTS、Voice Clone、Dubbing)
ElevenLabs 係 2022 年成立嘅美國 AI 公司,專注語音 AI 技術。主要功能分三大類:
Text-to-Speech(TTS):將文字轉換成語音,係最基本嘅功能。ElevenLabs 嘅 TTS 同一般 TTS 最大分別係情緒自然度——語速、語氣、停頓都接近真人,特別係英文效果,連美音、英音都做得出。
Voice Cloning(聲音克隆):錄製或上傳你自己(或任何人)1 分鐘以上嘅語音樣本,ElevenLabs 就可以用呢把聲音讀出任何文字。克隆出嚟嘅聲音係「Cloned Voice」,只要樣本夠清晰,相似度可以超過 90%。
AI Dubbing(配音/翻譯):上傳一段視頻,ElevenLabs 自動偵測語音,翻譯成另一種語言,再用近似原聲嘅聲音配音,保留原本嘅語氣同情緒。適合 YouTube 創作者做多語言版本。
Projects(長篇内容管理):付費版提供 Projects 功能,可以上傳整本書或長篇稿件,章節管理,批量生成語音,方便做 Audiobook 或長篇 Podcast。
ElevenLabs 嘅語音庫有超過 3,000 個預設聲音,涵蓋多種語言、性別、口音,香港用家可以直接揀現成聲音使用,唔一定要克隆。
免費版 vs 付費版功能對比
| 計劃 | 月費 | 字符/月 | 語音數量 | Voice Clone | 商業用途 |
|---|---|---|---|---|---|
| Free | 免費 | 10,000 | 3 個自訂 | Instant Clone | 唔可以 |
| Starter | $5 USD | 30,000 | 10 個自訂 | Instant Clone | 可以 |
| Creator | $22 USD | 100,000 | 30 個自訂 | Professional Clone | 可以 |
| Pro | $99 USD | 500,000 | 160 個自訂 | Professional Clone | 可以 |
10,000 字符有幾多? 英文約 1,400-1,800 個單詞,大概 10-12 分鐘語音。中文(廣東話/普通話)字符同英文計算方式唔同,10,000 字符大約係 2,500-3,000 個中文字,即係約 15-20 分鐘語音(中文語速慢)。
免費版限制:
- 生成嘅語音唔可以用於商業用途(例如廣告旁白、客戶項目)
- 聲音質素限於 128kbps MP3
- 每日有生成次數上限(通常每日 200 次)
- Voice Clone 只限 Instant Clone(精準度低過 Professional Clone)
Starter $5 USD/月最適合:
- 個人 YouTube 頻道(可商業用途)
- Freelancer 幫客戶做語音旁白
- 每月需要 30 分鐘以上語音內容
廣東話支援效果如何?(實測)
廣東話 TTS 係 ElevenLabs 嘅弱項,但依然係市場上唯一有實際廣東話支援嘅主流 AI 語音工具。
實測結果(2026 年初):
正面:ElevenLabs 可以辨識廣東話文字並生成粵語語音,唔會讀成普通話。基本詞彙發音正確,語速自然,適合標準廣東話內容。
不足:聲調準確率約 80-85%,部分三聲、六聲容易混淆。口語詞彙(例如「係囉」「唔係喎」)效果較差。廣東話語音庫比英文少很多,選擇有限。
提升廣東話效果嘅技巧:
- 寫稿時用標準書面廣東話,減少口語詞彙
- 標點符號控制節奏,逗號、句號影響停頓
- 數字建議用中文寫(「三十元」而非「30元」)
- 英文詞彙保留英文(ElevenLabs 普遍英文讀音好過中文音譯)
相比之下,Microsoft Azure TTS 嘅廣東話(HK-WanLungNeural)音色更自然,但 ElevenLabs 嘅優勢係 Voice Clone 功能。如果你需要用自己嘅聲音說廣東話,ElevenLabs 仍係最佳選擇。
點樣克隆自己嘅聲音(Voice Clone 步驟)
Voice Clone 係 ElevenLabs 最強大嘅功能,以下係完整步驟:
準備工作(影響克隆質素嘅關鍵):
- 錄音長度:Instant Clone 最少 1 分鐘,建議 3-5 分鐘;Professional Clone 需要 3-30 分鐘
- 錄音環境:安靜房間,無背景噪音,無迴響
- 錄音設備:普通手機已夠,有外置麥克風更好
- 內容:朗讀文章(唔係對話),語速自然,情緒中性
- 格式:MP3 或 WAV,44kHz 或以上
Instant Voice Clone 步驟:
- 登入 ElevenLabs,進入「Voices」頁面
- 點擊「Add Voice」→「Instant Voice Cloning」
- 上傳你嘅錄音檔(支援多個檔案疊加)
- 填寫聲音名稱,例如「我嘅聲音 - 廣東話」
- 確認使用條款(聲明係你自己嘅聲音)
- 等待 30 秒至 2 分鐘,克隆完成
- 喺「Text to Speech」頁面選擇克隆聲音測試效果
Professional Voice Clone(Creator 或以上計劃): Professional Clone 需要更多樣本(3-30 分鐘),但克隆出嚟嘅聲音更準確,特別係情緒起伏、語調細節方面。步驟相似,但上傳後需要等待 ElevenLabs 專屬處理(通常 24-48 小時)。
重要提醒:ElevenLabs 嚴格禁止克隆他人聲音,上傳時需要勾選確認「係本人聲音」或「已獲授權」。違反條款嘅帳號會被封禁,濫用克隆聲音做詐騙亦可能違反法律。
適合香港哪類創作者使用
YouTube / 短片創作者:需要旁白但唔想出聲(例如不露臉頻道、教學視頻),ElevenLabs 係最直接嘅解決方案。Starter $5 USD/月的 30,000 字符,足夠每週出 2-3 條 5 分鐘短片的旁白。
Podcast 主持人:想做多語言版本,或者製作有嘉賓對話格式嘅 Podcast(用唔同克隆聲音模擬對話),ElevenLabs 係好工具。注意:用 AI 語音做 Podcast,建議喺節目開頭說明,維持透明度。
教育內容創作者:做課程、補習教材,需要大量語音朗讀,ElevenLabs 可以大批次生成,比逐段自己錄音快好多。Creator $22 USD/月嘅 100,000 字符,足夠製作幾個小時嘅課程内容。
企業 / 品牌:公司 IVR 電話語音、企業介紹旁白、多語言客服錄音,Pro 計劃可以建立品牌專屬聲音,保持一致性。
廣告創作人 / Freelancer:替客戶製作廣告旁白,ElevenLabs 可以快速生成樣版,節省聘請配音員嘅時間同費用。需要 Starter 或以上計劃方可商業使用。
唔適合嘅情況:需要廣東話高度準確嘅內容(例如政府公告、醫療資訊),建議仍用真人配音,AI 廣東話發音仍有機會出錯。
常見問題
ElevenLabs 廣東話效果同 Microsoft Azure TTS 比較,邊個好? 各有優勢。Azure TTS HK-WanLungNeural 廣東話音色更自然、聲調更準確。ElevenLabs 嘅優勢係 Voice Clone,可以用你自己嘅聲音,以及更豐富嘅情緒表達。如果唔需要克隆功能,Azure TTS 嘅廣東話效果整體更好,且有免費額度。
克隆出嚟嘅聲音係咪永遠係我嘅? 喺 ElevenLabs 帳號入面,你建立嘅克隆聲音只有你可以使用,唔會分享俾其他用家。但如果你取消訂閱(降回免費版),超出免費計劃數量嘅聲音會被停用(但唔會被刪除)。
生成嘅語音可以用於 YouTube 廣告嗎? Starter 或以上計劃嘅生成內容可以商業使用,包括 YouTube 廣告旁白。但需要確保你係用自己嘅克隆聲音或 ElevenLabs 授權聲音庫,唔能克隆他人聲音做廣告。
ElevenLabs 有無 API 接入? 有。ElevenLabs 提供 REST API,可以程式化生成語音,適合想整合到自己網站或 App 嘅開發者。API 呼叫次數計入帳戶嘅字符額度,定價同 Web 版一樣。
免費版嘅音頻可以下載嗎? 可以,免費版生成嘅語音可以下載 MP3 格式。但免費版唔能用於商業用途,只可以個人學習或測試。如有商業用途,需要升級到 Starter 或以上計劃。