AI Daily Digest
Simon Willison

Gemini 3.1 Flash TTS

by Simon Willison(Django 共同創辦人、LLM 實戰部落客)

中文摘要

Google 釋出了 Gemini 3.1 Flash TTS,一種新的文字轉語音模型,可以使用提示進行導向。這個模型通過標準的 Gemini API 使用,模型 ID 為 "gemini-3.1-flash-tts-preview",但只能輸出音頻文件。使用者可以通過編寫提示腳本來控制語音的風格、語調和節奏,例如指定語音的亮度、動態範圍和語調等。Gemini 3.1 Flash TTS 的實際應用包括生成高品質的音頻內容,例如廣播節目、廣告和有聲書等。