DeepSeek V4 - almost on the frontier, a fraction of the price
by Simon Willison(Django 共同創辦人、LLM 實戰部落客)
中文摘要
DeepSeek V4 是一個新推出的 AI 模型,具有 1 百萬個 token 的上下文和 Mixture of Experts 結構。其中,DeepSeek-V4-Pro 模型具有 1.6T 的參數和 49B 的活躍參數,而 DeepSeek-V4-Flash 模型具有 284B 的參數和 13B 的活躍參數。這些模型的大小和複雜度使其成為目前最大的開源模型之一。實際應用中,DeepSeek V4 模型可以用於生成圖像和文本,例如生成一張圖片中有一隻鵜鶘騎著自行車的場景。同時,DeepSeek V4 的價格相對於其他前沿模型來說非常低廉,例如 DeepSeek V4 Flash 的輸入和輸出成本分別為每百萬個 token 0.14 美元和 0.28 美元。