吉東西作者江宇陳駿達編輯心緣
姬東西4月24日報道,今日,DeepSeek官方發布並開源DeepSeek-V4系列預覽版本,這是其繼V3.2之後的新一代旗艦模型體系,智東西第一時間上手實測。
DeepSeek V4「源神」回歸影響力果然不同凡響,幾乎瞬間刷屏,在微博熱搜榜前五佔三,僅次於小米YU7GT。
![]()
本次發布包含兩款模型:DeepSeek-V4-Pro與DeepSeek-V4-Flash,分別採用MoE架構,總參數規模達1.6T(激活49B)與284B(激活13B),並統一支持最長100萬token上下文。
DeepSeek官方同時說明,受限於高階算力,目前DeepSeek-V4-Pro的服務吞吐十分有限,预计下半年昇腾950超节点批量上市后,其价格会大幅下调。此外,DeepSeek-V4已獲得寒武紀Day 0適配支持,相關適配程式碼已開源至GitHub社群。
![]()
DeepSeek-V4-Pro主打性能上限,對標閉源旗艦模型;而DeepSeek-V4-快閃記憶體則在參數規模與激活規模上大幅縮小,換取更低延遲與更低成本。
![]()
相比上一代模型,其在Agent能力、世界知識與複雜推理任務上進一步抬升,並首次將“百萬上下文”作為預設能力開放。
在Agent能力方面,DeepSeek-V4-Pro的Agent能力显著增强。其在Agentic Coding等評測中進入開源第一梯隊,內部評測顯示交付質量已接近Claude Opus 4.6非思考模式,但與其思考模式仍有差距。
DeepSeek-V4-Pro在數學、STEM及競賽型代碼等高難度任務中已超過目前已公開評測的開源模型,整體表現接近甚至比肩GPT-5.4、Claude Opus 4.6-Max等頂級閉源模型。
同時,DeepSeek-V4在長上下文效率上給出了一組更激進的優化:在100萬token場景下,其單token推理計算量僅為V3.2的27%,KV Cache佔用量降至約10%,显著降低长链路任务的算力与显存成本。
![]()
同時,官方公佈了DeepSeek-V4系列的API定價:DeepSeek-V4-Pro在輸入命中緩存的情況下為1元/百萬tokens,輸入未命中快取則為12元/百萬tokens,輸出為24元/百萬tokens;DeepSeek-V4-Flash在輸入命中快取僅0.2元/百萬tokens,意外導入1元/百萬tokens,輸出2元/百萬tokens。
![]()
目前,DeepSeek-V4系列已上線官網與App,並同步開放API與模型權重。
體驗地址:chat.deepseek.com或DeepSeek官方APPAPI檔:https://api-docs.deepseek.com/zh-cn/guides/thinking_mode開源連結:https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
一、Agentic程式設計能力提昇明顯,讀《三體》三部曲燒了54萬token
我們初步感受了下DeepSeek-V4的變化,主要測試的模型是DeepSeek-V4-Pro。
在前端網頁one-shot案例中,DeepSeek-V4-Pro展現出很高的執行效率。由於我們的需求不複雜,模型僅花了5秒鐘思考,之後迅速進行開發,這與先前DeepSeek模型在思考上浪費很多token的模式明顯不同。
進入到實際生成過程後,DeepSeek-V4-Pro的輸出長度要明顯長於其他DeepSeek模型。其生成速度較快,基本能做到以5行程式碼為單位輸出。
最終,DeepSeek-V4-Pro的生成結果如下,可以看到其網頁的完成度比DeepSeek-V3.2高一些,設計更為豐富。
![]()
▲DeepSeek-V4-Pro打造的網站
網站連結:https://mcp.edgeone.site/share/9pD1cRzY1QA8bmmBLDZ8S
不過,這樣簡單的程式設計題目已經難不住DeepSeek-V4-Pro,我們試著讓它完成一個結合Agent能力與程式設計的任務:規劃一次去上海的旅行,然後把所有相關資訊整合為一個旅行網站,附上對應的景點定位。
執行過程中,可以看到DeepSeek-V4-Pro可以進行複雜多輪工具調用,聯網搜尋的條目數量也和先前模型的數量相比有增加,資訊收集得更為全面了。
![]()
最終,DeepSeek-V4-Pro收集到了完整的行程信息,規劃合理,並且配上了每個景點的定位,點開後就可以直接在導航App裡使用,十分便捷。在Agent任務中,可以觀察到它的行動十分果斷,工具呼叫、思考都在幾秒鐘內解決,token效率不錯。
![]()
▲DeepSeek使用Agent能力與程式設計能力規劃的旅行方案
網站連結:https://mcp.edgeone.site/share/4TxFYOy24bgaEwxFoxisj
我們的下一個案例與長文本有關,DeepSeek-V4系列模型常常掛在嘴邊的就是它能一口氣吃下《三體》三部曲,而我們如它所願上傳了完整的《三體》。
上傳這樣的超長檔案後,DeepSeek能夠迅速定位我們指定的內容,成功實現大海撈針。不過,這種超長上下文能力是有代價的,光是輸出這一點內容就燒掉了54萬個token。
![]()
我們也用「OpenAI更新到了哪一個模型」這個問題,試了試模型的知識截至日期,可以看到,DeepSeek-V4-Pro的知識截止日期目前仍然停在2025年。
![]()
此外,這項模型應該暫時還不支援視覺能力,上傳影像後還是會進行文字擷取,沒有文字的影像會顯示無法處理。
![]()
二、百萬上下文成標配,新架構把「長任務成本」壓下來
這一代V4最直接的變化,就是把「長上下文」變成預設能力。
不同於傳統透過簡單擴展視窗的方式,DeepSeek-V4-Pro引入了全新的混合注意力架構,將Compressed Sparse Attention與高壓縮注意力(HCA)結合,同時配合DSA稀疏注意力,在token維度進行壓縮。
此外,模型引入了流形約束超連接(mHC)增強傳統殘差連接,並使用Muon優化器提升收斂速度和訓練穩定性。這一系列設計,使得模型在「記得更長」的同時,有效控制計算成本。
從官方給出的數據來看,在100萬token上下文下,DeepSeek-V4-Pro單token推理TFLOPs相比DeepSeek-V3.2下降約3.7倍至9.8倍區間,KV Cache佔用下降9.5倍至13.7倍。
![]()
這意味著,過去難以實際運作的超長連結任務(如多輪Agent規劃、長文件處理),開始進入可執行範圍。
三、推理、知識、程式碼三線抬升,開源模型逼近閉源上限
從能力結構來看,DeepSeek-V4-Pro的提升是推理、知識與Agent能力的同步抬升。
在知識與推理類任務中,其在SimpleQA、Apex、Codeforces等評測中均超過目前主流開源模型,並在多項任務上接近GPT-5.4與Gemini 3.1 Pro。例如在Apex Shortlist中達到90.2分,已經超越頂級封閉源模型;在Codeforces等競賽類任務中,也維持在第一梯隊水準。
在Agent能力相關任務中,DeepSeek-V4-Pro在SWE Verified、Terminal Bench等指標上表現穩定,SWE Verified達到80.6,接近Claude Opus 4.6,明顯高於多數開源模型。其表現同樣超過GLM-5.1 Thinking、Kimi K2.6 Thinking等模型
![]()
整體來看,DeepSeek-V4-Pro已是目前開源模型的「天花板」。
四、Agent能力專項優化,開始圍繞真實工作流程打磨
這一代DeepSeek-V4明顯強化了對Agent場景的適應力。其針對Claude Code、OpenClaw、CodeBuddy等主流Agent框架進行了專案最佳化,在程式碼產生、文件產生等多步驟任務中表現較穩定。下圖為DeepSeek-V4-Pro在某Agent框架下產生的PPT內頁範例:
![]()
從實際定位來看,DeepSeek-V4-Pro已經被DeepSeek內部作為Agentic Coding模型使用,重點在於「完成任務」。在簡單任務上,V4-Flash已可與Pro版本接近,而在複雜任務中仍有明顯差距。
本質上是在為Agent應用提供兩種「算力檔位」。 DeepSeek-V4-Flash在簡單Agent任務中已經能夠與Pro“旗鼓相當”,但在複雜任務中仍有差距。這種差異,本質上是推理深度與上下文利用能力的差異。
結論:DeepSeek-V4亮相,國產算力與開源路線的落地之光
DeepSeek-V4的發布不僅展現了團隊在技術和架構上的積淀,也標誌著開源大模型在國產算力生態下的實際落地能力。
经过对华为昇腾、寒武纪等国产芯片的适配优化,DeepSeek-V4系列实现了百万token上下文的稳定支持和高效推理,使长链路任务与多步Agent执行成为可能。
此版本將Pro與Flash的不同定位落實處,在性能上逼近閉源旗艦模型,在成本上保持高性價比,為國內開發者提供了前所未有的開放選項。
更重要的是,這次發布顯示開源模型不僅能在全球競爭中站穩腳跟,也能夠借助國產算力和優化架構,將技術潛力轉化為實際可用的生產力。 DeepSeek-V4或許是中國開源力量在高性能AI賽道上邁出的關鍵一步,也為國內AI生態的創新與落地提供了明確指引。