当前位置：首页>资讯 >行业资讯 > 人工智能>中国初创公司深度求索发布V3模型更新提升编程能力

中国初创公司深度求索发布V3模型更新提升编程能力

2025-03-25 来源：彭博社浏览数：30 国际会展网

核心提示：中国初创公司深度求索（DeepSeek）发布了V3模型更新，加强了模型的编程能力，显示这家公司希望在人工智能（AI）激烈竞争中保持领先优势。DeepSeek没有为此次版本更新发布任何公告，延续了该公司的低调风格。根据官方技术论文披露，DeepSeek-V3模型的总训练成本为557.6万美元，而GPT-4o等模型的训练成本约为1亿美元。

18SZ图片处理

中国初创公司深度求索（DeepSeek）发布了V3模型更新，加强了模型的编程能力，显示这家公司希望在人工智能（AI）激烈竞争中保持领先优势。

综合彭博社和科技博客网站VentureBeat报道，AI开源模型DeepSeek-V3的版本更新V3-0324星期一（3月24日）深夜在AI开源平台HuggingFace低调上线。

DeepSeek没有为此次版本更新发布任何公告，延续了该公司的低调风格。

18SZ图片处理

初代DeepSeek-V3发布于2024年12月26日，这款模型自上线后便以高性价比火速“出圈”。根据官方技术论文披露，DeepSeek-V3模型的总训练成本为557.6万美元，而GPT-4o等模型的训练成本约为1亿美元。

更新后的DeepSeek-V3模型大小为641GB，参数量6850亿。与V3相同，V3-0324模型采用专家混合（MoE）架构，并开源允许自由商用。

此次DeepSeek发布的V3版本更新，编程能力的优化成了最大亮点。有网民使用V3-0324模型编写800多行代码，全程没有出现任何故障。

18SZ图片处理

有AI研究者在X发布评测指出，V3-0324模型在所有基准测试中都取得巨大进步，可能已超越美国Anthropic的Claude Sonnet 3.5，成为最强大的非推理模型。Sonnet 3.5是当前最受认可的商业AI模型之一。

让更多科技博主关注的是，V3-0324模型可直接在消费级硬件上运行，如搭载苹果M3 Ultra晶片的Mac Studio上，不需要动辄千瓦级别功耗的数据中心。

M3 Ultra晶片在进行推理时的功耗不到200瓦，意味着V3-0324模型的部署和运营门槛已大大降低。

18SZ图片处理

VentureBeat报道认为，DeepSeek-V3-0324模型的发布，可能预示着DeepSeek-R2的即将到来。DeepSeek一贯先推出基础模型，再推出专门优化推理能力的版本，如V3后不久发布的R1。

路透社今年2月引述消息称，DeepSeek正加快推出R1模型的后续产品R2。据悉，DeepSeek-R2原计划在5月初发布，但公司现在希望尽早推出。

VentureBeat认为，DeepSeek-R2的发布，可能成为直接挑战OpenAI GPT-5的竞品。

Booking.com

打赏

相关阅读：

初创公司深度求索 V3模型编程能力

分享到：

0 条相关评论

阅读上文 >> 日本政府周六起对中国石墨电极征收95.2%关税: 阅读下文 >> 国泰航空：将向乘客清晰传达充电宝相关要求

大家喜欢看的

品牌
资讯
展会
视频
图片
供应
百科
商城

欢迎转发与合作：

本文地址：http://www.18sz.com/news/show.php?itemid=19751

转载本站原创文章请注明来源：国际会展网

推荐新闻

行业专题

更多行业专题

行业热点

VIP会员

微信“扫一扫”
即可分享此文章

友情链接

关注官方订阅号

关注官方服务号

Copyright© 2003-2025 18SZ.com 18SZ B2B SYSTEM All Rights Reserved

服务热线：+86 755 88850315 ICP备案号：