【新聞熱點(diǎn)】幻方量化旗下國(guó)產(chǎn)大模型發(fā)布DeepSeek-V3大模型：性能卓越且成本低廉

原創(chuàng) 精選文章 2024-12-28 10:47:08 閱讀：322人看過(guò)

12月26日晚，網(wǎng)傳幻方量化旗下探索AGI（通用人工智能）的組織“深度求索（DeepSeek）”宣布，人工智能基礎(chǔ)技術(shù)研究有限公司發(fā)布了全新版本的DeepSeek-V3模型，并同步開(kāi)源。盡管在“AI六小虎”中相對(duì)低調(diào)，但憑借其開(kāi)源特性和顯著的成本優(yōu)勢(shì)，DeepSeek-V3一經(jīng)推出便迅速贏得了國(guó)際專家的高度評(píng)價(jià)。

著名AI研究者、OpenAI創(chuàng)始成員之一Andrej Karpathy對(duì)DeepSeek-V3給予了高度評(píng)價(jià)。他表示：“今天，一家中國(guó)AI公司輕而易舉地發(fā)布了一個(gè)前沿大語(yǔ)言模型，僅使用2048塊GPU訓(xùn)練了兩個(gè)月，總成本約為600萬(wàn)美元。相比之下，達(dá)到同等水平的其他模型通常需要約1.6萬(wàn)塊GPU集群的支持，而當(dāng)前正在部署的集群甚至包含近10萬(wàn)塊GPU。”他還指出，Llama 3405B模型使用了3080萬(wàn)GPU/小時(shí)的訓(xùn)練時(shí)間，而DeepSeek-V3僅需280萬(wàn)GPU/小時(shí)，計(jì)算量減少了約11倍。如果該模型能夠通過(guò)各項(xiàng)評(píng)估，這將是資源受限條件下研究與工程能力的一次令人印象深刻的展示。

根據(jù)深度求索官方公布的信息，DeepSeek-V3在多項(xiàng)評(píng)測(cè)中超越了Qwen2.5-72B和 Llama-3.1-405B等其他開(kāi)源模型，并在性能上與世界頂尖的閉源模型GPT-4o及Claude-3.5-Sonnet不相上下。這一成就不僅證明了DeepSeek-V3的技術(shù)實(shí)力，也展示了其在實(shí)際應(yīng)用中的潛力。

通過(guò)算法和工程上的創(chuàng)新，DeepSeek-V3的生成吐字速度從20TPS大幅提升至60TPS，相比V2.5版本實(shí)現(xiàn)了三倍的提升。此外，該公司還提供了極具競(jìng)爭(zhēng)力的定價(jià)策略：每百萬(wàn)輸入tokens的價(jià)格為0.5元（緩存命中）/ 2元（緩存未命中），每百萬(wàn)輸出tokens的價(jià)格為8元。這種定價(jià)模式使得更多企業(yè)和開(kāi)發(fā)者能夠負(fù)擔(dān)得起先進(jìn)的AI技術(shù)，從而推動(dòng)大規(guī)模應(yīng)用的發(fā)展。

深度求索的成功并非偶然，其背后是團(tuán)隊(duì)對(duì)技術(shù)的不懈追求和持續(xù)的原創(chuàng)性創(chuàng)新。作為一家成立不久的AI創(chuàng)業(yè)公司，深度求索憑借其在AI領(lǐng)域的深耕細(xì)作，已經(jīng)逐漸成為業(yè)界的佼佼者。未來(lái)，隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用的不斷深化，深度求索將繼續(xù)發(fā)揮其在技術(shù)創(chuàng)新方面的引領(lǐng)作用，推動(dòng)中國(guó)乃至全球的AI產(chǎn)業(yè)發(fā)展。

DeepSeek-V3的發(fā)布標(biāo)志著國(guó)產(chǎn)大模型在全球AI競(jìng)賽中邁出了堅(jiān)實(shí)的一步。它不僅展示了中國(guó)公司在AI領(lǐng)域的強(qiáng)大實(shí)力，也為國(guó)內(nèi)外市場(chǎng)提供了高性能、低成本的AI解決方案。我們期待看到更多像深度求索這樣的企業(yè)，通過(guò)技術(shù)創(chuàng)新推動(dòng)整個(gè)行業(yè)的進(jìn)步和發(fā)展。

幻方量化關(guān)聯(lián)股票信息

$每日互動(dòng)Sz300766$：幻方二股東，技術(shù)負(fù)責(zé)人是每日互動(dòng)的聯(lián)合創(chuàng)始人，存在合作基礎(chǔ)。

$卓創(chuàng)資訊 sz301299$:幻方作為大型私募，卓創(chuàng)資訊金融語(yǔ)料庫(kù)。

$陽(yáng)光照明sh600261$：購(gòu)買幻方3億產(chǎn)品，疊加電器出海，外銷占比75%。

$飛利信Sz300287$：飛利信是目前市場(chǎng)采用MLA機(jī)制不多的上市公司，Multi-headlatent attention，就是多頭注意力機(jī)制，簡(jiǎn)稱MLA。

$南威軟件sh603636$:在人工智能方面，基于多頭注意力機(jī)制和增強(qiáng)特征金字塔方法，掌握了新型的生物認(rèn)證技術(shù)。

版權(quán)聲明：科技數(shù)宅倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。未經(jīng)許可,任何人不得復(fù)制、轉(zhuǎn)載、或以其他方式使用本站《原創(chuàng)》內(nèi)容,違者將追究其法律責(zé)任。本站文章內(nèi)容,部分圖片來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系我們修改或者刪除處理。