-
8大維度600道題盲測,訊飛星火成中國“最聰明”大模型
2023/8/19 11:56:50 來源:財訊網(wǎng) 【字體:大 中 小】【收藏本頁】【打印】【關(guān)閉】
核心提示:近日,麻省理工科技評論對國內(nèi)排名靠前的四個大模型進行了一次全方位評測,參評的大模型分別是訊飛星火、百度文心一言、商湯商量、阿里通義千問。在最終的評測結(jié)果中,訊飛星火以整體水平得分率81.50%高居第一,成為“最聰明”國產(chǎn)大模型。去年11月ChatGPT發(fā)布后,全世界掀起了AIGC熱潮,國內(nèi)各大企業(yè)和投資人也紛紛跟進。百模大戰(zhàn)一觸即發(fā)
各家大模型紛紛入局,一時之間國內(nèi)大模型領(lǐng)域呈現(xiàn)出少有的熱鬧景象。
到目前為止,國內(nèi)已經(jīng)發(fā)布的10億參數(shù)以上大模型數(shù)量超過80個,“百模大戰(zhàn)”的競爭格局初步形成。
競爭格局出現(xiàn)變化
近日,麻省理工科技評論對國內(nèi)排名靠前的四個大模型進行了一次全方位評測,參評的大模型分別是訊飛星火、百度文心一言、商湯商量、阿里通義千問。在最終的評測結(jié)果中,訊飛星火以整體水平得分率81.50%高居第一,成為“最聰明”國產(chǎn)大模型。
此次評測是從權(quán)威題庫中抽取8個維度的600道題對參評大模型進行盲測。
從各維度的結(jié)果來看,在8個一級分類中,訊飛星火共獲得其中6個一級分類的第一名。
麻省理工科技評論的評測報告還重點指出:在編程能力評測中,訊飛星火 80% 的得分率明顯高于 71%的平均值,在生成代碼的簡答題單項上,訊飛星火的得分率高達 82%,遠高于其他平臺,表現(xiàn)頗為亮眼。
無獨有偶,就在此前幾天的8月12日,新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布《人工智能大模型體驗報告2.0》,在該《報告》中,訊飛星火V1.5就以總分1013分位列本次國產(chǎn)主流大模型測評榜首位。在四大評測維度中的智商指數(shù)和工具提效指數(shù)兩個維度獲得第一,《報告》認為訊飛星火“在工作提效方面優(yōu)勢明顯”。
行業(yè)應用加速落地
8月15日,科大訊飛發(fā)布了星火認知大模型V2.0,V2.0在代碼能力和多模態(tài)能力方面的表現(xiàn)讓人印象頗為深刻。而在應用落地方面,訊飛也展示出快人一步的節(jié)奏,無論是對標Copilot X的智能編程助手iFlyCode1.0,還是行業(yè)首創(chuàng)的星火教師助手,都展現(xiàn)出了很強的競爭力。
按理說,訊飛星火能取得這樣的成績并不令人意外。畢竟,科大訊飛自成立以來,一直都聚焦在AI領(lǐng)域潛心發(fā)展,無論是人才還是技術(shù),都有著不錯的積累。
隨著訊飛星火開始在大模型領(lǐng)域嶄露鋒芒,國內(nèi)大模型市場的競爭格局或許也會隨之迎來不小的變化。
細分定位勢在必行
在模型能力層面,訊飛星火和文心一言開始形成國內(nèi)大模型領(lǐng)域的第一梯隊。而在應用落地的速度方面,現(xiàn)已發(fā)布了多款行業(yè)應用的科大訊飛似乎已經(jīng)走在了前面。
鑒于國內(nèi)大模型企業(yè)相對同質(zhì)化的定位,后續(xù)的競爭應該會日趨激烈。如何在繼續(xù)加強大模型通用能力的同時,找到自己在垂直細分領(lǐng)域的精準定位,或許已經(jīng)成為很多大模型企業(yè)不得不認真思考的問題。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時間聯(lián)系我們修改或刪除,郵箱:[email protected]。 -
- 熱點資訊
- 24小時
- 周排行
- 月排行
- 全國家庭親子閱讀提升項目啟動
- 鄭緣堂、野人日記、嗨小瓶亮相2025EBC輕食大會
- 透過數(shù)據(jù)看“流動”中的“五一”假期活力四射 “ChinaTravel”涌熱潮
- 一季度入境澳門旅客逾986萬人次
- 五一輕松過,家務(wù)輕喜做!輕喜到家五一活動包攬年輕人家政需求
- 多方攜手打出“組合拳” “五一”假期能源生產(chǎn)運輸不停歇夯實保供基礎(chǔ)
- 車企布局細分賽道 外國供應商看好中國汽車加碼在華投入
- 2025年一季度互聯(lián)網(wǎng)和相關(guān)服務(wù)業(yè)運行情況
- 中央網(wǎng)信辦等四部門印發(fā)《2025年提升全民數(shù)字素養(yǎng)與技能工作要點》
- 移動互聯(lián)網(wǎng)未成年人模式正式發(fā)布