近日,鵬城實(shí)驗(yàn)室聯(lián)合清華大學(xué)研制成功的首個(gè)國(guó)產(chǎn)算力下全開(kāi)源模型“鵬城·腦海-2.1-開(kāi)元-2B”(以下簡(jiǎn)稱(chēng)“腦海2.1-開(kāi)元2B”)在深圳正式發(fā)布。該模型在“中國(guó)算力網(wǎng)”核心節(jié)點(diǎn)“鵬城云腦Ⅱ”上進(jìn)行訓(xùn)練數(shù)據(jù)清洗、去重和訓(xùn)練的全流程,并完全公開(kāi)過(guò)程和代碼。不僅為中國(guó)算力網(wǎng)和業(yè)界提供了一條可復(fù)現(xiàn)、可迭代的模型全流程透明技術(shù)路徑,也解碼了在國(guó)產(chǎn)算力平臺(tái)上實(shí)現(xiàn)高效、穩(wěn)定預(yù)訓(xùn)練的完整解決方案。
“腦海2.1-開(kāi)元2B”作為“鵬城·腦?!毕盗写竽P偷闹匾蓡T,是繼推出大規(guī)模200B模型和對(duì)標(biāo)GPT-4Turbo的33B中等尺寸長(zhǎng)窗口模型之后,進(jìn)一步在全球大模型領(lǐng)域開(kāi)放平臺(tái)Hugging Face上全開(kāi)源的2B新版模型。與現(xiàn)有大量模型僅開(kāi)源權(quán)重不同,該模型公開(kāi)了訓(xùn)練數(shù)據(jù)、清洗和配比工具以及模型權(quán)重和技術(shù)報(bào)告等核心“秘訣”,助力開(kāi)源生態(tài)發(fā)展,訓(xùn)練中涉及的所有原始數(shù)據(jù)集均具有寬松的開(kāi)源協(xié)議,個(gè)人、院校、企業(yè)、科研機(jī)構(gòu)等均可自由使用。
針對(duì)當(dāng)前高質(zhì)量開(kāi)源數(shù)據(jù)稀缺、國(guó)產(chǎn)算力芯片(FP16精度)訓(xùn)練不穩(wěn)定以及開(kāi)源模型訓(xùn)練方案“黑盒化”等難題,“腦海2.1-開(kāi)元2B”的研發(fā)實(shí)現(xiàn)了全國(guó)產(chǎn)算力上精煉數(shù)據(jù)高效訓(xùn)練的自主可控技術(shù)路線(xiàn),具體包括三大要點(diǎn):一是數(shù)據(jù)混合與處理框架,解決了海量異構(gòu)數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)不統(tǒng)一及處理效率低的問(wèn)題;二是訓(xùn)練策略與超參配置,克服了有限算力資源下高質(zhì)量數(shù)據(jù)利用率不足的挑戰(zhàn);三是穩(wěn)定訓(xùn)練與模型架構(gòu),突破了某國(guó)產(chǎn)算力芯片(FP16精度)環(huán)境下梯度溢出和數(shù)值不穩(wěn)定的瓶頸。
目前,“腦海2.1-開(kāi)元2B”評(píng)測(cè)結(jié)果已達(dá)到同規(guī)模全開(kāi)源模型領(lǐng)先、部分指標(biāo)接近主流閉源方案的水平。在核心能力(數(shù)學(xué)、代碼、中文)評(píng)測(cè)中,該模型在MATH(30.34)、HumanEval(42.68)及CMMLU(49.25)等指標(biāo)上顯著超越了SmolLM2-1.7B及Gemma2-2B等國(guó)際主流全開(kāi)源模型。在通用推理與知識(shí)方面,其平均分達(dá)到67.74,以更少的參數(shù)量(1.4Bnon-embedding)實(shí)現(xiàn)了與更大規(guī)模模型(如YuLan-Mini-2.4B)相當(dāng)?shù)男阅堋?/p>
鵬城實(shí)驗(yàn)室有關(guān)負(fù)責(zé)人表示,接下來(lái),該實(shí)驗(yàn)室將依托“鵬城云腦Ⅱ”和建設(shè)中的新一代國(guó)產(chǎn)智能算力“鵬城云腦Ⅲ”,持續(xù)開(kāi)展基于全開(kāi)源數(shù)據(jù)和國(guó)產(chǎn)算力訓(xùn)練高水平全開(kāi)源大模型,并依托“中國(guó)算力網(wǎng)”,部署包括全開(kāi)源模型在內(nèi)的國(guó)產(chǎn)開(kāi)源模型,為千行百業(yè)提供開(kāi)源開(kāi)放的模型與算力支撐。
編輯:李華山