創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
巨額算力投入成為技術(shù)和效益優(yōu)化的瓶頸,技術(shù)路徑破局迫在眉 睫。從效益端看,基于 Transformer 架構(gòu)的模型在訓(xùn)練計(jì)算量(training FLOPs)達(dá)到一定量級(jí)時(shí),模型性能才出現(xiàn)向上的“拐點(diǎn)”,因此在 大模型訓(xùn)練任務(wù)中,算力成為必須的基礎(chǔ)性資源。但隨著模型越來 越大,算力成本越來越高,成本飆升源于模型復(fù)雜度和數(shù)據(jù)量攀升 對(duì)計(jì)算資源的需求。Anthropic 首席執(zhí)行官表示,三年內(nèi) AI 模型的 訓(xùn)練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓(xùn) 練投入一定程度減緩了技術(shù)進(jìn)步和效益提升,因此技術(shù)路徑破局尤 為關(guān)鍵。當(dāng)前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實(shí)踐。
MoE 框架是對(duì) Transformer 架構(gòu)的優(yōu)化,關(guān)鍵在于路由策略及微 調(diào)。其能在不給訓(xùn)練和推理階段引入過大計(jì)算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型語言模型(LLM)中,每個(gè) 混合專家(MoE)層的組成形式通常是𝑁個(gè)“專家網(wǎng)絡(luò)”搭配一個(gè)“門 控網(wǎng)絡(luò)”G。門控函數(shù)(也被稱路由函數(shù))是所有 MoE 架構(gòu)的基礎(chǔ) 組件,作用是協(xié)調(diào)使用專家計(jì)算以及組合各專家的輸出。根據(jù)對(duì)每 個(gè)輸入的處理方法,該門控可分為三種類型:稀疏式、密集式和 soft 式。其中稀疏式門控機(jī)制是激活部分專家,而密集式是激活所有專 家,soft 式則包括完全可微方法,包括輸入 token 融合和專家融合。
MoE 在 NLP、CV、語音識(shí)別以及機(jī)器人等領(lǐng)域表現(xiàn)出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果顯著。
OpenAI o1 基于“思維鏈”的創(chuàng)新推理模式,學(xué)會(huì)人類“慢思考”, 專業(yè)領(lǐng)域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于擁有人類“慢思考”的特質(zhì):系統(tǒng)性、邏輯性、批判性、 意識(shí)性。在響應(yīng)用戶提出的難題之前,OpenAI o1 會(huì)產(chǎn)生一個(gè)縝密 的內(nèi)部思維鏈,進(jìn)行長時(shí)間的思考,完善思考過程、意識(shí)邏輯錯(cuò)誤、 優(yōu)化使用策略、推理正確答案。這種深度思考能力在處理數(shù)學(xué)、編 程、代碼、優(yōu)化等高難度問題時(shí)發(fā)揮重要作用,能夠進(jìn)行博士級(jí)別 的科學(xué)問答,成為真正的通用推理。推理側(cè)的應(yīng)用模式創(chuàng)新有望在 更為專業(yè)的領(lǐng)域創(chuàng)造價(jià)值應(yīng)用,從通用的偏娛樂領(lǐng)域逐步過渡到偏 嚴(yán)肅的專業(yè)領(lǐng)域場(chǎng)景,AI 大模型的真正實(shí)踐價(jià)值有望進(jìn)一步釋放, 因此 o1 模型提供的新應(yīng)用范式和能力維度在大模型技術(shù)路線演繹 中,具有里程碑意義。
機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 紫外線消毒機(jī)器人 消毒機(jī)器人價(jià)格 展廳機(jī)器人 服務(wù)機(jī)器人底盤 核酸采樣機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |