女人性做爰100部免费|女人无遮挡裸交性做爰|女人裸体性做爰视频|一个上添B一个下添|一女三男做2爱A片免费

關(guān)于信息基礎(chǔ)設(shè)施的思考

孫凝暉

2025年2月20日

一、信息基礎(chǔ)設(shè)施的演變

基礎(chǔ)設(shè)施是人類社會發(fā)展的基石。人類社會經(jīng)歷了農(nóng)業(yè)時代、工業(yè)時代、信息時代,如今來到了智能時代,這四個時代分別孕育出了關(guān)鍵的基礎(chǔ)設(shè)施,滿足了人類對資源的基本需求,也反映出人類對資源進行抽象的能力(如圖1)。農(nóng)業(yè)時代孕育了交通基礎(chǔ)設(shè)施,集裝箱這個人造物成為實現(xiàn)貨物全球交通運輸?shù)年P(guān)鍵抽象;工業(yè)時代孕育了能源基礎(chǔ)設(shè)施,電力是人類發(fā)明的一種二次能源,作為標(biāo)準(zhǔn)化能源的抽象,成就了能源轉(zhuǎn)換、儲存、傳輸、使用的能源基礎(chǔ)設(shè)施;信息時代孕育了信息基礎(chǔ)設(shè)施,網(wǎng)頁作為數(shù)據(jù)的抽象,成為信息全球共享的主要載體。當(dāng)前智能時代無論是大數(shù)據(jù)、還是深度學(xué)習(xí)以及人工智能大模型,都是構(gòu)建在數(shù)據(jù)空間之上的,新的數(shù)據(jù)基礎(chǔ)設(shè)施正在形成過程中,其中數(shù)據(jù)流通、智能算力和AI模型與網(wǎng)絡(luò)基礎(chǔ)設(shè)施日益融合,將催生新的抽象。


圖1:關(guān)鍵基礎(chǔ)設(shè)施的演進圖

信息時代最大的變化是人類構(gòu)建了賽博空間(Cyberspace),它可以簡單地被看成一個三層架構(gòu)(如圖2)。第一層是計算機空間,其核心目標(biāo)是實現(xiàn)對計算設(shè)備的互聯(lián),以及對人類符號化數(shù)理知識的加工處理;第二層是信息空間,其核心目標(biāo)是實現(xiàn)對網(wǎng)頁的互聯(lián),以及對人類社會向網(wǎng)絡(luò)空間映射的各類數(shù)字化信息的加工處理;第三層是數(shù)據(jù)空間,其核心目標(biāo)是實現(xiàn)對以數(shù)據(jù)為核心的人工智能要素的互聯(lián),以及對數(shù)據(jù)進行分析、壓縮等深度加工以生成模型。

信息基礎(chǔ)設(shè)施是賽博空間中基礎(chǔ)的公共服務(wù)平臺。


圖2:賽博網(wǎng)絡(luò)空間的演進

第一層計算機空間的核心功能是對知識的加工處理(如圖3)。自20世紀60年代起,經(jīng)歷了四個階段。初始階段為大型計算機的互聯(lián);第二個階段是個人計算機的互聯(lián),個人計算機的普及促進了機與機之間的緊密聯(lián)系;第三個階段,智能手機的興起進一步推動了人與人之間的廣泛互聯(lián);在第四個階段,各種物端設(shè)備被納入互聯(lián)網(wǎng)絡(luò),實現(xiàn)了人、機、物的全面互聯(lián)。在計算機空間,信息處理的主要對象為人類符號化的數(shù)理知識,超級計算機作為加工知識的核心裝備,其基礎(chǔ)設(shè)施化就是網(wǎng)格計算。在計算機空間的發(fā)展初期,美國國防部的阿帕網(wǎng)(ARPANET)計劃成為率先推動者。


圖3:計算機空間

第二層信息空間的核心功能是對信息的加工處理(如圖4)。自20世紀80年代起,經(jīng)歷了三個階段,最初是網(wǎng)頁的靜態(tài)互聯(lián),隨后是信息流的動態(tài)連接,未來還要實現(xiàn)對元宇宙中數(shù)字人的連接,實現(xiàn)賽博空間中信息的無縫互聯(lián)互通。在信息空間,主要對象可以歸納為人類社會活動向數(shù)字空間的投影,數(shù)據(jù)中心計算機作為信息加工處理的核心裝備,其基礎(chǔ)設(shè)施化就是云計算的基礎(chǔ)設(shè)施。在信息空間的發(fā)展初期,美國的信息高速公路計劃是率先推動者。


圖4:信息空間

第三層數(shù)據(jù)空間的核心功能是模型的加工處理(如圖5)。自2010年起,大數(shù)據(jù)分析與機器學(xué)習(xí)技術(shù)使得數(shù)據(jù)的廣譜關(guān)聯(lián)成為可能,GPT大模型的出現(xiàn)則促進了算力的互聯(lián)互通,未來,隨著成千上萬模型的涌現(xiàn)和AGI通用人工智能的出現(xiàn),將實現(xiàn)模型與智能體間的廣泛連接。當(dāng)前,計算資源的進一步基礎(chǔ)設(shè)施化是算力網(wǎng),使得20世紀60年代超前提出的技術(shù)理念Utility Computing正逐漸變成現(xiàn)實。在數(shù)據(jù)空間的發(fā)展初期,中國在這一輪信息技術(shù)變革中沒有落后,人工智能2.0、東數(shù)西算工程、數(shù)據(jù)流通利用基礎(chǔ)設(shè)施等國家計劃,使得中國成為率先推動者。


圖5:數(shù)據(jù)空間

信息基礎(chǔ)設(shè)施的變化,主要在于智能三要素——算力、數(shù)據(jù)、算法的基礎(chǔ)設(shè)施化,以及對網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來的影響。下面從行動計劃、終端、超級入口、通信網(wǎng)絡(luò)、互聯(lián)網(wǎng)絡(luò)、計算、數(shù)據(jù)、電力等八個關(guān)鍵特征分析信息基礎(chǔ)設(shè)施的演變規(guī)律(如圖6)。

行動計劃。計算時代以“機”為中心,在ARPANET政府行動計劃的推動下,實現(xiàn)了計算機全球連接;互聯(lián)網(wǎng)時代以“人”為中心,在信息高速公路政府行動計劃的推動下,實現(xiàn)了信息資源全球共享;智能時代以“物和數(shù)”為中心,主要目標(biāo)是實現(xiàn)智能三要素即算力、算法和數(shù)據(jù)的公用事業(yè)化(utility)。計算所在2018年組建網(wǎng)絡(luò)計算創(chuàng)新研究院時,制定了信息高鐵計劃,有組織地開展這方面的科研工作,并在南京麒麟?yún)^(qū)建設(shè)了信息高鐵綜合試驗場。

終端。計算時代經(jīng)歷了從啞終端向個人計算機(PC)的轉(zhuǎn)變;互聯(lián)網(wǎng)時代則見證了從功能手機向智能手機的演進;智能時代的終端形態(tài)主要包括智能物端和具身計算機,其中智能硬件、可穿戴設(shè)備、VR設(shè)備等屬于智能物端,智能機器人、人形機器人、自主無人系統(tǒng)等屬于具身計算機。

超級入口。計算時代訪問信息基礎(chǔ)設(shè)施的主要入口是操作系統(tǒng);互聯(lián)網(wǎng)時代訪問信息基礎(chǔ)設(shè)施的主要入口是瀏覽器(browser)和移動應(yīng)用程序(APP);智能時代訪問信息基礎(chǔ)設(shè)施的新入口還沒有形成,智能體(Agent)可能是模型基礎(chǔ)設(shè)施的使用入口,模型工廠(AI Foundry)可能是算力和數(shù)據(jù)基礎(chǔ)設(shè)施的一種超級使用入口。

通信網(wǎng)絡(luò)。計算時代的通信基礎(chǔ)設(shè)施主要是光網(wǎng)絡(luò),提供了骨干級數(shù)據(jù)傳輸;互聯(lián)網(wǎng)時代的通信基礎(chǔ)設(shè)施主要是WiFi網(wǎng)和蜂窩通信網(wǎng),提供了終端的廣泛接入;智能時代的通信基礎(chǔ)設(shè)施主要目標(biāo)是物端的泛在連接,其中物聯(lián)網(wǎng)連接了多種多樣的傳感器,工業(yè)通信網(wǎng)提供了工業(yè)環(huán)境里有保障的連接,衛(wèi)星通信網(wǎng)則提供了地球空間范圍內(nèi)全覆蓋性連接,這些共同保障了信息系統(tǒng)對物理世界的全面感知與實時操縱。

互聯(lián)網(wǎng)絡(luò)。計算時代的計算機網(wǎng)絡(luò)以IP網(wǎng)絡(luò)為核心,技術(shù)策略是地址驅(qū)動;互聯(lián)網(wǎng)時代構(gòu)造了完整的全球互聯(lián)網(wǎng),技術(shù)策略是盡力而為,出現(xiàn)了域名服務(wù)、P2P網(wǎng)絡(luò)、CDN等眾多網(wǎng)絡(luò)基礎(chǔ)設(shè)施技術(shù);智能時代的網(wǎng)絡(luò)基礎(chǔ)設(shè)施還在發(fā)展過程中,確定與彈性傳輸?shù)募夹g(shù)策略逐漸成為共識,在網(wǎng)絡(luò)的控制面、策略面需要有新的路由機制?;ヂ?lián)網(wǎng)絡(luò)需要增加新的特性以適應(yīng)數(shù)據(jù)流通、分布式AI算法、算力服務(wù)化的需求。安全是一項伴生需求,在信息基礎(chǔ)設(shè)施的發(fā)展過程中,同步地發(fā)展出了網(wǎng)絡(luò)連接安全、信息內(nèi)容安全、智能算法安全等基礎(chǔ)設(shè)施。

計算。計算時代的算力中心是超算中心,它的公用事業(yè)化是網(wǎng)格計算;互聯(lián)網(wǎng)時代的算力中心是邊緣計算節(jié)點和互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC),它的公用事業(yè)化是公有云;智能時代的算力中心則變?yōu)橹撬阒行模懔Γǔ?、智算、通算)的全面公用事業(yè)化、服務(wù)化就是算力網(wǎng),云計算變成算力網(wǎng)中的一個算力站,算力網(wǎng)需要有新的全局命名機制,以及超越容器的新資源抽象(如任務(wù)閉包)。前兩個時期均未形成明確的基礎(chǔ)設(shè)施調(diào)度體系,直至智能時代出現(xiàn)了對全局調(diào)度中心的強烈需求,包括區(qū)域一體化算力網(wǎng)、全國一體化算力網(wǎng)的調(diào)度中心、以及算力與網(wǎng)絡(luò)、算力與電力、算力與數(shù)據(jù)、算力與模型等融合調(diào)度能力。

數(shù)據(jù)。計算時代沒有形成數(shù)據(jù)基礎(chǔ)設(shè)施,數(shù)據(jù)被結(jié)構(gòu)化抽象成文件、記錄后,組織成文件系統(tǒng)、數(shù)據(jù)庫和數(shù)據(jù)倉庫,在局域環(huán)境中被加工利用;互聯(lián)網(wǎng)時代誕生了萬維網(wǎng)這樣的數(shù)據(jù)基礎(chǔ)設(shè)施,數(shù)據(jù)被結(jié)構(gòu)化抽象成為網(wǎng)頁,組裝成網(wǎng)站,再通過WWW協(xié)議在廣域環(huán)境中關(guān)聯(lián)與加工利用,并誕生了如Web搜索引擎、推薦引擎這樣的超級網(wǎng)站,也是應(yīng)用層基礎(chǔ)設(shè)施。智能時代正在建立數(shù)據(jù)流通利用基礎(chǔ)設(shè)施,服務(wù)大數(shù)據(jù)分析、人工智能等新型應(yīng)用;文件、網(wǎng)頁、數(shù)據(jù)庫記錄等數(shù)據(jù)被結(jié)構(gòu)化抽象成數(shù)據(jù)件(Dateware),再通過數(shù)據(jù)工程組裝成數(shù)據(jù)場,數(shù)據(jù)場構(gòu)建于同一個組織內(nèi),權(quán)屬可以通過行政手段認定,在這里就可以被加工利用了;進一步,基于多種可信流通協(xié)議(如數(shù)聯(lián)網(wǎng)、IDS、數(shù)據(jù)登記、數(shù)據(jù)交易所)在開放環(huán)境中構(gòu)建可信數(shù)據(jù)空間,實現(xiàn)私域數(shù)據(jù)在公域環(huán)境中的共享復(fù)用、廣譜關(guān)聯(lián)與可信流通,進行深度加工利用。數(shù)據(jù)件的基本標(biāo)識可作為數(shù)據(jù)空間的全局命名信息。

模型是智能時代出現(xiàn)的一類新型數(shù)據(jù),未來將出現(xiàn)模型基礎(chǔ)設(shè)施,它是智能三要素中算法的公用事業(yè)化。隨著人工智能技術(shù)的發(fā)展,模型基礎(chǔ)設(shè)施從Hugging Face形式,演進至基礎(chǔ)大模型,再演進到模聯(lián)網(wǎng)。模聯(lián)網(wǎng)類似于企業(yè)信息化的SOAP等服務(wù)計算技術(shù),通過對模型的操作與互操作協(xié)議,將多種多樣的模型連接起來,為智能體等智能任務(wù)提供服務(wù)。

電力。前兩個時期電力基礎(chǔ)設(shè)施主要體現(xiàn)在UPS供電、風(fēng)冷、液冷、相變冷卻等機房基礎(chǔ)設(shè)施上;智能時代則催生了綠電直供,大幅降低電力成本。


圖6:信息基礎(chǔ)設(shè)施的演變

信息高鐵計劃設(shè)想的終極目標(biāo)是:在智能時代,信息基礎(chǔ)設(shè)施達到與工業(yè)時代的物流、電流、信息流等基礎(chǔ)設(shè)施相仿的低成本水平,大幅降低全社會在AI賦能的應(yīng)用層創(chuàng)新的門檻,使得全球發(fā)達經(jīng)濟體外的60億人能從中獲益。

當(dāng)前可以從以下八個方面,降低構(gòu)建信息基礎(chǔ)設(shè)施的成本:1)采用28-12nm成熟工藝制造芯片,相較于7-3nm先進工藝,成本降低了一個數(shù)量級,再通過芯粒集成技術(shù)彌補了芯片集成度的不足;2)推動開源芯片的廣泛使用,顯著降低了CPU和NPU處理器的設(shè)計成本,使得場景定制芯片的設(shè)計門檻大幅降低;3)推動開源軟件如操作系統(tǒng)、AI框架等的發(fā)展,顯著降低了智能系統(tǒng)軟件棧的成本;4)中國在通信與互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)方面已取得了低成本優(yōu)勢,當(dāng)前亟需提升其安全性與網(wǎng)絡(luò)彈性;5)推動數(shù)據(jù)要素化與數(shù)據(jù)流通利用技術(shù),有效降低了數(shù)據(jù)的全社會使用成本;6)推動區(qū)域一體化算力網(wǎng)、全國一體化算力網(wǎng)和模型工廠等全局共享技術(shù)的發(fā)展,顯著降低AI應(yīng)用的算力資源成本與人力資源成本;7)普及DeepSeek等開源的基礎(chǔ)大模型,性能與國際頂尖大模型相媲美,成本呈數(shù)量級降低,促進場景定制模型的普及,以及大模型推理的私有化部署;8)提高采用綠色電力的比例,使算力中心電價降低至化石能源的三分之一。

二、信息高鐵綜合試驗場

信息高鐵濃縮了我們對智能時代信息基礎(chǔ)設(shè)施的認知,建設(shè)信息高鐵綜合試驗場,對形成信息基礎(chǔ)設(shè)施的中國技術(shù)體系能起到十分重要的作用。這些年信息高鐵行動計劃的實踐為信息基礎(chǔ)設(shè)施增加了幾個新的技術(shù)特征:低熵高通量(算力)、全局調(diào)度、模型工廠(超級入口),并在信息高鐵綜合試驗場上進行了部署與驗證。

我國對自然科學(xué)領(lǐng)域服務(wù)科學(xué)發(fā)現(xiàn)的大科學(xué)裝置給予了高度重視,促進了基礎(chǔ)學(xué)科的繁榮發(fā)展,然而在技術(shù)發(fā)明領(lǐng)域的工程技術(shù)試驗平臺方面,長期缺乏足夠的關(guān)注。對比一下美國在這方面的布局情況,自2000年以來,美國持續(xù)構(gòu)建服務(wù)信息技術(shù)創(chuàng)新的試驗平臺,如emulab、CloudLab、GINI等,為原始性創(chuàng)新提供了豐富的土壤。歷史證明,美國通過前瞻性布局技術(shù)試驗平臺推動了美國在超級計算機、互聯(lián)網(wǎng)、云計算、網(wǎng)格計算、分布式計算、星鏈等技術(shù)上的領(lǐng)先。

信息高鐵綜合試驗場目前已經(jīng)部署了九大試驗場(如圖7),布局在算力層、網(wǎng)絡(luò)層、數(shù)據(jù)與應(yīng)用層,分別是:國產(chǎn)算力芯片試驗場、算力并網(wǎng)試驗場、空天地?zé)o線接入試驗場、CENI未來網(wǎng)絡(luò)試驗場、全國一體化算力網(wǎng)調(diào)度試驗場、端邊云低熵計算試驗場、合肥可信數(shù)據(jù)空間試驗場、模型工廠試驗場、鄭州/南京城市一體化算力網(wǎng)試驗場。


圖7:信息高鐵綜合試驗場布局

三、算力

為什么算力會在智能時代熱起來?簡單對比一下互聯(lián)網(wǎng)時代和智能時代的一個代表性應(yīng)用對算力的需求,可以得到答案。一次典型的用戶搜索,對計算資源的消耗在G量級(即10的9次方),而執(zhí)行一次典型的LLM推理,對計算資源的消耗則上升至T量級(即10的12次方)。由此可見,LLM推理過程對計算資源消耗相較于用戶搜索高出三個數(shù)量級,算力的重要性凸顯出來。對計算資源的顯著需求,成為制約人工智能技術(shù)普及到互聯(lián)網(wǎng)應(yīng)用那樣程度的關(guān)鍵因素。盡管DeepSeek顯著降低對計算資源的需求接近一個數(shù)量級,但相較于互聯(lián)網(wǎng)應(yīng)用,仍存在巨大差距。

算力的提法是借鑒電力,那么計算性能等同于算力嗎?我們對算力這個術(shù)語的內(nèi)涵,以及對應(yīng)的英文單詞Computility進行了闡述(見《中國計算機學(xué)會通訊》,2022年12月)。人們對計算能力的關(guān)注從早期單一的計算速度變到計算性能,關(guān)注的維度增加了,再演進到算力,內(nèi)涵更加豐富。算力的簡單理解是計算性能的通俗化表述(從算力產(chǎn)生的視角),其內(nèi)涵拓展為消耗計算資源產(chǎn)生效益的能力(從算力消耗的視角),其本質(zhì)是計算資源的共享與服務(wù)化。電力作為一種二次能源,由發(fā)電、輸電、變電、配電及用電等環(huán)節(jié)構(gòu)成了一個能源的生產(chǎn)與消費系統(tǒng)。類似地,算力也可視為計算資源的一種二次封裝,而算力網(wǎng)則是由算力站、算力并網(wǎng)、算網(wǎng)融合調(diào)度、算力任務(wù)編排、算力數(shù)據(jù)傳輸及算力終端等環(huán)節(jié),共同組成了計算資源的生產(chǎn)與消費系統(tǒng)。

計算成為算力需要核心三要素:計算二次封裝、算力基礎(chǔ)設(shè)施化、算力終端。

第一個核心要素,計算的二次封裝,涉及對計算資源、計算架構(gòu)、計算消耗的封裝技術(shù)。計算資源的封裝技術(shù)包括容器、任務(wù)閉包(task closure)、算力池等;計算架構(gòu)的封裝技術(shù)包括跨平臺虛擬機JVM、CVM等;計算消耗的封裝技術(shù)包括超算、智算、通算的算力單一計量方法(如BOPs),算力供給能力的量化單位(算力的“瓦”),用戶端算力消耗的量化單位(算力的“度”)。

算力網(wǎng)中計算的基本抽象將會發(fā)生哪些改變?如圖8所示,算力基本抽象包括原子化編排、資源空間管理、算力資源封裝三個層次,按照技術(shù)的演進,算力基本抽象從<線程,進程,CPU時間片>,發(fā)展到<微服務(wù),容器,虛擬機池>,再發(fā)展到<任務(wù)閉包,網(wǎng)程,算力池>。在IT 1.0的大型主機階段,并行與分布式應(yīng)用是在線程抽象的基礎(chǔ)上構(gòu)建,進程是對計算資源分配與調(diào)度的基本單元,可以跨CPU時間片運行;在IT 2.0的云計算階段,實現(xiàn)了計算能力的虛擬化,微服務(wù)是云原生應(yīng)用原子化編排的抽象,容器是對基礎(chǔ)軟硬件資源的封裝,云應(yīng)用可以跨虛擬機運行;在IT 3.0的算力網(wǎng)階段,對全網(wǎng)計算資源要用“一臺大電腦”的思想提供新的抽象,任務(wù)閉包可以在端邊云異構(gòu)平臺上流動和運行;網(wǎng)程是對端上的物理機、邊上的虛擬機、云上并網(wǎng)的算力池,進行統(tǒng)一封裝,形成一個智能應(yīng)用的私有資源空間;算力網(wǎng)上的異地、異屬、異構(gòu)的算力資源并網(wǎng)后,形成可一體化調(diào)度的算力池。


圖8:計算的基本抽象演變

第二個要素,算力基礎(chǔ)設(shè)施化,如圖9所示,類比于電力的源網(wǎng)儲荷,可以依次分解成四層:算力站、算力并網(wǎng)與算力數(shù)據(jù)輸運、算網(wǎng)融合調(diào)度與算力任務(wù)編排、算力終端。


圖9:算力基礎(chǔ)設(shè)施化結(jié)構(gòu)圖

第三個要素,算力終端,這部分還沒有收斂,使用算力的超級入口可能是AI4S模型工廠、AI終端、智能物端等。智能手機(移動終端)是云計算得以普及化的基石,同理,人工智能終端(算力終端)將成為算力服務(wù)普及化的基石。

四、數(shù)據(jù)空間

智能時代,數(shù)據(jù)發(fā)生了什么根本改變?

數(shù)據(jù)是一種客觀存在(being),一直都是信息技術(shù)的關(guān)鍵要素,在智能時代,它被賦予了資源要素與價值加工兩重新屬性。資源要素屬性是從經(jīng)濟學(xué)角度,強調(diào)作為經(jīng)濟要素數(shù)據(jù)的流通性,內(nèi)容涵蓋數(shù)據(jù)匯聚、處理、流通、應(yīng)用、運營、安全保障等多個方面(參考“數(shù)據(jù)20條”政策)。數(shù)據(jù)要素化是數(shù)據(jù)生命周期不斷外延的必然結(jié)果。如圖10所示,數(shù)據(jù)的生命周期逐漸從單個應(yīng)用,外延到組織,最終外延到整個社會。在第一個階段,數(shù)據(jù)存在于特定的業(yè)務(wù)信息系統(tǒng)的邊界內(nèi),產(chǎn)生了多種數(shù)據(jù)庫;到了第二個階段,數(shù)據(jù)需要在一個組織的企業(yè)信息系統(tǒng)的各個業(yè)務(wù)系統(tǒng)中共享流動,產(chǎn)生了數(shù)據(jù)倉庫、數(shù)據(jù)中臺技術(shù);到了第三個階段,數(shù)據(jù)存在于社會化信息系統(tǒng)中,需要最大范圍地共享與流動,產(chǎn)生了數(shù)字對象、數(shù)據(jù)登記與數(shù)據(jù)交易所、數(shù)據(jù)件等技術(shù)。


圖10:數(shù)據(jù)生命周期演化圖

價值加工屬性是從IT技術(shù)角度,強調(diào)對數(shù)據(jù)的深度加工與增值利用;智能大模型就是數(shù)據(jù)的百煉成鋼,數(shù)據(jù)加工的需求涉及加工組件(如數(shù)據(jù)標(biāo)注、數(shù)據(jù)件)、加工工藝(如廣譜關(guān)聯(lián)分析、深度學(xué)習(xí)算法)、加工動力(如算力網(wǎng))等。

兩個屬性由此催生了新的技術(shù)體系,在數(shù)據(jù)“供得出”方面催生了物聯(lián)網(wǎng)(數(shù)據(jù)獲?。?、數(shù)據(jù)標(biāo)注等;在數(shù)據(jù)“流得動”方面催生了數(shù)聯(lián)網(wǎng)、可信數(shù)據(jù)空間等;在數(shù)據(jù)“用得好”方面催生了數(shù)據(jù)件與數(shù)據(jù)場、AI-ready數(shù)據(jù)工程等。

在智能時代,數(shù)據(jù)的組織、流通、使用都發(fā)生了改變。

首先,智能時代數(shù)據(jù)是如何被組織起來的?不同時代的數(shù)據(jù)組織體系如圖11所示。在計算時代,數(shù)據(jù)被抽象成文件,組織成文件系統(tǒng),在網(wǎng)絡(luò)文件系統(tǒng)中實現(xiàn)共享。在網(wǎng)絡(luò)時代,數(shù)據(jù)被抽象成網(wǎng)頁,組織成網(wǎng)站,海量網(wǎng)頁被搜索和推薦引擎進一步重構(gòu)成信息流,最終在萬維網(wǎng)中實現(xiàn)了信息的全球共享。在智能時代,我們的構(gòu)想是將數(shù)據(jù)件定義為數(shù)據(jù)的最小抽象單元,類似于鋼鐵加工中的鑄件,它是鐵礦石經(jīng)過粗加工后形成標(biāo)準(zhǔn)化產(chǎn)品;數(shù)據(jù)場是數(shù)據(jù)件匯集的組織形式,在數(shù)據(jù)場中可以便利地進行數(shù)據(jù)深加工;在此基礎(chǔ)上構(gòu)建可信數(shù)據(jù)空間,支持在廣域范圍內(nèi)進行私域數(shù)據(jù)的流通利用;在更高的監(jiān)管層,形成國家數(shù)據(jù)空間,在此需要考慮體現(xiàn)出國家主權(quán)屬性,如管轄權(quán)與治理權(quán);進一步構(gòu)建國際數(shù)據(jù)空間,依據(jù)國際社會形成的規(guī)范,實現(xiàn)數(shù)據(jù)的跨境流動。


圖11:不同時代數(shù)據(jù)體系的構(gòu)成

如圖12所示,對比分析了國家主權(quán)屬性在網(wǎng)絡(luò)空間與數(shù)據(jù)空間的不同體現(xiàn)。在對外防衛(wèi)方面,網(wǎng)絡(luò)空間需要網(wǎng)絡(luò)關(guān)防系統(tǒng),數(shù)據(jù)空間需要數(shù)據(jù)跨境流通關(guān)防系統(tǒng)。對內(nèi)治理可分成物理層、邏輯層以及內(nèi)容層。在物理層,網(wǎng)絡(luò)空間涉及網(wǎng)絡(luò)基礎(chǔ)設(shè)施的建設(shè)與運營,數(shù)據(jù)空間則關(guān)注數(shù)據(jù)樞紐、行業(yè)數(shù)倉等數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)與運營;在邏輯層,網(wǎng)絡(luò)空間國家承擔(dān)了IP地址分配、網(wǎng)站備案等管理職責(zé),數(shù)據(jù)空間則涵蓋了數(shù)據(jù)登記、數(shù)據(jù)交易所、戰(zhàn)略數(shù)據(jù)儲備等管理職能;在內(nèi)容層,網(wǎng)絡(luò)空間國家負責(zé)互聯(lián)網(wǎng)內(nèi)容的監(jiān)管,數(shù)據(jù)空間則著重于數(shù)據(jù)安全的治理,如基礎(chǔ)大模型預(yù)訓(xùn)練數(shù)據(jù)的安全治理。


圖12:國家主權(quán)屬性:網(wǎng)絡(luò)空間 vs 數(shù)據(jù)空間

其次,智能時代的數(shù)據(jù)是如何流通利用的?相比于互聯(lián)網(wǎng)時代的信息全球共享,智能時代的數(shù)據(jù)流通更加關(guān)注可信與價值釋放模式。用于數(shù)據(jù)流通的可信數(shù)據(jù)空間應(yīng)歸納成若干基本型,其定義可由<基本單元、空間結(jié)構(gòu)、價值釋放模式>三個維度進行界定。類比地,原子場、電磁場、引力場等物理場由<基本粒子或物體、力的相互作用、運動規(guī)律>三個維度界定了基本型??尚艛?shù)據(jù)空間分為四個基本型,分別是:互聯(lián)互操作型、可用不可見型、可信交換型、聚合加工型。

第一種類型為互聯(lián)互操作型(如圖13),其典型技術(shù)體系為數(shù)聯(lián)網(wǎng),可用<數(shù)據(jù)對象、數(shù)聯(lián)網(wǎng)協(xié)議、Web信息流通模式>三元組歸納,該體系的核心思想是通過數(shù)據(jù)的相互聯(lián)結(jié)、相互操作,實現(xiàn)數(shù)據(jù)價值的釋放。第二種類型為可用不可見型(如圖14),其典型技術(shù)體系為數(shù)據(jù)金庫,可用<數(shù)據(jù)元件、數(shù)據(jù)金庫、銀行資金流通模式>三元組歸納,該體系的核心思想是通過集中式監(jiān)管,實現(xiàn)對高價值數(shù)據(jù)的控制,支持數(shù)據(jù)的可用不可見。第三種類型為可信交換型(如圖15),其典型技術(shù)體系為IDS,可用<數(shù)據(jù)集、IDS連接器、土地/房屋流通模式>三元組歸納,該體系的核心思想是通過一個具有公信力的組織或協(xié)會,實現(xiàn)數(shù)據(jù)的可信交換,數(shù)據(jù)交易所也屬于這種類型。第四種類型為聚合加工型(如圖16),其典型技術(shù)體系為數(shù)場,可用<數(shù)據(jù)件、數(shù)據(jù)場、圖書館知識流通模式>三元組歸納,該體系的核心思想是數(shù)據(jù)加工方主導(dǎo)數(shù)據(jù)流通,以類似于網(wǎng)絡(luò)主播的商業(yè)模式實現(xiàn)廣域范圍內(nèi)數(shù)據(jù)的有序匯聚,支撐數(shù)據(jù)的深加工。


圖13:互聯(lián)互操作型


圖14:可用不可見型


圖15:可信交換型


圖16:聚合加工型

智能時代數(shù)據(jù)的使用方式主要是機器學(xué)習(xí)與大模型訓(xùn)練,需要發(fā)明一套數(shù)據(jù)件系統(tǒng)將原始數(shù)據(jù)變成AI-ready數(shù)據(jù)。數(shù)據(jù)件(Dataware)是數(shù)據(jù)流動與使用的基本單位,通過對異質(zhì)多源數(shù)據(jù)的語義、結(jié)構(gòu)、基本操作等進行標(biāo)準(zhǔn)化封裝,使得數(shù)據(jù)本體與數(shù)據(jù)主體、數(shù)據(jù)應(yīng)用“解耦”,讓數(shù)據(jù)在不同使用主體、不同應(yīng)用系統(tǒng)間可信流轉(zhuǎn)。在云計算中,容器(docker)是對應(yīng)用程序及其資源依賴的封裝,讓算法可以在不同平臺上一鍵運行,同理,數(shù)據(jù)件讓數(shù)據(jù)可以在不同的機器學(xué)習(xí)平臺上被方便地加工利用(如圖17)。


圖17:容器(docker)和數(shù)據(jù)件(Dataware)

以AI大模型精調(diào)場景為例,通過數(shù)據(jù)件構(gòu)造IDE實現(xiàn)預(yù)訓(xùn)練、指令微調(diào)、向量數(shù)據(jù)件的快速構(gòu)造與組裝,被大模型訓(xùn)練直接調(diào)用,可大幅簡化傳統(tǒng)數(shù)據(jù)工程的工作量(如圖18)。


圖18:AI-ready數(shù)據(jù)件組裝工具

五、模型工廠

智能體(Agent)是模型基礎(chǔ)設(shè)施的使用入口,模型工廠(AI Foundry)則是使用算力和數(shù)據(jù)基礎(chǔ)設(shè)施來加工模型、部署智能應(yīng)用的超級入口。

DeepMind公司研制的AlphaFold系列軟件,在已經(jīng)研究了70年的“蛋白質(zhì)折疊”問題上,作出了突破性貢獻,其領(lǐng)導(dǎo)者Hassabis 和 Jumper獲得了2024年的諾貝爾化學(xué)獎。AlphaFold的獲獎代表了科研范式的重大改變,是融合大模型、大算力、大數(shù)據(jù)、大團隊服務(wù)科學(xué)研究的典范。那么,在科研領(lǐng)域如何支撐起成千上萬個AlphaFold-Like團隊呢?AI賦能行業(yè)應(yīng)用如何達到互聯(lián)網(wǎng)賦能那樣的普及程度?這就需要為智能時代信息基礎(chǔ)設(shè)施提供一個使用算力、算法、數(shù)據(jù)來加工模型的低門檻通用入口,模型工廠就是這樣的一個平臺。

模型工廠概念的提出借鑒了芯片代工廠在集成電路產(chǎn)業(yè)的定位與功能。芯片產(chǎn)業(yè)模式的變遷如圖19所示,它從設(shè)計-制造一體化模式,演變到無制造廠(Fabless)模式(即Foundry),再演變到今天的集成芯片模式。其中,F(xiàn)oundry即芯片代工廠的意思,為芯片設(shè)計的普及起到了關(guān)鍵作用,促使了英偉達、高通等芯片企業(yè)的崛起。借鑒芯片產(chǎn)業(yè),大模型的開發(fā)也可以分割成兩個生態(tài):場景與業(yè)務(wù)相關(guān)的大模型設(shè)計生態(tài),和智能計算技術(shù)相關(guān)的大模型代工廠生態(tài)。


圖19:芯片產(chǎn)業(yè)模式的變遷

在當(dāng)前人工智能產(chǎn)業(yè)中,設(shè)計-制造一體化的IDM模式占據(jù)主導(dǎo)地位,國家與地方政府提供的大模型訓(xùn)練基礎(chǔ)設(shè)施仍處于算力供應(yīng)的初級階段,商湯AI云、百度千帆等平臺正逐步向大模型代工廠的角色邁進。當(dāng)人工智能產(chǎn)業(yè)孕育出類似于芯片領(lǐng)域臺積電、中興國際這樣的代工企業(yè)時,將催生出眾多專注于大模型設(shè)計的創(chuàng)新型企業(yè),專注于用好大模型的行業(yè)應(yīng)用也會更加繁榮。相較于IDM企業(yè),芯片代工廠擁有各自獨特的優(yōu)勢,例如豐富的IP資源、多類型且極致優(yōu)化的生產(chǎn)線、物理設(shè)計服務(wù)、制造產(chǎn)能、成品率等。同理,每個大模型代工廠也需構(gòu)建自身的競爭優(yōu)勢,例如數(shù)據(jù)AI-ready能力、高效訓(xùn)練或推理流水線、彈性或輕量化部署能力、智算中心的性價比、算力網(wǎng)調(diào)度能力、豐富的Build-in模型庫、開源模型儲備庫等(如圖20)。國家數(shù)據(jù)流通利用基礎(chǔ)設(shè)施在這個生態(tài)中可以起到為各行各業(yè)提供大模型代工所需的基礎(chǔ)材料的作用。


圖20:芯片代工與大模型代工

模型工廠的參考架構(gòu)如圖21所示,算力網(wǎng)是基礎(chǔ)底座,功能區(qū)主要包括AI-ready數(shù)據(jù)件、AI訓(xùn)推平臺、模型集市、智能應(yīng)用等。圖22給出了AI4S模型工廠更細化的架構(gòu),底層是模型、數(shù)據(jù)、算力三個基礎(chǔ)設(shè)施,中間開發(fā)環(huán)境層包括五條AI生產(chǎn)流水線,上層是科學(xué)智能的三類用戶接口。目前,AI4S模型工廠系統(tǒng)已經(jīng)開發(fā)了七個子系統(tǒng),包括:AI-ready數(shù)據(jù)件、高效訓(xùn)推平臺、基于算力統(tǒng)一度量的算力優(yōu)選、模型集市、算力網(wǎng)云函數(shù)開發(fā)平臺、多智能體開發(fā)框架、智能應(yīng)用服務(wù)平臺。


圖21:模型工廠的參考架構(gòu)


圖22:AI4S模型工廠架構(gòu)

六、智能計算機

智能時代的終端包括智能硬件、可穿戴設(shè)備、VR設(shè)備等智能物端,智能機器人、人形機器人、自主無人系統(tǒng)等具身計算機,以及位于云端的智能超算,它們可以統(tǒng)稱為智能計算機。

智能計算包含三個緊密耦合的核心要素:人工智能范式、核心智能應(yīng)用、智能計算架構(gòu)。歸納總結(jié)一下智能計算機的發(fā)展規(guī)律,在人工智能發(fā)展的初期(AI 1.0),符號主義范式占據(jù)主導(dǎo)地位,應(yīng)用以專家系統(tǒng)為代表,曙光高性能計算機(HPC)是計算架構(gòu)上的代表性成果,數(shù)值計算、數(shù)理邏輯和數(shù)據(jù)庫等傳統(tǒng)應(yīng)用亦可視為屬于符號主義技術(shù)路線。深度神經(jīng)元網(wǎng)絡(luò)出現(xiàn)后,連接主義范式成為主流(AI 2.0),深度學(xué)習(xí)與大語言模型成為核心應(yīng)用,寒武紀神經(jīng)網(wǎng)絡(luò)處理器(NPU)是智能計算架構(gòu)上的代表性成果。未來,當(dāng)AGI來臨時(AI 3.0),智能計算的核心要素三元組該如何演變呢?我們猜測,行為主義范式可能成為主要特征,具身智能應(yīng)用與科學(xué)發(fā)現(xiàn)的智能范式將成為應(yīng)用焦點,機器記憶機有望成為智能計算架構(gòu)上的代表性成果。

李德毅院士在他的《認知機器如何創(chuàng)造》一書中提出了機器認知的四種基本模式(如圖23),他認為:“在人類歷史長河中,使用較多的是記憶驅(qū)動的經(jīng)驗?zāi)J剑∣OA),當(dāng)人們對事物有了一定的認知,就能夠運用知識對事物作出判斷和推理,即運用知識驅(qū)動的推理模式(OODA),解決實際問題。人類的高級智能活動,無論是創(chuàng)造還是發(fā)現(xiàn),都需要聯(lián)想驅(qū)動的創(chuàng)造模式(OOCA)和假設(shè)驅(qū)動的發(fā)現(xiàn)模式(OOHA),這也是社會不斷前進的真正動力。人類記憶是四種模式的共同交集?!?/p>


圖23:機器認知的四種基本模式

再看一下人類是如何產(chǎn)生和加工記憶的。人類的記憶(memory)是一種信息加工系統(tǒng),它對信息進行編碼(encoding)、存儲(storage)和提取(retrieval),記憶是形成人們的思維和行為的原料。Richard Atkinson與Richard Schiffrin率先提出記憶的三階段模型,將記憶過程劃分為三個主要階段:感覺記憶(持續(xù)數(shù)秒)、工作記憶(持續(xù)20至30秒)以及長時記憶(長期)。信息都必須先經(jīng)過感覺記憶和工作記憶的加工,最終進入長時記憶。工作記憶在這一模型中扮演著至關(guān)重要的角色,它負責(zé)信息的臨時處理和操縱。從心理學(xué)的視角,Transformer模型正是基于對工作記憶機制的模仿與借鑒。

對人類來說,記憶是十分重要的智能,沒有機器記憶,恐怕也很難創(chuàng)造出通用人工智能(AGI)。大模型只為AI提供了以“概念、常識和事實”為主的語義記憶(知識),完全不具備具身體驗型記憶。為此,需要研究機器記憶機制,基于腦科學(xué)關(guān)于感覺記憶、工作記憶和長時記憶的三階段記憶模型,針對程序性記憶、時空情景記憶、情感記憶和社會記憶等具身型記憶,構(gòu)建記憶編碼、存儲和提取的計算模型,實現(xiàn)智能體的自主學(xué)習(xí)和持續(xù)發(fā)展。機器記憶系統(tǒng)通過積累與整合其與物理世界的交互經(jīng)驗,形成動態(tài)可擴展的世界模型和認知智能模型。

我們提出一個猜想,未來將會發(fā)明一種行為主義通用計算機——機器記憶機(如圖24)。符號主義下的通用計算機就是傳統(tǒng)計算機,也可以稱之為布爾代數(shù)機,其核心組件是CPU和存儲體;連接主義下的通用計算機就是機器學(xué)習(xí)機,其核心組件是GPU和模型庫;那么行為主義下的通用計算機就是機器記憶機,其核心組件可能是PIM(Processor in Memory)和記憶體。PIM能夠直接對內(nèi)存中的數(shù)據(jù)進行原位處理,無需將數(shù)據(jù)頻繁地傳輸?shù)紺PU進行處理,它結(jié)合新型存儲器件,可實現(xiàn)數(shù)據(jù)的即時存儲和即時處理,為智能計算機的發(fā)展帶來革命性的突破。


圖24:機器智能的通用計算機

圖25給出一種具身計算機(EC)的參考架構(gòu),主要思想是基于不同的存儲器件支持不同階段的記憶模型,形成一個高效的OODA智能處理流程,并且將符號主義、連接主義、行為主義的技術(shù)路線緊耦合起來。智能流的輸入是傳感器,輸出是執(zhí)行器。在認知的OODA環(huán)中,物理感知小模型負責(zé)處理短期記憶任務(wù)(Observe),深度學(xué)習(xí)大模型承擔(dān)工作記憶的處理(Orient),場景知識提取機制專注于長期記憶的管理(Decide),復(fù)雜運動控制則通過定制硬件操作PLC庫實現(xiàn)(Act)。在通用CPU/GPU分區(qū)則運行智能體、數(shù)理邏輯、數(shù)值計算、數(shù)據(jù)庫這些基于嚴格的數(shù)學(xué)符號表達的應(yīng)用。


圖25:具身計算機參考架構(gòu)

最后,討論一下對科研發(fā)現(xiàn)的智能范式(第五范式)的認識,它將影響Z級智能超算的技術(shù)路線。

我們將科學(xué)發(fā)現(xiàn)的五種范式統(tǒng)一到以信息流為流通媒介的OOHV范式上(如圖26)。在觀測階段(Observe),通過觀測儀器進行數(shù)據(jù)采集;在模擬階段(Orient),借助數(shù)值計算與大數(shù)據(jù)分析技術(shù)進行數(shù)據(jù)處理;在猜想階段(Hypothesis),依托科學(xué)家的專業(yè)知識與科學(xué)理論進行假設(shè)構(gòu)建;在實驗階段(Verify),則利用科學(xué)裝置進行實驗驗證。從信息科學(xué)的視角看,科學(xué)發(fā)現(xiàn)的過程就是OOHV不斷循環(huán)交換信息的過程。不同的科學(xué)范式,就是從不同的切入點進入OOHV循環(huán),科學(xué)實驗范式從O1或V進入循環(huán),科學(xué)理論范式從H進入循環(huán),科學(xué)計算范式和科學(xué)數(shù)據(jù)范式從O2進入循環(huán),分別利用數(shù)值計算和大數(shù)據(jù)分析輔助科學(xué)發(fā)現(xiàn),而在每個環(huán)節(jié)都利用到了信息技術(shù)。第五種科學(xué)研究范式——科學(xué)智能范式,就是通過人工智能技術(shù)賦能OOHV的每個環(huán)節(jié),主要用到的AI技術(shù)包括:科學(xué)數(shù)據(jù)機器學(xué)習(xí)、HPC+AI計算、科學(xué)猜想大語言模型、具身智能等。


圖26:科學(xué)智能范式

AI賦能高度依賴訓(xùn)練數(shù)據(jù),AI4S在OOHV的不同階段的數(shù)據(jù)來源與AI技術(shù)挑戰(zhàn)如圖27所示。在觀測階段(O1),從不同學(xué)科的觀察儀器獲取的觀測數(shù)據(jù),由AI模型處理,給科研人員使用,技術(shù)挑戰(zhàn)是AI模型要跟物理性質(zhì)錨定;在模擬階段(O2),訓(xùn)練數(shù)據(jù)是由數(shù)值計算算法生成的,構(gòu)建AI模型的難點是對高階函數(shù)的擬合,AI模型嵌入到HPC程序中;在猜想階段(H),結(jié)合學(xué)科知識與行業(yè)手冊構(gòu)建大型語言模型,由科研人員進行推理,技術(shù)挑戰(zhàn)是強邏輯鏈,不能出現(xiàn)幻覺;在實驗階段(V),從不同專業(yè)的實驗裝置獲取的傳感數(shù)據(jù),由AI模型處理,給控制系統(tǒng)使用,技術(shù)挑戰(zhàn)是AI模型要跟數(shù)學(xué)控制模型耦合。


圖27:科學(xué)智能的數(shù)據(jù)來源? ?

(根據(jù)孫凝暉院士在2025年計算所春季戰(zhàn)略規(guī)劃會上的報告整理)

附件:
山阳县| 遂川县| 靖江市| 府谷县| 沙坪坝区| 西峡县| 丽江市| 临邑县| 芒康县| 萨迦县| 太原市| 县级市| 龙口市| 军事| 山阴县| 城市| 曲周县| 普陀区| 栖霞市| 穆棱市| 望江县| 四平市| 五大连池市| 东宁县| 鄂尔多斯市| 龙口市| 明水县| 墨江| 工布江达县| 大竹县| 福州市| 中西区| 聊城市| 吴忠市| 泉州市| 大英县| 黄平县| 阜阳市| 隆子县| 万荣县| 孟连|