人工智能在今天得 IT 行業(yè)中可謂無(wú)處不在。如何將軟件技術(shù)和人工智能結(jié)合,是行業(yè)當(dāng)下得一個(gè)研究熱點(diǎn)和發(fā)展方向。同時(shí),人工智能得發(fā)展與開(kāi)源事業(yè)是分不開(kāi)得,中國(guó)已經(jīng)將推動(dòng)開(kāi)源產(chǎn)業(yè)作為China戰(zhàn)略得一部分,也希望通過(guò)開(kāi)源社區(qū)來(lái)推動(dòng)人工智能技術(shù)向前發(fā)展。
2022 年春節(jié)后,InfoQ《極客有約》得第壹期節(jié)目邀請(qǐng)到了 OpenI 啟智社區(qū)運(yùn)營(yíng)中心主任,CCF 開(kāi)源發(fā)展常務(wù)委員余躍老師,就“AI 開(kāi)源創(chuàng)新得發(fā)展與探索”這一主題做了干貨滿滿得分享。余老師師從我國(guó)軟件領(lǐng)域很好可能王懷民院士,畢業(yè)后一直從事開(kāi)源軟件相關(guān)得科研工作,對(duì)軟件工程、云計(jì)算、人工智能和開(kāi)源產(chǎn)業(yè)都有長(zhǎng)期感謝對(duì)創(chuàng)作者的支持和深入理解。本期訪談,余老師結(jié)合他豐富得經(jīng)歷和思考,對(duì)人工智能開(kāi)源創(chuàng)新事業(yè)得現(xiàn)在和未來(lái)進(jìn)行了分析與展望。
OpenI 啟智社區(qū)介紹啟智社區(qū)是在China實(shí)施新一代人工智能發(fā)展戰(zhàn)略得大背景,以及十四五期間開(kāi)源成為China戰(zhàn)略得背景下誕生得。它是由科技部新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟牽頭,聯(lián)合鵬城實(shí)驗(yàn)室、國(guó)防科技大學(xué)、北京大學(xué)、北京航空航天大學(xué),以及華為、百度曠視等人工智能領(lǐng)域比較有影響力得產(chǎn)學(xué)研用單位和企業(yè),發(fā)起得一個(gè)開(kāi)源公益組織,希望通過(guò)開(kāi)源得力量推進(jìn)China得人工智能技術(shù)發(fā)展。
OpenI 是一個(gè)開(kāi)源社區(qū),希望培育高水平得開(kāi)源技術(shù),匯聚China從事開(kāi)源項(xiàng)目得開(kāi)發(fā)者和各個(gè)單位得力量。同時(shí),通過(guò)社區(qū)也希望建立一個(gè)技術(shù)體系,從底層得芯片到系統(tǒng)軟件、計(jì)算框架、智能算法與模型,以及模型得配套工具與應(yīng)用,進(jìn)而覆蓋較為完備得人工智能技術(shù)棧。
人工智能創(chuàng)新道路上面臨得挑戰(zhàn)今天得人工智能面臨許多挑戰(zhàn)。首先,人工智能正在從早期得單點(diǎn)型技術(shù)慢慢走向通用化,演變成基礎(chǔ)設(shè)施類技術(shù),從而產(chǎn)生各種各樣得問(wèn)題。從軟件得視角來(lái)講,人工智能和普通得應(yīng)用結(jié)合起來(lái)后,會(huì)變成復(fù)雜得、智能化得軟件系統(tǒng)。它可能比傳統(tǒng)得軟件系統(tǒng)更復(fù)雜,因?yàn)閭鹘y(tǒng)軟件是基于確定性得組合,而目前人工智能模型以黑盒子為主,可解釋性比較差。模型和模型之間、模型和代碼之間,相當(dāng)于確定性和非確定性之間組合起來(lái),復(fù)雜程度就會(huì)高很多。
從智能得視角來(lái)講,因?yàn)閿?shù)據(jù)量在持續(xù)變大,所以怎樣讓模型具有終身學(xué)習(xí)、持續(xù)學(xué)習(xí)得能力,將模型技術(shù)和大數(shù)據(jù)結(jié)合起來(lái),讓模型自己成長(zhǎng)演化,同樣是一大挑戰(zhàn)。
此外,不管是軟件還是智能得視角下,一旦人加入到這個(gè)空間當(dāng)中,人工智能和人機(jī)協(xié)作就會(huì)變得極其復(fù)雜。在重點(diǎn)應(yīng)用中,這種人機(jī)協(xié)同得人工智能構(gòu)造與保障技術(shù)就會(huì)顯得極其重要。
關(guān)于人機(jī)協(xié)作,首先人工智能是要服務(wù)于人得各種需求。智能模型參與到人類活動(dòng)中后,人類會(huì)給模型一定得反饋,這樣得反饋如何被納入到模型學(xué)習(xí)得過(guò)程當(dāng)中,是需要模型自己來(lái)調(diào)整。行業(yè)內(nèi)一個(gè)很有趣得項(xiàng)目叫終身學(xué)習(xí)機(jī)器,希望讓機(jī)器學(xué)習(xí)技術(shù)以機(jī)器人得形式獲得邊學(xué)邊做得能力,不斷提升自身水平。這里涉及到一系列相關(guān)技術(shù),比如模型在升級(jí)以后,通過(guò)什么樣得數(shù)據(jù)重新訓(xùn)練可以增強(qiáng)它得能力,如果不能增強(qiáng)能力又該怎么評(píng)判、怎么回退、怎么去做版本管理等等。另外,如果模型本身越來(lái)越大,就要做剪枝壓縮,方便在不同得平臺(tái)上部署??偠灾P偷媚芰?yīng)該是可演化得,這里有一些具體得問(wèn)題要探索。
從目前得行業(yè)發(fā)展來(lái)看,小模型相比大模型更加適合人工智能得行業(yè)應(yīng)用。因?yàn)樾∧P筒渴鹌饋?lái)更簡(jiǎn)單,不像大模型那樣需要大量得剪枝與壓縮得成本。大模型在通用任務(wù)上可能會(huì)有更好得表現(xiàn),所以未來(lái)大模型可能會(huì)更多扮演指導(dǎo)者角色,指導(dǎo)下游得小模型應(yīng)用。未來(lái)大模型可能會(huì)更多發(fā)揮基礎(chǔ)設(shè)施得作用,而較為節(jié)省資源得小模型則會(huì)在應(yīng)用領(lǐng)域創(chuàng)造價(jià)值。
開(kāi)源社區(qū)對(duì)人工智能發(fā)展創(chuàng)新得意義和幫助今天得人工智能技術(shù)更多是黑盒得形式,因此開(kāi)源首先是能夠帶來(lái)更好得安全性。其次,一項(xiàng)技術(shù)開(kāi)源之后往往會(huì)有意想不到得場(chǎng)景應(yīng)用,比如說(shuō)火藥當(dāng)初是由煉丹師發(fā)明得,宋代用在煙花表演,后來(lái)逐漸在軍事、工業(yè)等多種場(chǎng)景下應(yīng)用。其實(shí)開(kāi)源對(duì)于技術(shù)得促進(jìn)作用正是加速了應(yīng)用場(chǎng)景得豐富和快速演變,整個(gè)技術(shù)得發(fā)展方向可能會(huì)因?yàn)殚_(kāi)源而完全改變。開(kāi)源也是建立生態(tài)得必要途徑,通過(guò)開(kāi)源開(kāi)放,可以吸引更多開(kāi)發(fā)者參與到生態(tài)建設(shè)當(dāng)中。
我國(guó)得人工智能底層技術(shù)相對(duì)來(lái)說(shuō)根基比較薄弱,例如計(jì)算框架、芯片驅(qū)動(dòng)、來(lái)自互聯(lián)網(wǎng)算法等等都缺乏成熟和流行得成果。我國(guó)在這一領(lǐng)域得研究主要集中在場(chǎng)景實(shí)現(xiàn)層面,更多是短平快見(jiàn)效得技術(shù)。在基礎(chǔ)研究領(lǐng)域,國(guó)內(nèi)缺少一些長(zhǎng)期投入和創(chuàng)新,需要China和行業(yè)共同努力來(lái)改變現(xiàn)狀。
OpenI 啟智社區(qū)得初衷,就是通過(guò)建設(shè)我國(guó)自主得開(kāi)源社區(qū),幫助國(guó)內(nèi)人工智能產(chǎn)業(yè)走上全面發(fā)展和創(chuàng)新得道路。從技術(shù)層面來(lái)講,啟智社區(qū)會(huì)服務(wù)開(kāi)發(fā)者做一些工具,嘗試將軟件工程得一些工具和能力通用化,變成平臺(tái)類得技術(shù),打造更好得開(kāi)發(fā)環(huán)境。在運(yùn)營(yíng)層面,社區(qū)則希望通過(guò)大量投入來(lái)發(fā)掘China得開(kāi)源力量。比如說(shuō)啟智社區(qū)有一個(gè)啟夢(mèng)行動(dòng),通過(guò)科技部重點(diǎn)專項(xiàng)資金激勵(lì)開(kāi)發(fā)者,對(duì)真正為開(kāi)源技術(shù)有貢獻(xiàn)得啟智開(kāi)發(fā)者承諾三年不低于一千萬(wàn)得資金支持。社區(qū)也通過(guò)一些大賽來(lái)培育相關(guān)技術(shù),比如說(shuō)每一年鵬城實(shí)驗(yàn)室得全國(guó)人工智能大賽都有一百萬(wàn)獎(jiǎng)金,希望鼓勵(lì)開(kāi)發(fā)者去解決一些實(shí)際得問(wèn)題。在生態(tài)層面,社區(qū)希望合作伙伴得一些技術(shù)能服務(wù)到開(kāi)發(fā)者,開(kāi)發(fā)者也能參與到他們得項(xiàng)目當(dāng)中。比如說(shuō)社區(qū)跟 Linux 基金會(huì)有非常深度得合作,希望啟智孵化得一些項(xiàng)目未來(lái)能得到 Linux 基金會(huì)認(rèn)可。
啟智社區(qū)為開(kāi)發(fā)者提供得資源對(duì)于人工智能行業(yè)得個(gè)人開(kāi)發(fā)者與初創(chuàng)企業(yè)來(lái)說(shuō),他們面臨得蕞大挑戰(zhàn)往往是難以獲取學(xué)習(xí)、研究和開(kāi)發(fā)人工智能技術(shù)所需得各類資源,包括基礎(chǔ)設(shè)施、算力、數(shù)據(jù)、實(shí)驗(yàn)環(huán)境、運(yùn)營(yíng)資源等等。為此,啟智社區(qū)希望搭建一個(gè)高水平得平臺(tái)和技術(shù)體系,在此基礎(chǔ)上在底層提供公益性得開(kāi)放資源供公眾使用。一方面,這樣得支持可以促進(jìn)China人工智能生態(tài)得建設(shè);另一方面,平臺(tái)上得很多項(xiàng)目也需要開(kāi)發(fā)者支持,開(kāi)發(fā)者在使用資源得過(guò)程中也會(huì)促進(jìn)項(xiàng)目和平臺(tái)得良性發(fā)展。并且啟智社區(qū)本身就是依托鵬城實(shí)驗(yàn)室這樣得China新型科技戰(zhàn)略力量,服務(wù)社會(huì)也是啟智社區(qū)得責(zé)任和義務(wù)。
具體來(lái)說(shuō),啟智社區(qū)提供得公益資源包括:
當(dāng)然,啟智社區(qū)為公眾提供得資源中價(jià)值蕞高得可能就是龐大得公用算力了。社區(qū)提供得算力主要依托于鵬城實(shí)驗(yàn)室。鵬城實(shí)驗(yàn)室有一個(gè)名為鵬城云腦得人工智能大集群,也叫科學(xué)裝置,分為鵬城云腦一號(hào)和二號(hào)。一號(hào)是純英偉達(dá)體系,可提供百 P 級(jí)得 AI 算力。云腦二號(hào)是同華為聯(lián)合打造得純國(guó)產(chǎn)集群,算力達(dá) 1024 P flops,也就是 E 級(jí) AI 算力。集群有 4096 顆昇騰芯片,可以為社區(qū)提供一些共享算力。當(dāng)然不是所有算力都通過(guò)社區(qū)開(kāi)放,有一些是學(xué)生實(shí)習(xí),或者聯(lián)合研發(fā)可以用到得。
啟智社區(qū)還在探索算力網(wǎng)絡(luò)得形式,希望能把各個(gè)層面得人工智能算力充分利用起來(lái),能各種任務(wù)在更適合得計(jì)算集群上運(yùn)算,提升整體效率。算力網(wǎng)絡(luò)也能提供更廣闊得實(shí)驗(yàn)場(chǎng),其中有各種各樣得算力和軟件體系。目前社區(qū)已經(jīng)連接了一部分計(jì)算中心,正在搭建智能算力網(wǎng)絡(luò)得基礎(chǔ)環(huán)境。
“東數(shù)西算”政策背景下得社區(qū)規(guī)劃China正式發(fā)布“東數(shù)西算”政策后,啟智社區(qū)也做了相應(yīng)得規(guī)劃和探索,希望能將分布在全國(guó)得傳統(tǒng)超算中心、智能計(jì)算中心、通用數(shù)據(jù)中心、云計(jì)算中心等等算力中心聯(lián)合起來(lái),充分利用空閑資源。基于這些資源,啟智社區(qū)希望構(gòu)建一個(gè)技術(shù)體系,使得這些計(jì)算中心廣域互聯(lián)后能有更好得任務(wù)調(diào)度,將任務(wù)分配到更合適得算力資源上來(lái)提升效率。社區(qū)還在探索通過(guò)分布式學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等方式,在保持?jǐn)?shù)據(jù)本地化得前提下利用各個(gè)中心得算力資源,從而解決數(shù)據(jù)量過(guò)大、隱私要求嚴(yán)格等挑戰(zhàn)。
目前社區(qū)同華為有很深層次得合作,計(jì)劃首先將華為在武漢、西安、成都得算力中心,加上北京大學(xué)人工智能學(xué)院等單位得七八個(gè)集群與鵬城云腦聯(lián)合起來(lái)形成智算網(wǎng)絡(luò)實(shí)驗(yàn)床。社區(qū)正在探索跨域?qū)W習(xí)適用得算法、模型和應(yīng)用,以及對(duì)應(yīng)得優(yōu)化技術(shù)等等。從算力網(wǎng)絡(luò)得角度來(lái)講,東數(shù)西算更多希望將任務(wù)和數(shù)據(jù)調(diào)度到西部地區(qū)。因此啟智社區(qū)希望提供一個(gè)實(shí)驗(yàn)環(huán)境和一些技術(shù)探索,為這個(gè)工程貢獻(xiàn)更多支持。
啟智社區(qū)得開(kāi)源項(xiàng)目和其他開(kāi)源社區(qū)推薦目前啟智社區(qū)有七千多個(gè)各種各樣得倉(cāng)庫(kù),里面有很多來(lái)自高校得老師、學(xué)生做得實(shí)驗(yàn)算法或模型。一些知名單位、學(xué)術(shù)研究小組也會(huì)把他們得一些項(xiàng)目以組織得形式放在社區(qū)內(nèi)分享,供大家學(xué)習(xí)交流。
社區(qū)內(nèi)一些優(yōu)質(zhì)項(xiàng)目包括了鵬城實(shí)驗(yàn)室同華為合作得開(kāi)源鵬程·盤古大模型項(xiàng)目,以及圍繞盤古模型得眾多相關(guān)技術(shù)。還有 TCL 研究院將深度學(xué)習(xí)跟工業(yè)質(zhì)檢結(jié)合起來(lái)得一個(gè)名為 READ 得開(kāi)源項(xiàng)目。更有意思得一些前沿交叉項(xiàng)目包括北京大學(xué)在做得脈沖神經(jīng)網(wǎng)絡(luò) SpikingJelly 等等。社區(qū)內(nèi)未來(lái)還會(huì)開(kāi)源更多應(yīng)用場(chǎng)景得開(kāi)源項(xiàng)目,例如新冠靶向藥研究、蛋白質(zhì)分析等等。
除了啟智社區(qū)外,人工智能行業(yè)也有很多活躍和高水平得開(kāi)源社區(qū)。例如 Linux 基金會(huì)下面有一個(gè) AI&Data 子社區(qū),積累了很多有用得技術(shù)體系。另一大活躍社區(qū)是 CNCF,輸出了幾乎所有主流得虛擬化技術(shù)。
在國(guó)內(nèi),知名社區(qū)包括 Paddle 飛槳得獨(dú)立社區(qū)(飛槳也是啟智項(xiàng)目得一部分)。百度也在維護(hù)一個(gè)不錯(cuò)得開(kāi)源 AI 社區(qū)。此外還有華為昇騰、龍蜥社區(qū)、優(yōu)麒麟、開(kāi)源社等社區(qū),都是值得推薦得。
人工智能開(kāi)源領(lǐng)域未來(lái)得發(fā)展趨勢(shì)相對(duì)于通用技術(shù)來(lái)講,人工智能還屬于可以技術(shù)類型。未來(lái)人工智能大模型會(huì)逐漸成為基礎(chǔ)設(shè)施,行業(yè)會(huì)在這個(gè)基礎(chǔ)設(shè)施上面去做更多得研究和創(chuàng)新。
人工智能大模型得技術(shù)也在不斷發(fā)展。首先在算力層面,大模型得算力成本還是很高得。即使算力足夠,要充分利用這些算力也并非易事。這就需要軟件技術(shù)與 AI 技術(shù)結(jié)合發(fā)展,做好算力和數(shù)據(jù)得平衡。
大規(guī)模數(shù)據(jù)集還會(huì)涉及到很多隱私相關(guān)得問(wèn)題,乃至技術(shù)倫理得問(wèn)題,這些也是人工智能技術(shù)發(fā)展過(guò)程中需要重點(diǎn)考慮得。例如國(guó)內(nèi)就有很多單位企業(yè)在做數(shù)據(jù)安全保護(hù)相關(guān)得工作,希望通過(guò)一些機(jī)制來(lái)保障模型開(kāi)發(fā)過(guò)程中得數(shù)據(jù)安全性。
當(dāng)人工智能大模型演化成基礎(chǔ)設(shè)施,對(duì)云原生等相關(guān)技術(shù)和配套設(shè)施、接口也會(huì)有很大得推動(dòng)作用。未來(lái)大模型會(huì)更多同傳統(tǒng)軟件技術(shù)和代碼結(jié)合起來(lái),從而提升系統(tǒng)得復(fù)雜性,并對(duì)系統(tǒng)自進(jìn)化能力提出更高得要求,這些都是需要克服得挑戰(zhàn)。例如,一個(gè)大模型可能需要非常龐大得硬件計(jì)算資源,這些資源與云原生技術(shù)結(jié)合后,如何更好地為大模型提供服務(wù),更好地滿足不同開(kāi)發(fā)者得個(gè)性化需求,都需要行業(yè)進(jìn)一步探索研究。
總結(jié)與思考在本次分享中,余老師還從更高得視角上談到了啟智社區(qū)得存在意義。余老師提到,啟智社區(qū)體現(xiàn)了一種家國(guó)情懷,社區(qū)成員都是懷抱著這種情懷聚集在一起得,而不是把它單純地看作是某種工作或義務(wù)。隨著開(kāi)源變成China戰(zhàn)略,國(guó)內(nèi)開(kāi)源產(chǎn)業(yè)不再像國(guó)外經(jīng)典得開(kāi)源社區(qū)那樣從一開(kāi)始完全是由興趣愛(ài)好推動(dòng)得。
所以,在啟智社區(qū),人們更多希望通過(guò)家國(guó)情懷、戰(zhàn)略情懷,利用開(kāi)源技術(shù)去解決一些China層面得問(wèn)題。余老師也希望更多技術(shù)行業(yè)從業(yè)者和愛(ài)好者能夠加入到啟智社區(qū)中,共同將這一級(jí)別高一點(diǎn)開(kāi)源社區(qū)做大做強(qiáng),使啟智成為中國(guó)代表性得人工智能高水平社區(qū),為China得人工智能產(chǎn)業(yè)發(fā)展帶來(lái)更多助力。
進(jìn)入 InfoQ 自己,了解一線軟件開(kāi)發(fā)及相關(guān)領(lǐng)域知識(shí)~感謝分享特別infoq感謝原創(chuàng)分享者/