大模型時代,數(shù)據(jù)要素產(chǎn)業(yè)鏈如何參與生態(tài)培育?
2023-08-25 10:51:02 來源:21世紀經(jīng)濟報道 編輯:

21世紀經(jīng)濟報道記者駱軼琪 汕頭報道

數(shù)字經(jīng)濟時代,國內(nèi)數(shù)據(jù)要素產(chǎn)業(yè)鏈的各個環(huán)節(jié)正在積極將能力融合。硬件端,基于國內(nèi)GPU芯片平臺推進能力積蓄;軟件端,則從數(shù)據(jù)產(chǎn)生前端在數(shù)據(jù)采集、挖掘、清洗等多層面著手籌備。

2023中國數(shù)字經(jīng)濟創(chuàng)新發(fā)展大會期間,首都在線副總裁、智算中心事業(yè)群總經(jīng)理牛繼賓接受21世紀經(jīng)濟報道記者采訪時表示,“首都在線一方面會在國內(nèi)針對英偉達算力持續(xù)投資,做算力業(yè)務部署;另一方面也開始與國產(chǎn)芯片公司進行布局合作,首都在線和燧原科技等不少于五家的國內(nèi)優(yōu)質(zhì)芯片廠商合作,并在持續(xù)做適配和認證工作。”

多名受訪者都指出,高質(zhì)量的精調(diào)數(shù)據(jù)將決定AI大模型的最終能力,要綜合運用各類型工具完善這項工作;同時不可忽視是對數(shù)據(jù)合規(guī)性、安全性挑戰(zhàn)的前置預防型工作。

構筑大模型底座

當前AI大模型構建過程中,最受關注的就是國內(nèi)底層GPU為代表的智能計算類硬件能力構建進展。

牛繼賓告訴記者,首都在線最早從數(shù)據(jù)中心業(yè)務起步,逐步迭代出云計算能力、新一代智能計算能力。人工智能和元宇宙互相促進,元宇宙更側重于圖形圖像的沉浸式,人工智能更趨向于背后智能技術的支撐。牛繼賓稱,將通過把圖形圖像業(yè)務、GPU算力和服務做迭代升級,打造新一代算力平臺。

值得注意的是,當前國內(nèi)普遍面臨著對大模型訓練硬件能力緊俏的難題。對此,牛繼賓對記者表示,目前英偉達的高端訓練芯片國內(nèi)可以用,但帶寬被限制過,即使如此也供不應求。為此,首都在線一方面會在國內(nèi)針對英偉達算力持續(xù)投資,另一方面也開始與國產(chǎn)芯片公司進行布局合作。

“我們已經(jīng)在無錫開通了信創(chuàng)專區(qū),也會在內(nèi)蒙古、海南各自開通信創(chuàng)專區(qū)。目的是把國產(chǎn)芯片能力逐步引入。在每一個國產(chǎn)芯片的資源池上,都會迭代一種模型服務,最終服務于用戶。”牛繼賓進一步指出,所以會從英偉達+國產(chǎn)算力,同時做資源池建設,然后引入成熟的模型,去解決算力短缺問題。

僅有算力硬件并不夠,牛繼賓分析道,單純建設智能算力業(yè)務只是建立了一個資源池,真正要用上這些資源,需要應用驅(qū)動,再結合英偉達不同的場景學習、觀察,最終導入到不同的國產(chǎn)芯片上,在不同場景中,計劃、激活模型訓練相關業(yè)務。“我們采用應用驅(qū)動、網(wǎng)絡驅(qū)動。可以把這些算力資源制作成服務的形式,最終交付到最終用戶。”

數(shù)據(jù)治理機遇

當前在模型搭建過程中,面臨的較大難題是數(shù)據(jù)處理和清洗等相關工作。

對此,廣東天億馬信息產(chǎn)業(yè)股份有限公司副總經(jīng)理林少勇受訪時表示,為了處理好海量數(shù)據(jù)的挖掘,還需要引入一些大數(shù)據(jù)處理工具,包括分布式存儲、離線計算、實時計算等,同時也要有可視化的建模工具,以便更好調(diào)整模型參數(shù)。也可以借助AI,在數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和趨勢,從而幫助組織進行預測性分析。

同時為了保證挖掘數(shù)據(jù)的價值和質(zhì)量,從數(shù)據(jù)采集方向,可以使用AI技術清洗數(shù)據(jù)、填補缺失值、處理異常值,以確保數(shù)據(jù)的準確性。也需通過制定數(shù)據(jù)質(zhì)量規(guī)則、數(shù)據(jù)脫敏規(guī)則進一步保證數(shù)據(jù)的質(zhì)量和合規(guī),同時也建立訪問控制和權限管理,確保只有授權人員能夠訪問特定數(shù)據(jù)。

在數(shù)據(jù)治理過程中,林少勇認為,AI可以提供很大幫助,這體現(xiàn)在幫助數(shù)據(jù)質(zhì)量提升、智能數(shù)據(jù)分類和標注、預測性分析洞察和決策等方面。

“舉例來說,人工智能可以用于自動檢測和修復數(shù)據(jù)質(zhì)量問題。比如使用機器學習算法來識別數(shù)據(jù)中的異常值、缺失值,進行數(shù)據(jù)清洗和糾正;也可以自動對數(shù)據(jù)進行分類和標注,幫助識別不同類型的數(shù)據(jù),并為數(shù)據(jù)元素添加適當?shù)脑獢?shù)據(jù),從而提高數(shù)據(jù)的可管理性。”他進一步指出,在AI的協(xié)助下,做好數(shù)據(jù)治理、提高數(shù)據(jù)質(zhì)量,可以反過來將數(shù)據(jù)提供給AI訓練,進一步提高模型的識別率,形成閉環(huán)。

深圳數(shù)闊信息技術有限公司(下稱“數(shù)闊”)創(chuàng)始人兼CEO劉寶強也對21世紀經(jīng)濟報道記者表示,當前市場比較缺乏高質(zhì)量的精調(diào)數(shù)據(jù),即經(jīng)過人工標注、清洗、整合的數(shù)據(jù)。數(shù)據(jù)質(zhì)量決定了大模型能力。

應對安全挑戰(zhàn)

數(shù)字經(jīng)濟時代,更為重要是對數(shù)據(jù)這一涉及人們生活各方面的要素進行安全性防范。即便是剛剛興起的AI大模型,在被廣泛應用后,很快部分公司便遭遇了泄密挑戰(zhàn)。

林少勇對記者表示,AI大模型對于訓練的數(shù)據(jù)要求越來越高,國內(nèi)還需做好數(shù)據(jù)標準、數(shù)據(jù)脫敏、數(shù)據(jù)安全等工作。

尤其是數(shù)據(jù)的廣泛收集、存儲和共享為個人、企業(yè)和政府帶來了機會,但同時也引發(fā)對數(shù)據(jù)隱私、保密性和安全性的擔憂。

“因此公司會從多個層面考慮應對這一難題:強化數(shù)據(jù)加密、建立訪問控制和權限管理、實施多層次防御策略(從軟硬件層面)、持續(xù)員工培訓、運用新技術(如人工智能、機器學習)等。”他續(xù)稱。

劉寶強則對記者分析,倘若要應用海外大模型,可能會涉及數(shù)據(jù)被傳輸出去的情形,目前國產(chǎn)大模型本身底座安全,數(shù)據(jù)等信息也都留存在國內(nèi);同時開源大模型已經(jīng)從底層源代碼開源,因此可自由部署、靈活可控。

近兩年來,在企業(yè)數(shù)字化轉(zhuǎn)型中,受大環(huán)境和市場等多重因素影響,企業(yè)對這方面的投入愈發(fā)審慎。但劉寶強對記者表示,“各行各業(yè)對數(shù)字化、智能化轉(zhuǎn)型的訴求上升速度很快,即使面臨短暫的資源困難,大多數(shù)企業(yè)都不會停止其數(shù)字化迭代進程。”

關鍵詞:

相關閱讀
分享到:
版權和免責申明

凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨家版權所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。

主站蜘蛛池模板: 大荫蒂女人毛茸茸图片| 欧美寡妇XXXX黑人猛交| 国产做床爱无遮挡免费视频| 7777久久亚洲中文字幕| 少妇高潮流白浆在线观看| 久久狠狠躁免费观看| 欧美在线看片a免费观看| 人妻av无码一区二区三区| 紧窄极品名器美妇灌| 国产在线观看免费完整版中文版| 337p日本大胆欧美人术艺术精品| 天天摸天天做天天爽水多| 两性色午夜免费视频| 日本毛茸茸的丰满熟妇| 亚洲三级视频在线观看| 欺凌小故事动图gif邪恶| 免费观看我爱你电影| 老师让我她我爽了好久网站| 国产成人8X视频网站入口| 香蕉久久成人网| 在线免费h视频| wwwjizzz| 成人区人妻精品一区二区不卡| 久久亚洲春色中文字幕久久久| 最近中文字幕更新8| 亚洲国产精品人久久| 激情另类小说区图片区视频区 | 久久久久久网站| 最新国产精品精品视频| 亚洲国产一二三精品无码| 波多野结衣456| 伊人久久综合谁合综合久久| 综合一区自拍亚洲综合图区| 国产主播在线观看| 麻豆国产尤物av尤物在线观看| 国产精品v欧美精品∨日韩| 国产美女a做受大片观看| yellow字幕网在线zmzz91| 拔播拔播华人永久免费| 久久大香线蕉综合爱| 最新高清无码专区|