| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) | 
|---|
AI產業從通用模型向行業垂直應用快速融合下沉的階段演進 ,人工智能三大基本要素之一數據,面臨的高質量數據不足問題卻凸顯。
財聯社記者最新從業內獲悉,目前各大模型企業迫切希望獲得更多更好的高質量數據集,需求集中于頭部企業行業知識底座構建 ,人工智能高質量數據集的需求量 、交易量激增,已成為數據流通最活躍的領域 。不過,高質量數據集的建設、流通環節均面臨諸多問題 ,目前數據交易所并非模型語料最主要的采購途徑。
需求、交易爆發式增長
“我們從市場流通的角度做了一些分析,認為人工智能數據集已經成為數據流通最活躍的領域。去年開始,高質量數據集呈現了爆發式的增長態勢 ,主要需求就是模型訓練數據。24年人工智能數據只占我們交易量的10%,現在累加起來已經接近80%,說明包括實際交易量都在呈現爆發式增長 。 ”正在舉行的2025全球數字經濟大會上 ,北京國際大數據交易所(以下簡稱 “北數所”)董事長李振軍介紹。
高質量數據集是指用于訓練、驗證和優化大模型而收集 、整理、標注形成的覆蓋行業核心專業知識和生產經營活動的數據資源集合。2023年12月31日,國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024-2026年)》提出,推動科研機構、龍頭企業等開展行業共性數據資源庫建設 ,打造高質量人工智能大模型訓練數據集 。今年4月30日,《高質量數據集建設指南(征求意見稿)》發布,高質量數據集建設提速。
據了解,北數所已深度服務了多家國內人工智能頭部企業 ,前述數據的主力購買者正是AI頭部企業?!八麄冑I數據主要是在構建行業的知識底座,模型的訓練是先構建行業知識底座,才能再進行行業的細的參數調優 。”李振軍稱。
數據交易網CEO張瑤在接受財聯社記者采訪時表示 ,前述數據需求主要以行業垂直模型為主?!昂芏啻髲S都做了完整的通用模型解決方案產品,對于行業垂直模型來說,核心點在于對于細分行業的理解程度 。 ”
大會期間 ,亦有信通院人士分析稱,人工智能對于數據集的需求主要可分為多模態 、具身智能、思維鏈、長視頻等四類需求。
財聯社記者最新獲悉,目前北數所已交付的人工智能高質量數據集數據規模達1814TB ,總交易量接近2500TB,覆蓋20個應用模型場景。北數所為模型企業提供了475個高質量數據集,已達成交易171個(完成了實際交付和現金結算) ,數據源覆蓋行業32個 。
不過張瑤也表示,“對于模型語料的需求程度,不同細分行業是不一樣的。”其認為,需考慮各行業的數字化完成水平 ,如金融 、醫療等行業原本的數字化完成度較高、從業企業數量也多,相對來說行業基礎數據就比較全,進而通過標注、治理等工作后 ,能提供的數據集產品也就比較豐富;但其他數字化能力相對低的行業(如農業)基礎數據較少,形成高質量的數據集還需要一定前期準備工作。
不僅北數所,截至今年5月初 ,貴陽大數據交易所已發布939個高質量數據集。6月26日,深圳市政務服務和數據管理局印發《深圳市人工智能語料券專項資金操作規程》的通知顯示,為促進人工智能語料數據開放和交易 ,深圳每年設置最高5000萬元作為語料券專項資金,其中要求申報企業應通過數據交易所完成語料采購 。
數交所并非語料最主要采購途徑
不過據財聯社記者了解,數據交易所并非最主要的模型訓練數據采購途徑。
“人工智能語料采購大部分不是實際通過交易所來完成的 ,但各地的數據交易所目前承擔著市場價值發現的職能,對于數據供需雙方的業務開展起到一定推動作用。之前有機構測算,全國數據交易市場超過95%的交易都來源于非數據交易所參與的場景,但仍然有不少機構選擇與數據交易所合作 ,對于數據要素市場建設來說,交易所是一個很重要的基礎設施提供方,但具體的商業模式還需要進一步探索 。”張瑤表示。
對此 ,據前述信通院人士分析,目前高質量數據集建設層面面臨不小的挑戰。其一,目標定位相對模糊 ,“其實很少有人為真正模型需要什么樣的數據去做深入的研究,僅限于對已有數據加工處理 ”;其二,實施路徑碎片化 ,“從數據資源變成高質量數據集,中間有非常長的加工鏈條,需要管理機制 、技術手段協同、專業化人才的加入”;其三 ,技術底座薄弱,技術工具鏈條相對來說還較匱乏 。
另據財聯社記者了解,高質量數據集流通層面也面臨著尋源難、評價難 、協同難等問題。
與此同時,包括大模型“六小虎”相關負責人在內的多位受訪者向財聯社記者介紹了模型訓練所需語料數據常見的獲取方式:一是互聯網公開數據(占最大比例 ,但比例在下降),二是購買有版權的數據,三是廠商間通過置換資源方式獲取語料 ,四是建設采集-清洗-加工-治理的數據生產線自行生產私域語料數據。
某基座大模型相關負責人透露,其公司內部數據清潔流程主要有以下步驟:包括明確數據責任人,端到端管理數據全生命周期流程;明確數據標準 ,數據存入數據倉之前有哪些標準,各部門要形成共識;認證數據源頭,須符合唯一性、完整性等要求;驗收數據入庫之后的質量;使用前對原數據進行登記等 。
據悉 ,廠商還會使用蒸餾數據和合成數據,即由機器生成的符合真實世界客觀發展規律的數據。有媒體此前報道,Epoch AI研究人員預測 ,到2028年左右,用于訓練人工智能模型的典型數據集的規模將達到公共在線文本的估計總存量。換言之,人工智能訓練數據或在3年左右時間內耗盡 。
有專家在大會上表示,數據是AI的新戰場 ,AI正在從model-centric到data-centric轉變,要真正使data-centric落地,數據基礎設施建設是下一個關鍵點。
“將來人工智能的業態是 ,做模型的人非常少,90%以上從業人員都是做數據產線,包括數據的采集、生成、AI-ready數據的生產。 ”前述專家進一步展望。
此外 ,財聯社記者采訪獲悉,當前大模型語料主要面臨質量參差不齊 、產權不清晰、加工方式不統一、垂類領域缺口大 、獲取成本高、數據合規性等制度待完善在內的痛點 。
例如在成本方面,語料獲取過程主要面臨合規成本 ,而加工過程主要是專家成本。
“數據標注基地以前是做通用人工智能訓練數據,現在側重垂類行業,基于自動標注等技術的演進 ,已經從粗放式標注到了精細化標注階段,但在法律等非常窄非常垂的領域,交叉型人才還是很稀缺的。”一位供職于數據交易所的人士告訴記者 。
需要注意的是,不同行業數據面臨的問題也存在差異。如政務領域 ,有上市公司人士告訴財聯社記者,數據分散與壁壘、政務數據標準化不足 、敏感信息處理難題、政策時效性問題、地方性政策覆蓋不足等問題急需得到解決。
股票配資公司查詢:配資門戶平臺-XR賽道百億獨角獸IPO申請獲受理 AI或推動XR產業爆發式增長
配資公司行情:如何做股票杠桿-AI算力+戰場火力:銅的“超級需求周期”才剛剛開始?
中國前十股票排名:互聯網股票配資網-【風口研報】阿里超千億押注AI 國產算力鏈進入需求增長新周期
線上炒股配資:股票配資在線公司-AI眼鏡市場迎來爆發式增長 上半年品類成交量同比激增10倍
全國股票配資平臺:配資炒股網站選擇配資-多家AI眼鏡產業鏈公司業績增長 機構看好行業投資機會
國內十大杠桿炒股平臺:杭州股票配資公司-【風口研報】AI商業化持續落地 算力需求仍存在較大增長空間
還沒有評論,快來說點什么吧~