高質量數據集,簡而言之,就是那些具有高價值、高密度且標準化的數據。在人工智能領域,它扮演著至關重要的角色。北京公開征集行業高質量數據集需求和建設成果的通知;國務院國資委發布了首批包含10余個行業30項的央企人工智能高質量數據集建設成果。隨著大模型技術的迅猛發展,數據集作為人工智能核心三要素之一,在算法趨同、算力普惠的競爭環境中正在構建難以復制的差異化壁壘。
高質量數據是AI應用可靠性的保障
數據集的質量直接影響著人工智能的“智商”。
政策層面的舉措充分體現了高質量數據的重要性。國家數據局等17部門已聯合印發《數據要素×三年行動計劃(2024—2026年)》,鼓勵科研機構和龍頭企業共同打造行業共性數據資源庫。
而在第八屆數字中國建設峰會上,國務院國資委更是發布了首批涵蓋多個行業的高質量數據集,為人工智能產業注入了新的活力。這不僅展示了央企在人工智能領域的積極探索和實踐,更體現了高質量數據集對于推動行業發展的關鍵作用。這些高質量數據集為AI模型在相關行業的應用提供了堅實的基礎,使得AI模型能夠更準確地理解和處理復雜的業務場景,從而保障了AI應用在實際生產中的可靠性。
高質量數據集建設正處于探索階段
《全國數據資源調查報告(2024年)》預測,2025年全國數據生產總量將突破50ZB。當前,高質量數據集主要面臨目標定位模糊化、實施路徑碎片化與技術底座薄弱三重挑戰。
許多企業和機構在建設高質量數據集時,缺乏明確的目標和定位。這導致在數據采集過程中出現盲目性,收集了大量無關或低質量數據。
高質量數據集建設涉及多個環節,包括數據采集、清洗、標注等。目前,這些環節之間缺乏有效的協同和整合,導致實施路徑碎片化。
高質量數據集建設需要先進的技術支持,如數據存儲、處理和分析技術等。然而,一些企業和機構的技術底座相對薄弱,無法滿足大規模、高復雜度數據處理的需求。
系統推進高質量數據集建設
國家數據局副局長夏冰強調,數據集的質量和效率提升對于人工智能賦能實體經濟的推動作用不容忽視。因此,需要從多個維度系統推進高質量數據集建設工作。
首先,產業合作是推進高質量數據集建設的重要途徑。不同企業和機構在數據資源、技術能力和專業知識等方面存在差異。通過合作,他們可以共享數據資源,整合各方優勢,共同打造高質量數據集。
其次,數據標注是高質量數據集建設的關鍵環節。數據標注的質量直接影響到AI模型的學習效果。建立專業的數據標注基地,能夠提供標準化、規范化的數據標注服務。
最后,建設數據平臺是整合數據資源、提高數據管理效率的重要手段。數據平臺可以將各個部門和系統中的數據進行整合和集中存儲,采用先進的存儲技術和安全機制,保證數據的安全性和可靠性。