2.7T数据集集结AI力量,助力中文互联网语料研究-大浪资讯

admin92025-01-11 07:57:35

2.7T数据集集结AI力量,助力中文互联网语料研究

AI大数据助力中文互联网语料研究,揭秘隐藏在2.7T数据集中的宝藏

   1月11日消息,中国网络空间安全协会于1月9日发布通告,向社会推出一个中文互联网语料资源平台,该平台支持多种标签分类,如行业领域、内容模态和体量规模等,方便用户进行下载和使用。

   该协会表示,在中央网信办的指导下,与国家互联网应急中心合作,在先前发布的中文互联网基础语料1.0版本基础上,借助专委会构建的语料共建共享机制,收集了一批新的高质量可信数据。经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理步骤,最终形成了中文互联网基础语料2.0,并向社会发布。此次发布的语料库规模为120GB,包含数据3800万条。

   注:目前平台已经入驻了27个语料数据集,数据总量大约为2.7T,主要分为三大类。 这些数据集的引入无疑为研究者们提供了宝贵的资源。随着人工智能技术的迅速发展,对高质量语料的需求日益增加。这些丰富且多样化的数据集不仅能够帮助研究人员更好地理解语言模式和趋势,还能够推动自然语言处理技术的发展。同时,这也表明该平台致力于提供全面、可靠的数据支持,以促进学术研究和技术创新。

   中国网络空间安全协会联合国家互联网应急中心等机构共同构建了中文互联网基础语料库。

   二是人民网、北京智源研究院与上海人工智能实验室等机构共同分享的互联网语料库,为国内的人工智能研究提供了宝贵的资源。这一举措不仅有助于加速技术的发展,还促进了学术界和产业界的交流与合作。通过共享这些大规模的数据集,研究人员能够更方便地获取到训练模型所需的丰富信息,从而推动了算法的创新和优化。 此共享行为体现了中国在人工智能领域的开放态度,有利于构建一个更加健康、活跃的研究环境。同时,这也提醒我们,在享受数据带来的便利时,也要注重数据安全和个人隐私保护,确保技术进步的同时不损害公众利益。

   中国网络空间研究院、中国国家版本馆、中国大百科全书出版社以及中国社会科学院图书馆等机构提供了丰富的优质中文基础语料样本。

   用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。这一举措不仅为研究者提供了宝贵的数据资源,还进一步推动了网络安全领域的学术交流和技术发展。希望未来能有更多类似的开放平台,促进社会各界共同参与网络安全建设,形成合力,提升我国整体网络安全水平。

   网安协会人工智能安全治理专委会负责人指出,数据是推动人工智能发展的核心要素。中文互联网基础语料2.0的发布标志着各领域共同打造高质量中文语料的又一重要进展。专委会将继续致力于中文互联网基础语料的建设工作,以支持人工智能技术的创新及产业的发展。