您的位置: 首页 > 科技频道

北京拟整合现有开源中文预训练数据集和高质量互联网中文数据

出处:北京商报 作者:杨月涵 网编:产经中心 2023-05-16

北京商报讯(记者 杨月涵)5月16日,据北京市科委官网,北京出台《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,征求意见稿提到,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号