北京拟整合现有开源中文预训练数据集和高质量互联网中文数据_北京商报

您的位置：首页 > 科技频道

北京拟整合现有开源中文预训练数据集和高质量互联网中文数据

出处：北京商报作者：杨月涵网编：产经中心 2023-05-16

大中小
收藏
分享
打印
手机网页版

X 分享到微信朋友圈

打开微信，点击底部的“发现”，

使用“扫一扫”即可将网页分享至朋友圈。

北京商报讯（记者杨月涵）5月16日，据北京市科委官网，北京出台《北京市促进通用人工智能创新发展的若干措施（2023-2025年）（征求意见稿）》，针对目前大模型训练高质量中文语料占比过少，不利于中文语境表达及产业应用的问题，征求意见稿提到，整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源，建设合规安全的中文、图文对、音频、视频等大模型预训练语料库，通过北京国际大数据交易所社会数据专区进行定向有条件开放。

右侧广告

深蓝智库企业社会责任峰会智慧康养论坛十大商业品牌商业高峰论坛金融业十大品牌酒业价值榜餐饮十大品牌

@北京商报

新闻排行

友情链接

|

合作伙伴

商报简介| 版权声明| 在线反馈| 联系我们| 广告

本网站所有内容属北京商报社有限公司，未经许可不得转载。商报总机：010-64101978 版权合作：010-64101871

商报地址：北京市朝阳区和平里西街21号邮编：100013 法律顾问：北京市中同律师事务所（010-82011988）

网上有害信息举报违法和不良信息举报电话：010-84276691 举报邮箱：bjsb@bbtnews.com.cn

ICP备案编号：京ICP备08003726号-1 京公网安备11010502045556号互联网新闻信息服务许可证11120220001号