国内多数模型训练使用中文数据占比超60%
本报北京8月18日电 (记者王云杉)记者从国家数据局获悉:中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。
在人工智能时代,Token(通常所说的词元)是处理文本的最小数据单元。国家数据局局长刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。
相关阅读
- 抗战胜利80周年重点剧目《归队》8月25日开播2025-08-19
- 托举明日之星 共筑冰上梦想︱亚洲花样滑冰青年训练营在哈尔滨圆2025-08-19
- 哈马即将开跑 各地跑友积极备赛2025-08-19
- 邻里同欢歌盛世 家园共赏聚一堂2025-08-19
- 贴心服务送上门 社区生活绽新花2025-08-19
新闻热度排行
视频新闻
- 冰城新闻

- 微信公众号

- 新浪微博









