知乎创始人兼CEO周源:中国大模型面临中文语料资源短缺的挑战

来源: 投稿
2024-03-05 17:57:00

在2024年全国两会上,全国政协委员、知乎创始人兼CEO周源提交多份提案,重点关注补齐优质中文语料数据短板、激发互联网平台企业创新热情、以高质量技能人才供给推动新质生产力快速发展等内容。

▍补齐优质中文语料数据短板

截至2023年年底,我国累计发布了200多个人工智能大模型,其中有20多个大模型产品获批向公众提供服务。尽管我国在大模型领域取得了一定的成就,但仍面临着一些挑战,其中最显著的问题之一是高质量中文语料资源的短缺。

2021-2026年中国数据量规模将由18.51ZB增长至56.16ZB,年均复合增长率达到24.9%,高于全球平均水平。虽然国内存量数据资源丰富,但目前中文优质数据仍然稀缺,如ChatGPT训练数据中文资料比重不足千分之一,而英文资料占比超过92.6%。

对此,周源建议,建立数据合规的监管机制,推动完善AIGC监管立法,保护和规范人工智能领域的数据合规。对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外,应加强对大模型的社会影响和风险评估,及时发现和解决可能存在的问题。此外,要加强数据安全和知识产权的保护措施,并加快高质量中文数据集的开发与利用,数据作为新型生产要素已经成为驱动全球数字经济的动力引擎,国内数据要素市场起步较晚,标准、权属、交易、商业模式、监管等相关环节还有待完善。

▍激发互联网平台企业创新活力

2024年将迎来中国全功能接入互联网30周年的重要里程碑。历经近三十载的发展,互联网不仅重塑了人们的工作模式、生活形态,甚至改变了思维方式,是我国科技创新体系的核心力量,为推动创新驱动发展战略提供了强大动力。

对此,周源建议,加强政策法规保障,提振互联网平台企业发展信心 。要加快促进民营经济发展立法进程。要科学设置监管政策。完善市场准入负面清单制度,明确禁止和限制进入的领域。对于尚未纳入监管范围的产业,应遵循“法无禁止即可为”的原则,支持互联网平台企业探索未知领域,为培育未来产业奠定坚实基础。

要完善科技创新机制,激发互联网平台企业创新热情。优化产业和科技扶持资金和项目的组织方式,更大比例吸收科技创新型互联网平台企业及其产业科学家、企业家深度参与。提供税收优惠和政府引导基金支持,降低互联网企业研发成本,激发其持续投入研发的热情。

▍以高质量技能人才供给 推动新质生产力快速发展

新质生产力的源头在科技创新,落脚点在产业升级,关键因素在人才支撑。加快形成新质生产力,不仅需要“高精尖缺”科技人才,还要有一大批高素质技术技能人才、大国工匠、能工巧匠等。

周源表示,人工智能技术为技能培训行业带来了更多的创新机会,促进了技能培训行业更加丰富的应用场景落地。通过人工智能技术的运用,职业技能培训行业可以实现更加个性、灵活、高效的教学模式,为学生提供更精准的学习体验。同时,教师也能借助AI工具提升教学效果,更好地满足学生的学习需求,促进技能培训向更高水平发展。

他建议,应鼓励并引导培训机构和教师更加积极主动地适应和掌握AI技术,提升自身的专业能力和教育素养,借助人工智能技术和AI大模型的发展,不断探索创新,赋能技能培训行业实现变革式发展,可促进高质量技能人才培养效率和有效供给。

展开阅读全文
点击加入讨论🔥(13) 发布并加入讨论🔥
本篇精彩评论
因为鉴管导至的各种替代詞也降低了語料的质量, 把ai搞暈了(本條不得不用鉴代替監,否則无法发出)
2024-03-06 10:32
3
举报
ChatGPT的中文语料哪里来的?都只想索取,不想自己动手
2024-03-06 11:00
1
举报
大模型不理解中文
2024-03-06 10:58
1
举报
看好你的社区吧,已经被gpt bot爬了爬了个遍了
2024-03-06 09:35
1
举报
13 评论
0 收藏
分享
返回顶部
顶部