大模型参数量级飞涨,相应训练集需同比提升。李开复定义 AI 2.0 时代的特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,并在各领域将其专业化。据相关论文,当模型的参数量大于某阈值,会展现出类似推理、无监督学习等未曾出现的能力,这种现象被称为“涌现”,因此目前大语言模型参数均在十亿量级以上。同时,Deepmind 研究表明,模型参数的上涨需要配合等比例上升的优质数据集来达到最佳训练效果。因此,大模型参数在十亿级以上发展并受限于优质数据集的增速是 AI 发展的必然趋势。[NeadPay