文心一言、GPT3.5及GPT_4的应用测评对比分析

为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评。

OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。

在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文心一言的分词功能有待提升;目前 GPT-4 尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。

在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。

在数学和代码类问题中,GPT-3.5 有更好的数学能力表现;GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。

在应用场景测试中,三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。

文心一言、GPT3.5及GPT_4的应用测评对比分析-第1张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第2张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第3张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第4张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第5张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第6张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第7张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第8张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第9张图片

文心一言、GPT3.5及GPT_4的应用测评对比分析-第10张图片

附件
【零帕4043】文心一言、GPT3.5及GPT_4的应用测评对比分析.pdf
application/pdf
6.14MB
32
下载文件
附件购买(促销中)
促销价:2.4 积分原价:3 积分

登录注册购买。 VIP权益 | 不支持浏览器清单

免责声明:本文来自国金证券,著作权归作者所有,如有侵权请联系本平台处理。商业转载请联系作者获得授权,非商业转载请注明出处。内容投诉
零帕网 » 文心一言、GPT3.5及GPT_4的应用测评对比分析
您需要 登录账户 后才能发表评论

发表评论

欢迎 访客 发表评论