Dolly测评：别被开源光环带跑

2026-07-03

Dolly测评最容易踩的坑，不是模型跑不起来，而是拿错场景、用错指标、期待错能力。它适合做开源LLM学习、内网原型和指令微调参考，但别直接幻想成ChatGPT平替。下面按一次真实测评流程，把容易翻车的点拆开讲。

第1步：先确认你测的是哪个Dolly

做Dolly测评前，先别急着下载权重。很多人嘴里的Dolly其实混着说：Databricks Dolly、Dolly v2、dolly-15k数据集，甚至还有人把图像生成的DALL·E听成Dolly。方向一错，后面全白测。

比较常见的是Databricks发布的Dolly 2.0系列，基于EleutherAI Pythia模型做指令微调，常见规格有3B、7B、12B。它的亮点不是“最强”，而是开源、可研究、适合看指令微调链路。测评时要把这个定位写在第一页，不然结论会歪。

不少Dolly测评翻车在题库选择上：上来就是数学奥赛、复杂代码、中文古诗赏析，然后给一句“不好用”。这不叫测评，叫拿短板打靶。

更靠谱的做法是分4组：英文指令跟随、中文日常问答、摘要改写、企业内部知识问答模拟。每组至少20条prompt，别一两句就下结论。Dolly的英文指令表现通常比中文自然度更稳，这一点要单独标出来。

会员专享，海量内容

Dolly 12B不是点开网页就能流畅玩的东西。本地推理如果不用量化，显存压力会比较明显；7B会友好一些，但回答质量也会跟着打折。新手最常见的坑，是在普通笔记本上硬跑，然后把“慢”算成模型差。

如果只是做Dolly测评，建议先用云GPU或现成推理环境跑通，再谈部署。看三项数据就够：首token等待时间、每秒生成token数、同一问题重复生成的稳定性。别只截图一句漂亮回答，那没啥参考价值。

Dolly的训练背景决定了它更偏英文生态。中文问题能答，不等于中文体验好。你会看到一些典型小毛病：句子偏硬、事实细节不稳、长文本容易绕圈，遇到中文口语梗更容易掉线。

我的建议是中文测评别用“能不能回答”做标准，而看三个细节：有没有理解隐含条件、有没有编造不存在的信息、能不能按格式输出。尤其是第三项，做内部工具时很关键，输出格式乱一次，后端解析就崩一次。

Dolly测评的靠谱结论应该有边界：适合学习开源LLM流程、做轻量原型、理解指令数据怎么影响模型；不太适合直接做中文客服、强推理助手、严肃事实问答。

如果你是技术团队，可以把Dolly当“拆机样品”：看得见结构，改得动链路，成本也可控。如果你是业务方，只想要一个马上能顶班的AI员工，那Dolly大概率会让你失望。

Dolly测评时应该选3B、7B还是12B？

只验证流程选3B，想看可用性选7B，认真评估效果再看12B。别一开始就上最大模型，环境问题会掩盖模型本身问题。

Dolly中文表现怎么样？

能处理基础中文问答和改写，但自然度、事实稳定性、复杂语境理解不算强。中文业务落地前一定要用自己的数据重测。

Dolly可以商用吗？

Dolly 2.0发布时强调可用于商业用途，但具体项目还要核对模型、数据集和依赖组件许可证，别只看一句开源就直接上线。