第1步:先确认你测的是哪个Dolly
做Dolly测评前,先别急着下载权重。很多人嘴里的Dolly其实混着说:Databricks Dolly、Dolly v2、dolly-15k数据集,甚至还有人把图像生成的DALL·E听成Dolly。方向一错,后面全白测。
比较常见的是Databricks发布的Dolly 2.0系列,基于EleutherAI Pythia模型做指令微调,常见规格有3B、7B、12B。它的亮点不是“最强”,而是开源、可研究、适合看指令微调链路。测评时要把这个定位写在第一页,不然结论会歪。
第2步:别只问脑筋急转弯
不少Dolly测评翻车在题库选择上:上来就是数学奥赛、复杂代码、中文古诗赏析,然后给一句“不好用”。这不叫测评,叫拿短板打靶。
更靠谱的做法是分4组:英文指令跟随、中文日常问答、摘要改写、企业内部知识问答模拟。每组至少20条prompt,别一两句就下结论。Dolly的英文指令表现通常比中文自然度更稳,这一点要单独标出来。
第3步:硬件别按聊天软件想
Dolly 12B不是点开网页就能流畅玩的东西。本地推理如果不用量化,显存压力会比较明显;7B会友好一些,但回答质量也会跟着打折。新手最常见的坑,是在普通笔记本上硬跑,然后把“慢”算成模型差。
如果只是做Dolly测评,建议先用云GPU或现成推理环境跑通,再谈部署。看三项数据就够:首token等待时间、每秒生成token数、同一问题重复生成的稳定性。别只截图一句漂亮回答,那没啥参考价值。
第4步:中文能力要单独打分
Dolly的训练背景决定了它更偏英文生态。中文问题能答,不等于中文体验好。你会看到一些典型小毛病:句子偏硬、事实细节不稳、长文本容易绕圈,遇到中文口语梗更容易掉线。
我的建议是中文测评别用“能不能回答”做标准,而看三个细节:有没有理解隐含条件、有没有编造不存在的信息、能不能按格式输出。尤其是第三项,做内部工具时很关键,输出格式乱一次,后端解析就崩一次。
第5步:结论别写成万能推荐
Dolly测评的靠谱结论应该有边界:适合学习开源LLM流程、做轻量原型、理解指令数据怎么影响模型;不太适合直接做中文客服、强推理助手、严肃事实问答。
如果你是技术团队,可以把Dolly当“拆机样品”:看得见结构,改得动链路,成本也可控。如果你是业务方,只想要一个马上能顶班的AI员工,那Dolly大概率会让你失望。