我们的新 SLM 与当今的 LLM 相比如何

Learn, share, and connect around europe dataset solutions.
Post Reply
mdabuhasan
Posts: 199
Joined: Tue Jan 07, 2025 5:00 am

我们的新 SLM 与当今的 LLM 相比如何

Post by mdabuhasan »

为了创建 列表到数据 的 SLM,我们使用了 6 万亿个多语言数据标记和 256 个 Nvidia H100 GPU。从开始到结束,整个训练周期大约需要 30 天。下表根据我们的内部测试,描述了 列表到数据 的 SLM 功能与其他模型在几个公共基准测试中的对比情况:

MMLU:通过涵盖 57 个不同学科(从数学和历史法国赌博数据到法律和道德)的多项选择题评估语言模型,测试广泛的事实和概念理解。
MMLU-Pro:MMLU 的扩展,该基准专注于高质量 STEM 问题和专门的推理挑战,推动模型展示更深层次的技术能力。
GPQA:一个具有挑战性的数据集,包含 448 个由生物学、物理学和化学领域专家设计的多项选择题,旨在严格评估特定领域的专业知识。
BBH:专注于特别苛刻的认知和解决问题任务,评估语言模型中的高级推理和理解能力。
按照社区的惯例,我们使用 Lighteval 工具评估了这些基准的准确性,该工具在 MMLU 和 MMLU-Pro 上提供了 5 个示例,在 GPQA 上提供了 2 个示例,在 BBH 上提供了 3 个示例。


表 列表到数据 SLM 与 2B 类别中的其他 SLM 的比较(分数越高越好)。

总体而言,如果没有针对特定领域或任务进行定制,SLM 在这些质量衡量标准上的竞争力仍然低于领先的 LLM(例如 OpenAI 的 GPT-4o-mini),如表 2 所示。
Post Reply