DistilBERT:更小更快的 BERT
DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。
机构
同名开源机器学习平台背后的公司,以 Transformers 库、模型与数据集 Hub,以及 SmolLM 小模型系列等连同数据完全开源的发布而闻名。
DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。
SmolLM2 是 1.7B 小模型,约 11T token 分四阶段过量训练。HellaSwag 68.7、MMLU-Pro 19.4 胜过 Llama3.2-1B,且四套数据集一起开源。