1 Chinese-Mixtral

活字3.0是基于Chinese-Mixtral-8x7B,在大约30万行指令数据上微调得到的模型。
2 Qwen2
阿里开源的大模型
- 5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B;
- 在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;
- 多个评测基准上的领先表现;
- 代码和数学能力显著提升;
- 增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)

性能评价



经测试, Qwen2 72B instruct 可以完成较长任务的规划(10step+), Qwen2 7B可以完成简单任务规划(Rearrange)。
3 Llama3

llama2无法胜任任务规划,但是llama3 70B的性能和 Qwen2 72B比较接近,感觉也可以作为备选。