开源大模型调研 | Notion

1 Chinese-Mixtral

Untitled

活字3.0是基于Chinese-Mixtral-8x7B，在大约30万行指令数据上微调得到的模型。

2 Qwen2

阿里开源的大模型

5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B；
在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；
多个评测基准上的领先表现；
代码和数学能力显著提升；
增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）

Untitled

性能评价

Untitled

Untitled

Untitled

经测试， Qwen2 72B instruct 可以完成较长任务的规划（10step+）， Qwen2 7B可以完成简单任务规划（Rearrange）。

3 Llama3

Untitled

llama2无法胜任任务规划，但是llama3 70B的性能和 Qwen2 72B比较接近，感觉也可以作为备选。