1 Chinese-Mixtral

Untitled

活字3.0是基于Chinese-Mixtral-8x7B,在大约30万行指令数据上微调得到的模型。

2 Qwen2

阿里开源的大模型

Untitled

性能评价

Untitled

Untitled

Untitled

经测试, Qwen2 72B instruct 可以完成较长任务的规划(10step+), Qwen2 7B可以完成简单任务规划(Rearrange)。

3 Llama3

Untitled

llama2无法胜任任务规划,但是llama3 70B的性能和 Qwen2 72B比较接近,感觉也可以作为备选。