You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

LLM_Evaluator

A simple program to evaluate large language model.

需求其余文件

请下载GLM模型并放置于到./THUDM/chatglm-6b文件夹下
请下载GLM2模型并放置于到./THUDM/chatglm2-6b文件夹下
请下载GLM3模型并放置于到./THUDM/chatglm3-6b文件夹下
微调后的lora模型可放置于./lora文件夹下，可应用于ChatGLM2，例：要应用于glm2则放置于./lora/glm2文件夹下
微调后的ptuning模型可放置于./ptuning文件夹下，可应用于ChatGLM/ChatGLM2，例：要应用于glm则放置于./ptuning/glm1文件夹下
微调后的qlora/dora模型可放置于./qlora文件夹下，可应用于ChatGLM3，例：要应用于glm3则放置于./qlora/glm3文件夹下
微调文件夹名即为参数中微调模型的名称
训练数据按照C-Eval格式，放置于./data文件夹下，文件命名和eval.py中的subject_name相关
相较于C-Eval的数据集，代码添加了'qa'的数据集，放置于./data/qa文件夹下，为非选择题的问答数据集。

运行模型评估程序：

python eval.py --model_name chatglm3 --finetune qlora1 --finetune_method qlora --few_shot --ntrain 5 --cuda_device 0

对结果文件使用大模型和ROUGE进行评估，请自行修改文件内的路径：

python test.py --openai_key [your-api-key]