LLM_Evaluator/eval.py

import os
import argparse
import pandas as pd
import torch
from evaluators.chatgpt import ChatGPT_Evaluator
from evaluators.chatglm import ChatGLM_Evaluator
from evaluators.chatglm2 import ChatGLM2_Evaluator
from evaluators.chatglm3 import ChatGLM3_Evaluator

import time

from scoring.assessment_engine import AssessmentEngine

choices = ["A", "B", "C", "D"]
device = torch.device("cpu")


def main(args):
    global device
    evaluator_class = None
    if args.cuda_device:
        os.environ["CUDA_VISIBLE_DEVICES"] = args.cuda_device
        device = torch.device("cuda")
    if "turbo" in args.model_name or "gpt-4" in args.model_name:
        evaluator = ChatGPT_Evaluator(
            choices=choices,
            k=args.ntrain,
            api_key=args.openai_key,
            model_name=args.model_name
        )
    elif "chatglm3" in args.model_name:
        if args.finetune:
            fine_tune_model = args.finetune
            evaluator_class = ChatGLM3_Evaluator
        else:
            fine_tune_model = None
        evaluator = ChatGLM3_Evaluator(
            choices=choices,
            k=args.ntrain,
            model_name=args.model_name,
            device=device,
            finetune=fine_tune_model,
            finetune_method=args.finetune_method
        )
    elif "chatglm2" in args.model_name:
        if args.finetune:
            fine_tune_model = args.finetune
            evaluator_class = ChatGLM2_Evaluator
        else:
            fine_tune_model = None
        evaluator = ChatGLM2_Evaluator(
            choices=choices,
            k=args.ntrain,
            model_name=args.model_name,
            device=device,
            finetune=fine_tune_model,
            finetune_method=args.finetune_method
        )
    elif "chatglm" in args.model_name:
        if args.finetune:
            fine_tune_model = args.finetune
            evaluator_class = ChatGLM_Evaluator
        else:
            fine_tune_model = None
        evaluator = ChatGLM_Evaluator(
            choices=choices,
            k=args.ntrain,
            model_name=args.model_name,
            device=device,
            finetune=fine_tune_model,
            finetune_method=args.finetune_method
        )
    else:
        print("Unknown model name")
        return -1

    if not os.path.exists(r"logs"):
        os.mkdir(r"logs")
    run_date = time.strftime('%Y-%m-%d_%H-%M-%S', time.localtime(time.time()))
    if args.finetune:
        fine_tune_model_name = args.finetune
    else:
        fine_tune_model_name = 'original'
    save_result_dir = os.path.join(r"logs", f"{args.model_name}_{fine_tune_model_name}/{run_date}")
    os.makedirs(save_result_dir)

    subject_list = ['computer_architecture', 'car_knowledge', 'car_use', 'car_market']
    subject_list.extend(['car_knowledge_in_train', 'car_use_in_train', 'car_market_in_train'])
    # qa_subject_list = ['car_knowledge', 'car_use', 'car_market']
    qa_subject_list = ['car_market']

    for subject_name in subject_list:
        print("Now testing: " + subject_name)
        # subject_name=args.subject
        val_file_path = os.path.join('data/val', f'{subject_name}_val.csv')
        val_df = pd.read_csv(val_file_path)
        if args.few_shot:
            dev_file_path = os.path.join('data/dev', f'{subject_name}_dev.csv')
            dev_df = pd.read_csv(dev_file_path)
            correct_ratio = evaluator.eval_subject(subject_name, val_df, dev_df, few_shot=args.few_shot,
                                                   save_result_dir=save_result_dir, cot=args.cot)
        else:
            correct_ratio = evaluator.eval_subject(subject_name, val_df, few_shot=args.few_shot,
                                                   save_result_dir=save_result_dir)
        print("Acc:", correct_ratio)

    result_list = []

    # for subject_name in qa_subject_list:
    #     print("Now testing: " + subject_name)
    #     qa_file_path = os.path.join('data/qa', f'{subject_name}_qa.csv')
    #     qa_df = pd.read_csv(qa_file_path)
    #     result_list.append(evaluator.eval_qa(subject_name, qa_df, save_result_dir=save_result_dir))

    # if evaluator_class is not None:
    #     del evaluator
    #     evaluator = evaluator_class(
    #         choices=choices,
    #         k=args.ntrain,
    #         model_name=args.model_name,
    #         device=device
    #     )
    #     for index,subject_name in enumerate(qa_subject_list):
    #         print("Now testing (origin): " + subject_name)
    #         qa_file_path = os.path.join('data/qa', f'{subject_name}_qa.csv')
    #         qa_df = pd.read_csv(qa_file_path)
    #         origin_result = evaluator.eval_qa(subject_name, qa_df, save_result_dir=save_result_dir)
    #         origin_result = origin_result.rename(columns={"model_output": "predict_origin"})
    #         result_df = result_list[index].rename(columns={"model_output": "predict_finetune"}).join(origin_result["predict_origin"])
    #         result_file_name = f'{subject_name}_qa_compare_result.csv'
    #         result_df.to_csv(os.path.join(save_result_dir, result_file_name))
    #     assessment_engine = AssessmentEngine(save_result_dir, args.api_key)
    #     for subject_name in qa_subject_list:
    #         assessment_engine.eval_result_diff(f'{subject_name}_qa_compare_result.csv')


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--ntrain", "-k", type=int, default=5)
    parser.add_argument("--openai_key", type=str, default="xxx")
    parser.add_argument("--api_key", type=str, default="xxx")
    parser.add_argument("--llm_engine", type=str, default="gemini")
    parser.add_argument("--minimax_group_id", type=str, default="xxx")
    parser.add_argument("--minimax_key", type=str, default="xxx")
    parser.add_argument("--few_shot", action="store_true")
    parser.add_argument("--model_name", type=str)
    parser.add_argument("--cot", action="store_true")
    # parser.add_argument("--subject","-s",type=str,default="operating_system")
    parser.add_argument("--cuda_device", type=str)
    parser.add_argument("--finetune", type=str)
    parser.add_argument("--finetune_method", type=str)
    user_args = parser.parse_args()
    main(user_args)
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`import os`
			`import argparse`
			`import pandas as pd`
			`import torch`
Make the process coherent. The saving of results has been optimized. 10 months ago			`from evaluators.chatgpt import ChatGPT_Evaluator`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`from evaluators.chatglm import ChatGLM_Evaluator`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`from evaluators.chatglm2 import ChatGLM2_Evaluator`
			`from evaluators.chatglm3 import ChatGLM3_Evaluator`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago
			`import time`
Make the process coherent. The saving of results has been optimized. 10 months ago
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`from scoring.assessment_engine import AssessmentEngine`

Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`choices = ["A", "B", "C", "D"]`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`device = torch.device("cpu")`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago

Make the process coherent. The saving of results has been optimized. 10 months ago			`def main(args):`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`global device`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`evaluator_class = None`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`if args.cuda_device:`
			`os.environ["CUDA_VISIBLE_DEVICES"] = args.cuda_device`
			`device = torch.device("cuda")`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`if "turbo" in args.model_name or "gpt-4" in args.model_name:`
增加大模型评分模块以及问答数据集处理模块（半成品）。 9 months ago			`evaluator = ChatGPT_Evaluator(`
Make the process coherent. The saving of results has been optimized. 10 months ago			`choices=choices,`
			`k=args.ntrain,`
			`api_key=args.openai_key,`
			`model_name=args.model_name`
			`)`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`elif "chatglm3" in args.model_name:`
			`if args.finetune:`
			`fine_tune_model = args.finetune`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`evaluator_class = ChatGLM3_Evaluator`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`else:`
			`fine_tune_model = None`
			`evaluator = ChatGLM3_Evaluator(`
			`choices=choices,`
			`k=args.ntrain,`
			`model_name=args.model_name,`
			`device=device,`
			`finetune=fine_tune_model,`
			`finetune_method=args.finetune_method`
			`)`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`elif "chatglm2" in args.model_name:`
			`if args.finetune:`
			`fine_tune_model = args.finetune`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`evaluator_class = ChatGLM2_Evaluator`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`else:`
			`fine_tune_model = None`
Make the process coherent. The saving of results has been optimized. 10 months ago			`evaluator = ChatGLM2_Evaluator(`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`choices=choices,`
			`k=args.ntrain,`
			`model_name=args.model_name,`
			`device=device,`
增加评分代码 9 months ago			`finetune=fine_tune_model,`
			`finetune_method=args.finetune_method`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`)`
			`elif "chatglm" in args.model_name:`
			`if args.finetune:`
			`fine_tune_model = args.finetune`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`evaluator_class = ChatGLM_Evaluator`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`else:`
			`fine_tune_model = None`
Make the process coherent. The saving of results has been optimized. 10 months ago			`evaluator = ChatGLM_Evaluator(`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`choices=choices,`
			`k=args.ntrain,`
			`model_name=args.model_name,`
			`device=device,`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`finetune=fine_tune_model,`
			`finetune_method=args.finetune_method`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`)`
			`else:`
			`print("Unknown model name")`
			`return -1`

			`if not os.path.exists(r"logs"):`
			`os.mkdir(r"logs")`
Make the process coherent. The saving of results has been optimized. 10 months ago			`run_date = time.strftime('%Y-%m-%d_%H-%M-%S', time.localtime(time.time()))`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`if args.finetune:`
			`fine_tune_model_name = args.finetune`
			`else:`
			`fine_tune_model_name = 'original'`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`save_result_dir = os.path.join(r"logs", f"{args.model_name}_{fine_tune_model_name}/{run_date}")`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`os.makedirs(save_result_dir)`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`subject_list = ['computer_architecture', 'car_knowledge', 'car_use', 'car_market']`
bug修复。 7 months ago			`subject_list.extend(['car_knowledge_in_train', 'car_use_in_train', 'car_market_in_train'])`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`# qa_subject_list = ['car_knowledge', 'car_use', 'car_market']`
			`qa_subject_list = ['car_market']`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`for subject_name in subject_list:`
增加大模型评分模块以及问答数据集处理模块（半成品）。 9 months ago			`print("Now testing: " + subject_name)`
优化评分部分文件结构，增加对比式gpt评分 8 months ago			`# subject_name=args.subject`
			`val_file_path = os.path.join('data/val', f'{subject_name}_val.csv')`
			`val_df = pd.read_csv(val_file_path)`
			`if args.few_shot:`
			`dev_file_path = os.path.join('data/dev', f'{subject_name}_dev.csv')`
			`dev_df = pd.read_csv(dev_file_path)`
			`correct_ratio = evaluator.eval_subject(subject_name, val_df, dev_df, few_shot=args.few_shot,`
			`save_result_dir=save_result_dir, cot=args.cot)`
			`else:`
			`correct_ratio = evaluator.eval_subject(subject_name, val_df, few_shot=args.few_shot,`
			`save_result_dir=save_result_dir)`
			`print("Acc:", correct_ratio)`

bug修复。 7 months ago			`result_list = []`

优化评分部分文件结构，增加对比式gpt评分 8 months ago			`# for subject_name in qa_subject_list:`
			`# print("Now testing: " + subject_name)`
			`# qa_file_path = os.path.join('data/qa', f'{subject_name}_qa.csv')`
			`# qa_df = pd.read_csv(qa_file_path)`
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`# result_list.append(evaluator.eval_qa(subject_name, qa_df, save_result_dir=save_result_dir))`
bug修复。 7 months ago
优化代码结构，减少重复代码，增加复用模块。完善评估流程，保证选择题->问答题->大模型评估全流程覆盖。 7 months ago			`# if evaluator_class is not None:`
			`# del evaluator`
			`# evaluator = evaluator_class(`
			`# choices=choices,`
			`# k=args.ntrain,`
			`# model_name=args.model_name,`
			`# device=device`
			`# )`
			`# for index,subject_name in enumerate(qa_subject_list):`
			`# print("Now testing (origin): " + subject_name)`
			`# qa_file_path = os.path.join('data/qa', f'{subject_name}_qa.csv')`
			`# qa_df = pd.read_csv(qa_file_path)`
			`# origin_result = evaluator.eval_qa(subject_name, qa_df, save_result_dir=save_result_dir)`
			`# origin_result = origin_result.rename(columns={"model_output": "predict_origin"})`
			`# result_df = result_list[index].rename(columns={"model_output": "predict_finetune"}).join(origin_result["predict_origin"])`
			`# result_file_name = f'{subject_name}_qa_compare_result.csv'`
			`# result_df.to_csv(os.path.join(save_result_dir, result_file_name))`
支持更多大模型评估 7 months ago			`# assessment_engine = AssessmentEngine(save_result_dir, args.api_key)`
bug修复。 7 months ago			`# for subject_name in qa_subject_list:`
			`# assessment_engine.eval_result_diff(f'{subject_name}_qa_compare_result.csv')`
增加大模型评分模块以及问答数据集处理模块（半成品）。 9 months ago
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago
			`if __name__ == "__main__":`
			`parser = argparse.ArgumentParser()`
			`parser.add_argument("--ntrain", "-k", type=int, default=5)`
Make the process coherent. The saving of results has been optimized. 10 months ago			`parser.add_argument("--openai_key", type=str, default="xxx")`
支持更多大模型评估 7 months ago			`parser.add_argument("--api_key", type=str, default="xxx")`
			`parser.add_argument("--llm_engine", type=str, default="gemini")`
Make the process coherent. The saving of results has been optimized. 10 months ago			`parser.add_argument("--minimax_group_id", type=str, default="xxx")`
			`parser.add_argument("--minimax_key", type=str, default="xxx")`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`parser.add_argument("--few_shot", action="store_true")`
Make the process coherent. The saving of results has been optimized. 10 months ago			`parser.add_argument("--model_name", type=str)`
			`parser.add_argument("--cot", action="store_true")`
Init commit. Add Evaluators and support ChatGLM/ChatGLM2. 10 months ago			`# parser.add_argument("--subject","-s",type=str,default="operating_system")`
			`parser.add_argument("--cuda_device", type=str)`
			`parser.add_argument("--finetune", type=str)`
增加评分代码 9 months ago			`parser.add_argument("--finetune_method", type=str)`
			`user_args = parser.parse_args()`
			`main(user_args)`