跳转至

评分标准

共40分,其中实验功能35分,实验报告5分。

实验的两个时间节点:

  1. 预训练语言模型、有监督微调模型和评估模型效果,在9月17日(周日)由助教线下验收。
  2. 模型分析结果(可以写模型分析报告或者写在实验报告内)、实验报告以及所有源代码,在9月17日(周日)晚上23:59截止提交。

实验功能

  • 预训练模型(15分)
    • 训练模型代码正确可运行(5分)
    • 训练损失曲线收敛(5分)
    • 预训练模型能够正常输出内容,即对输入进行补全(5分)
  • 有监督微调模型(13分)
    • 微调数据收集(3分)
    • 微调模型正常运行,并且训练损失收敛(5分)
    • 微调模型能够输出正常内容,即回答输入问题(5分)
  • 部署模型与评估模型效果(7分)
    • 实现模型在个人电脑上运行,进行可视化界面的对话展示(2分)
    • 评估模型的效果(5分):生成速度、生成文本有效、生成质量(流畅、没有截断、与问题相关等)

实验报告

  • 介绍和展示构造有监督微调数据的方法、模型的生成内容、收集数据集的方法、模型效果分析等,也可以包含在实验过程中其他探索性质的尝试(5分)
    • 注意:实验报告的分析质量会影响评分。
  • (可选)估计实现各个功能大致花费的时间(单位:小时),以及任何对本实验的感想

最后更新: 2023年9月9日
作者:xujz18 (37.04%), think2try (14.81%), dawnzzhang (44.44%), minkowski0125 (3.7%)