评分标准¶
共40分,其中实验功能35分,实验报告5分。
实验的两个时间节点:
- 预训练语言模型、有监督微调模型和评估模型效果,在9月17日(周日)由助教线下验收。
- 模型分析结果(可以写模型分析报告或者写在实验报告内)、实验报告以及所有源代码,在9月17日(周日)晚上23:59截止提交。
实验功能¶
- 预训练模型(15分)
- 训练模型代码正确可运行(5分)
- 训练损失曲线收敛(5分)
- 预训练模型能够正常输出内容,即对输入进行补全(5分)
- 有监督微调模型(13分)
- 微调数据收集(3分)
- 微调模型正常运行,并且训练损失收敛(5分)
- 微调模型能够输出正常内容,即回答输入问题(5分)
- 部署模型与评估模型效果(7分)
- 实现模型在个人电脑上运行,进行可视化界面的对话展示(2分)
- 评估模型的效果(5分):生成速度、生成文本有效、生成质量(流畅、没有截断、与问题相关等)
实验报告¶
- 介绍和展示构造有监督微调数据的方法、模型的生成内容、收集数据集的方法、模型效果分析等,也可以包含在实验过程中其他探索性质的尝试(5分)
- 注意:实验报告的分析质量会影响评分。
- (可选)估计实现各个功能大致花费的时间(单位:小时),以及任何对本实验的感想
最后更新:
2023年9月9日
作者: