关于车道线的评估方式

请问tusimple、culane和llamas dataset，在评估f1-score时，是使用instance(多类别)还是binary(二分类)的结果?在测试llamas时，因为车道线断断续续，我的instance测试效果很差，与其他论文f1-score=80-90差太多。