请问tusimple、culane和llamas dataset,在评估f1-score时,是使用instance(多类别)还是binary(二分类)的结果?在测试llamas时,因为车道线断断续续,我的instance测试效果很差,与其他论文f1-score=80-90差太多。