### Feature request / 功能建议 - ### Motivation / 动机 由于有多模态场景应用的需求,需用到bge-vl系列的模型,如BGE-VL-v1.5-mmeb,BGE-VL-MLLM等;也会用到qwen2.5-vl视频输入的能力,希望能增加对这两处多模态能力的支持,谢谢。 ### Your contribution / 您的贡献 有看到之前有大佬提过类似pr: https://github.com/xorbitsai/inference/pull/3092