对bge-vl系列模型和qwen2.5-vl视频输入处理的支持

### Feature request / 功能建议

-

### Motivation / 动机

由于有多模态场景应用的需求，需用到bge-vl系列的模型，如BGE-VL-v1.5-mmeb，BGE-VL-MLLM等；也会用到qwen2.5-vl视频输入的能力，希望能增加对这两处多模态能力的支持，谢谢。

### Your contribution / 您的贡献

有看到之前有大佬提过类似pr：

https://github.com/xorbitsai/inference/pull/3092