阿里云通义开源 Qwen2.5-VL,视觉理解能力全面超越 GPT-4o
1 月 28 日,阿里云通义千问开源全新的视觉模型 Qwen2.5-VL,夺得十余项权威评测中的视觉理解冠军,全面超越 GPT-4o 与 Claude3.5。
新的 Qwen2.5-VL 能够更准确地解析图像内容,突破性地支持超 1 小时的视频理解,无需微调就可变身为一个能操控手机和电脑的 AI 视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。(来源:36 氪)