Qwen2.5-VL的Cookbooks出来了,包含了一系列用例指南,有计算机使用、空间理解、文档解析、移动代理、OCR、通用识别、视频理解等,可以快速上手
计算机使用,它会截取用户桌面的屏幕截图和用户查询,然后利用模型对查询进行解释
空间理解,展示了Qwen2.5-VL的高级空间定位能力,包括在图像中进行准确的目标检测和特定目标定位,展示了模型如何整合视觉和语言理解来解释复杂的场景等
文档解析,它可以处理任何图像,并以 HTML、JSON、MD 和 LaTeX 等多种格式输出
移动代理,演示了如何使用Qwen2.5-VL的代理函数调用功能与移动设备进行交互,展示了模型根据用户查询和视觉上下文生成和执行操作的能力
OCR,从图像中提取和识别文本,了解它如何在复杂场景下也能准确捕获和解释文本内容
cookbooks链接:QwenLM/Qwen2.5-VL/tree/main/cookbooks
Qwen 聊天:https://chat.qwenlm.ai(选择 Qwen2.5-VL-72B-Instruct 作为模型)
API:https://www.alibabacloud.com/help/en/model-studio/user-guide/vision/