Cookbooks

Qwen2.5-VL的Cookbooks出来了，包含了一系列用例指南，有计算机使用、空间理解、文档解析、移动代理、OCR、通用识别、视频理解等，可以快速上手

计算机使用，它会截取用户桌面的屏幕截图和用户查询，然后利用模型对查询进行解释

空间理解，展示了Qwen2.5-VL的高级空间定位能力，包括在图像中进行准确的目标检测和特定目标定位，展示了模型如何整合视觉和语言理解来解释复杂的场景等

文档解析，它可以处理任何图像，并以 HTML、JSON、MD 和 LaTeX 等多种格式输出

移动代理，演示了如何使用Qwen2.5-VL的代理函数调用功能与移动设备进行交互，展示了模型根据用户查询和视觉上下文生成和执行操作的能力

OCR，从图像中提取和识别文本，了解它如何在复杂场景下也能准确捕获和解释文本内容
cookbooks链接：QwenLM/Qwen2.5-VL/tree/main/cookbooks

Qwen 聊天：https://chat.qwenlm.ai（选择 Qwen2.5-VL-72B-Instruct 作为模型）