MiniCPM-o 2.6

面壁开源了其最新模型：MiniCPM-o 2.6，首个支持在 iPad等端侧设备进行多模态实时流式交互的多模态模型，视觉、语音和多模态流式能力说是达到了GPT-4o-202405级别

1、总参数量 8B

2、支持可配置声音的中英双语语音对话，同时具备情感、语速、风格控制、端到端声音克隆、角色扮演等进阶能力

3、能接受连续视频和音频流，进行实时语音交互。在StreamingBench上，超过了GPT-4o-202408和Claude 3.5 Sonnet