面壁开源了其最新模型:MiniCPM-o 2.6,首个支持在 iPad等端侧设备进行多模态实时流式交互的多模态模型,视觉、语音和多模态流式能力说是达到了GPT-4o-202405级别
1、总参数量 8B
2、支持可配置声音的中英双语语音对话,同时具备情感、语速、风格控制、端到端声音克隆、角色扮演等进阶能力
3、能接受连续视频和音频流,进行实时语音交互。在StreamingBench上,超过了GPT-4o-202408和Claude 3.5 Sonnet
4、增强了OCR、可信行为、多语言支持和视频理解等视觉能力
OpenBMB/MiniCPM-otree/main