视觉语言模型的最新进展
多模态大型模型,处理文本、图像和视频数据
开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适