Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
Adobe 推出全新 Photoshop iPhone 应用,为移动创作者重新定义图像编辑体验。
WHAM 是微软开发的一种生成式游戏模型,用于生成游戏视觉和控制器动作。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
VisionAgent是一个用于生成代码以解决视觉任务的库,支持多种LLM提供商。
用于衡量设备 AI 加速器推理性能的基准测试工具。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
一个由moondream创建的Hugging Face Space,用于展示注视点相关技术
一种从2D图像学习3D人体生成的结构化潜在扩散模型。
一个基于Google Gemini 2.0的高精度OCR文字识别应用。
一种用于扩散变换器的上下文LoRA微调技术
基于GIMM-VFI的ComfyUI帧插值工具
视频扩散模型,用于虚拟试穿。
高效分离图像前景与背景的模型
自定义Redux效果强度的图像处理工具
图像生成模型,提供前所未有的风格控制。
FLUX.1的最小且通用的控制器
AI驱动的动物图像生成器,快速创建高质量动物图像。
AI驱动的绘画与照片编辑应用
WePOINTS项目,提供多模态模型的统一框架
基于记忆引导扩散的表达性视频生成工具
预测受损历史文档原始外观的技术
创建可动的4D人像化身模型
一种用于控制人类图像动画的方法
多模态大型模型,处理文本、图像和视频数据
定制化漫画生成模型,连接多模态LLMs和扩散模型。
智能搜索平台,集成多种AI服务
即时生成3D模型的AI平台
通过拍照快速获取物品的真实价值。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适