浏览器插件,一键翻译网页上的图片文字。
揭示照片背后的故事和隐私信息
多模态大型模型,处理文本、图像和视频数据
端侧全模态理解开源模型
AnyParser Pro 是一款能够快速准确地从 PDF、PPT 和图像中提取内容的大型语言模型。
AI驱动的视觉搜索引擎,探索视觉故事。
TranslatePic是一款功能强大的图像翻译工具,支持多语言识别和翻译,帮助用户快速准确地翻译图像中的文本内容,TranslatePic官网入口网址
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
一站式OCR代理,快速从图像中生成洞见。
多模态大型语言模型,支持图像和文本理解
新一代视觉语言模型,更清晰地看世界。Qwen2-VL官网入口网址
文档版面分析工具,RapidLayout官网入口网址
由 Google 训练的 AI 模型,用于对野生动物相机陷阱图像中的物种进行分类。
PaliGemma 2 mix 是一款多功能的视觉语言模型,适用于多种任务和领域。
OmniParser 是一款通用屏幕解析工具,可将 UI 截图转换为结构化格式,提升基于 LLM 的 UI 代理性能。
一款通过生活场景学习日语的APP。
Kimi 视觉模型可理解图片内容,包括文字、颜色和物体形状等。
专注研发基于存算一体先进技术的人工智能芯片,知存科技官网入口网址
一个由moondream创建的Hugging Face Space,用于展示注视点相关技术
126课时从简单到复杂带领大家深入学习和应用深度学习技术,深度学习框架【TensorFlow2】官网入口网址
基于人工智能的图像描述生成器
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适