深度学习

Open-MAGVIT2

开源自回归视觉生成模型项目

MatAnyone

MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

Flex.1-alpha

一个基于文本生成图像的预训练模型，具有80亿参数和Apache 2.0开源许可。

WhisperNER

统一的开放命名实体和语音识别模型

InspireMusic

基于 PyTorch 的音乐、歌曲和音频生成工具包，支持高质量音频生成

YuE-s1-7B-anneal-en-cot

YuE是一个开源的音乐生成模型，能够将歌词转化为完整的歌曲。

TextDiffuser-2

一个功能强大的图像生成工具，它通过扩散模型技术，根据文本描述生成高质量的图像。这个工具为用户提供了一种创新的方式来探索和实现他们的创意视觉概念，TextDiffuser-2官网入口网址

Pusa

Pusa 是一个新颖的视频扩散模型，支持多种视频生成任务。

QA-MDT

开源的音乐生成模型

Watermark Anything

图像水印技术，可在图片中嵌入局部化水印信息

ZenCtrl

上下文驱动的图像生成工具，保持前景保真度。

Thera

一种无混叠的任意尺度超分辨率方法。

QwQ-32B

QwQ-32B 是一款强大的推理模型，专为复杂问题解决和文本生成设计，性能卓越。

Tingo.ai

用户能够根据自己的喜好创建和互动一个AI女友。这个工具以其定制化选项、深度学习能力和灵活的互动功能为主要特点，为用户提供了一个可以进行情感交流和个性化互动的虚拟伴侣，Tingo.ai官网入口网址

DeepFuze

革命性深度学习工具，用于面部转换和视频生成。

Flux.1 Lite

8B参数变分自编码器模型，用于高效的文本到图像生成。

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是 Anthropic 推出的最新智能模型，支持快速响应和深度推理。

OptiSpeech

轻量级端到端文本到语音模型

FLUX.1 Krea [dev]

一款高效的文本生成图像模型，具有出色的输出质量。

MIDI

通过多实例扩散模型将单张图像生成高保真度的3D场景。

Janus-Pro-1B

Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

F Lite

F Lite 是一款 10B 参数的扩散模型，专注于合法和安全内容。

Worlds of Frames

Frames 是 Runway 推出的高级图像生成基础模型，提供前所未有的风格控制和视觉保真度。

Flux-Midjourney-Mix2-LoRA

一款基于Midjourney风格的文本到图像生成模型，专注于高分辨率和写实风格的图像创作。

CausVid

快速因果视频生成器，实现即时视频生成。

MaskGCT TTS Demo

基于MaskGCT模型的文本到语音演示

SF3D

快速生成带纹理的3D模型，SF3D官网入口网址

awesome-nano-banana

优秀的图像生成与编辑模型，展示 AI 艺术的新可能。

DreamO

DreamO 是一个统一的图像定制框架。

GLM-4-32B

强大的语言模型，支持多种自然语言处理任务。

DeepFloyd

DeepFloyd IF是一个强大的文本到图像生成模型，能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术，提供了多种功能，如超分辨率、风格迁移和零样本学习，DeepFloyd官网入口网址

AnimateAnyone

由Novita AI提供的非官方Animate Anyone实现

OpeniTab