生成模型

Musenet

生成4分钟的音乐作品，结合多种音乐风格和乐器，Musenet官网入口网址

Generative Powers of Ten

基于文本描述实现多尺度连续缩放视频生成。Generative Powers of Ten官网入口网址

Trajectory Consistency Distillation (TCD)

提高文本到图像合成质量的一致性蒸馏技术，Trajectory Consistency Distillation (TCD)官网入口网址

StemGen

StemGen: 一款聆听音乐生成模型，StemGen官网入口网址

HAAR

基于文本条件的3D发型生成模型，HAAR官网入口网址

PixelCNN

PixelCNN++是一种基于PixelCNN的生成模型，具有可计算的似然函数和易于采样的特点，适用于图像生成和数据增强等应用场景，PixelCNN官网入口网址

CosXL

CosXL模型调整为使用余弦连续EDM VPred调度，可产生全色彩范围图像。CosXL官网入口网址

Stable Video Diffusion 1.1 Image-to-Video

SVD 1.1 Image-to-Video 模型生成短视频，Stable Video Diffusion 1.1 Image-to-Video官网入口网址

UniFL

提升生成模型质量和加速推理的项目，UniFL官网入口网址

Ideogram 1.0

人工智能辅助创意生成图片，Ideogram 1.0官网入口网址

Lumina-T2X

一个统一的文本到任意模态生成框架，Lumina-T2X官网入口网址

PCM

一种新的文本条件高分辨率生成模型，PCM官网入口网址

Imagen 3 by Google

Imagen 3是我们质量最高的文本到图像模型，能够生成具有更好细节、更丰富光照和更少干扰性伪影的图像。Imagen 3 by Google官网入口网址

AuraFlow

开源的基于流的文本到图像生成模型，AuraFlow官网入口网址

SV4D

生成多视角视频的模型，SV4D官网入口网址

UNO

一款通过生成模型提升图像生成一致性的工具。

FlexRAG

一个用于信息检索和生成的灵活高性能框架

IMM

Inductive Moment Matching 是一种新型的生成模型，用于高质量图像生成。

Stable Diffusion 3.5 Medium

基于文本生成图像的多模态扩散变换器模型

FluxMusic

使用文本生成音乐的模型

MIDI

通过多实例扩散模型将单张图像生成高保真度的3D场景。

LongRAG

长文本问答增强型检索生成模型

EasyControl

为 Diffusion Transformer 提供高效灵活的控制框架。

MaskVAT

视频到音频生成模型，增强同步性，MaskVAT官网入口网址

ViPer

ViPer是一种个性化方法，通过要求用户对几张图片发表评论，解释他们的喜好和不喜好，提取个人偏好。这些偏好指导文本到图像模型生成符合个人口味的图像。ViPer官网入口网址

InstantIR

盲图像恢复技术，利用即时生成参考图像恢复破损图像

SRM

通过去噪生成模型进行空间推理，解决复杂分布下的视觉任务。

Audio-SDS

通过音频扩散模型实现源分离和合成的创新方法。

OpeniTab