音频处理 - 第 8 页 - Home

音频处理

一个用于说话人分割的工具包

快速生成个性化和富有表现力的3D会说话面部模型

Draw an Audio

利用多指令视频到音频合成技术

MMAudio根据视频和/或文本输入生成同步音频。

全球音频感知技术的革命性AI唇同步技术。

轻量级嵌套架构，用于语音反欺诈。

Youtube-Whisper

利用OpenAI的Whisper模型转录YouTube视频

基于流匹配的音频驱动说话人像视频生成方法

通过音频扩散模型实现源分离和合成的创新方法。

JoyGen 是一种音频驱动的 3D 深度感知的说话人脸视频编辑技术。

Tourly Guide

沉浸式音频导览，让每个地标自己说话

Voice Isolator

从任何音频中提取清晰人声

firecrawl-openai-realtime

集成Firecrawl的OpenAI实时API控制台

Bangin’ Audio Recorder

轻松捕捉和完善你的音频创意

端到端音频驱动的人体动画框架

保护隐私的音频深度检测

Matrix Game 2

Matrix Game 2提供实时交互式世界生成。

AI-Powered Sleep Story Generator

个性化AI助眠故事生成器，助你安然入梦

将静态肖像和输入音频转化为生动的动画对话视频

NotebookLM Audio Overview

将文档转化为AI生成的音频讨论，便于学习和记忆。

零样本声音转换技术，实现音质与音色的高保真转换。

一个全面的AI神经网络工具目录

Reddit故事的有声化平台

V03 AI是基于Google Veo 3 AI技术的视频生成器，支持文本到视频和图片到视频的转换，具备音频功能。

ElevenReader Publishing

ElevenReader Publishing 是一个零成本将书籍快速转化为专业有声书并全球分发的平台。

ElevenLabs Studio

一个用于将书籍转为有声读物、剧本转为播客的音频生成平台。

快速获取书籍摘要和音频，提升学习效率。

veo 3 free video generator

利用Google VEO 3 AI技术创建高品质8秒视频。

Loopy model

Loopy，仅凭音频驱动肖像头像，实现逼真动态。

llm-podcast-engine

智能播客生成器，自动创建引人入胜的音频内容。

播客分享平台，发现热门播客节目。

一个用于生成播客及其他音频文件转录文本的工具，支持多种语言模型和语音识别API。

1…6 789