Skip to content

NightWatcher314/MediaAIO

Repository files navigation

MediaAIO


MediaAIO

集成了音视频方面常见的一些开源 ai 模型,旨在为用户提供一个统一的接口,方便用户使用。
探索本项目的文档 »
· 报告Bug · 提出新特性

1. 目录

2. 环境配置

2.1 整体配置

请确保你的环境中有 cuda ,本项目目前只在 cuda11.8 上进行过测试。

对于每个项目的models文件,请自行下载,会提供下载链接,目前支持自动下载的有 RealESRGAN,NAFNet,SWINIR,RobustVideoMatting,Whisper-Faster 模型。

2.1.1 使用 Poetry(建议)

git clone --recursive https://github.com/NightWatcher314/MediaAIO
cd MediaAIO
poetry env use "path to your python executable"
poetry install --no-root

2.2 部分模型的配置

对于部分模型,需要额外的配置:

2.2.1 NAFNET

cd models/NAFNet
poetry init -n
poetry run pip install -r requirements.txt
poetry run python setup.py develop --no_cuda_ext

3. 项目使用

请确保在使用前完成相关的环境配置。

./start.bat

4. 项目示例

4.1 视频部分

4.1.1 视频超分辨率

支持 RealESRGAN 与 RealSR 两类超分辨率模型。

视频超分辨率

4.1.2 视频插帧

支持 RIFE 与 VRT 两类视频插针模型。

4.1.3 背景分离

支持 RobustVideoMatting 背景分离模型。

4.2 图像部分

4.2.1 图像超分辨率

支持 RealESRGAN,NAFNet,SWINIR 等超分辨率模型。

4.2.2 图像去雾

支持 HAT,NAFNet,SWINIR 去雾模型。

4.2.3 图像风格化

支持 AnimeGAN,StyleGAN2 风格化模型。

4.3 音频部分

4.3.1 音频增强

支持 uvr5 系列的音频分离以及音频增强模型模型。

4.3.2 音频识别

支持 Whisper-Faster 系列的音频识别模型。 对于中文,支持 FunASR 音频识别模型。

5. 其余部分

文件目录说明

  • eg:
filetree
├── LICENSE
├── README.md
├── download.py
├── logs
│   └── all
├── models
│   ├── ECCV2022-RIFE
│   ├── HAT
│   ├── NAFNet
│   ├── Real-ESRGAN
│   ├── RobustVideoMatting
│   ├── SwinIR
│   ├── VRT
│   ├── Whisper-Faster
│   ├── audio-separator
│   └── realsr-ncnn-vulkan
├── poetry.lock
├── pyproject.toml
├── pyproject_back.toml
├── src
│   ├── __pycache__
│   ├── config.py
│   ├── gradio_pages
│   ├── test.py
│   ├── utils
│   ├── warp
│   └── webui.py
├── start.bat
├── test_assets
│   ├── audio
│   ├── draw
│   ├── image
│   ├── output
│   └── video
└── verify.bat

开发的架构

前端部分采用了 gradio ,后端部分主要是利用subprocess或者直接load model来进行推理。

版权说明

该项目签署了 BSD 3-Clause 授权许可,详情请参阅 LICENSE.txt

鸣谢

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages