Al-Media2Doc,一键将音视频转换成各种风格的文档

简介

AI 视频图文创作助手是一款Web工具,基于AI大模型, 一键将视频和音频转化为各种风格的文档,无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。

Al-Media2Doc,一键将音视频转换成各种风格的文档

核心功能

✅ 完全开源:MIT 协议授权,支持本地部署。
🔒 隐私保护:无需登录注册,任务记录保存在本地
💻 前端处理:采用 ffmpeg wasm 技术,无需本地安装 ffmpeg
🎯 多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
🤖 AI 对话:支持针对视频内容进行 AI 二次问答。
🎬 支持字幕导出: 结果一键导出为字幕文件。
🐳 一键部署:支持 Docker 一键部署。

🔜 未来计划

📷 支持智能截取视频关键帧,实现真正的图文并茂
🎙️ 音频识别支持使用 fast-whisper 本地大模型处理,进一步降低成本
🎨 支持在前端自定义配置 prompt。

项目截图

Al-Media2Doc,一键将音视频转换成各种风格的文档
首页
Al-Media2Doc,一键将音视频转换成各种风格的文档
加载页
Al-Media2Doc,一键将音视频转换成各种风格的文档
结果页, 支持一键导出为字幕
Al-Media2Doc,一键将音视频转换成各种风格的文档
可基于视频内容进行 AI 二次对话

docker 本地一键部署

镜像构建:

$ make docker-image

请根据 后端部署指引 / 配置项说明 完善根目录下的 variables.env 文件

修改前端的 evn.development 中的 VITE_API_BASE_URL 为 http://0.0.0.0:8080

运行项目

$ make run

前端环境配置

1.安装 Node.js

要求 node 版本为 20+, 我本地的 node 版本为 22.0.0

2.安装依赖

npm install

3.启动服务

npm run dev

4.浏览器访问

打开浏览器访问 http://localhost:5173/ 即可。


后端部署教程

后端依赖于字节跳动火山引擎高代码 SDK Arkitect 高代码 SDK Arkitect。 在启动后端服务之前, 需要先安装好 Arkitect 的依赖, 并且申请字节 Tos 对象存储服务 以及 对应大模型的 API 调用权限

注意 ⚠️: 请至少保证你本地的 Python 版本为 3.9 及以上, 否则可能会出现依赖无法安装, 项目启动失败等问题。

1.安装依赖

pip install -r requirements.txt

2.配置环境变量

export ENDPOINT_ID=xxxx
export ARK_API_KEY=xxxx
export TOS_ACCESS_KEY=xxxx
export TOS_SECRET_KEY=xxxx
export TOS_ENDPOINT=xxxx
export TOS_REGION=xxxx
export TOS_BUCKET=xxxx
export AUC_APP_ID=xxxx
export AUC_ACCESS_TOKEN=xxxx

3.启动服务

python main.py

在火山引擎获取对应的环境变量的值

主要分为三部分, 火山方舟/字节Tos/音频识别大模型

火山方舟

ENDPOINT_ID

登录方舟控制台,创建一个推理接入点(Endpoint),推荐使用Doubao-pro-32k 参考文档 你就得到了 ENDPOINT_ID 的 值。

ARK_API_KEY

在 API Key 管理中创建一个 API Key 参考文档 你就得到了 ARK_API_KEY 的值。

火山引擎对象存储服务

创建 bucket 设置跨域规则

登录 对象存储控制台 创建一个 bucket, 创建完毕之后进入该 bucket。点击右侧权限管理, 找到跨域访问设置, 新建一条跨域访问规则。

Al-Media2Doc,一键将音视频转换成各种风格的文档

当然你也可以根据实际情况灵活选择。

TOS_BUCKET

TOS_BUCKET 的值就是你创建的 bucket 的名称。

TOS_REGION

TOS_REGION 的值就是你创建的 bucket 的区域, 例如 cn-beijing。

TOS_ACCESS_KEY 和 TOS_SECRET_KEY

进入 IAM控制台 创建一个访问密钥, 你就得到了 TOS_ACCESS_KEY 和 TOS_SECRET_KEY 的值。

音频识别大模型

登录录音文件识别大模型控制台(https://console.volcengine.com/speech/service), 点击右侧录音文件识别大模型, 创建一个应用, 你就得到了 AUC_APP_ID 和 AUC_ACCESS_TOKEN 的值。

AUC_APP_ID

AUC_APP_ID 的值就是你创建的应用的 ID。

AUC_ACCESS_TOKEN

AUC_ACCESS_TOKEN 的值就是你创建的应用的 Access Token。

原创文章,作者:howkunet,如若转载,请注明出处:https://www.intoep.com/othen/66875.html

(0)
打赏 微信赞赏 微信赞赏 支付宝赞赏 支付宝赞赏
上一篇 2025-05-26 10:33
下一篇 2025-05-28 15:07

相关推荐

发表回复

登录后才能评论
扫码了解
扫码了解
反馈建议
分享本页
返回顶部