Files
Fast-Whisper-MCP-Server/README-CN.md
BigUncleHomePC 5c2cfaa206 docs: 更新README文件以包含致谢部分和英文文档
在README-CN.md中添加了致谢部分,感谢开发过程中使用的AI工具和模型。同时新增了README.md文件,提供项目的英文文档,包括功能、安装、使用说明、性能优化等内容。
2025-03-22 05:53:43 +08:00

4.9 KiB
Raw Permalink Blame History

Whisper 语音识别 MCP 服务器

基于 Faster Whisper 的语音识别 MCP 服务器,提供高性能的音频转录功能。

功能特点

  • 集成 Faster Whisper 进行高效语音识别
  • 支持批处理加速,提高转录速度
  • 自动使用 CUDA 加速(如果可用)
  • 支持多种模型大小tiny 到 large-v3
  • 输出格式支持 VTT 字幕和 JSON
  • 支持批量转录文件夹中的音频文件
  • 模型实例缓存,避免重复加载

安装

依赖项

  • Python 3.10+
  • faster-whisper>=0.9.0
  • torch==2.6.0+cu126
  • torchaudio==2.6.0+cu126
  • mcp[cli]>=1.2.0

安装步骤

  1. 克隆或下载此仓库
  2. 创建并激活虚拟环境(推荐)
  3. 安装依赖项:
pip install -r requirements.txt

使用方法

启动服务器

在 Windows 上,直接运行 start_server.bat

在其他平台上,运行:

python whisper_server.py

配置 Claude Desktop

  1. 打开 Claude Desktop 配置文件:

    • Windows: %APPDATA%\Claude\claude_desktop_config.json
    • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  2. 添加 Whisper 服务器配置:

{
  "mcpServers": {
    "whisper": {
      "command": "python",
      "args": ["D:/path/to/whisper_server.py"],
      "env": {}
    }
  }
}
  1. 重启 Claude Desktop

可用工具

服务器提供以下工具:

  1. get_model_info - 获取可用的 Whisper 模型信息
  2. transcribe - 转录单个音频文件
  3. batch_transcribe - 批量转录文件夹中的音频文件

性能优化建议

  • 使用 CUDA 加速可显著提高转录速度
  • 对于大量短音频,批处理模式效率更高
  • 根据 GPU 显存大小自动调整批处理大小
  • 对于长音频,使用 VAD 过滤可提高准确性
  • 指定正确的语言可提高转录质量

本地测试方案

  1. 使用 MCP Inspector 进行快速测试:
mcp dev whisper_server.py
  1. 使用 Claude Desktop 进行集成测试

  2. 使用命令行直接调用(需要安装 mcp[cli]

mcp run whisper_server.py

错误处理

服务器实现了以下错误处理机制:

  • 音频文件不存在检查
  • 模型加载失败处理
  • 转录过程异常捕获
  • GPU 内存管理
  • 批处理参数自适应调整

许可证

MIT

致谢

本项目在开发过程中得到了以下优秀AI工具和模型的帮助

特别感谢这些出色的工具和背后的团队。


Whisper 语音识别 MCP 服务器cline claude sonnet 3.7 完成所有任务后的说明)

我已经成功创建了基于Python的语音识别MCP服务器该服务器集成了Faster Whisper并支持批处理加速。服务器具有以下特点

核心功能

  • 集成Faster Whisper:使用最新版本(>=0.9.0)进行高效语音识别
  • CUDA加速自动检测并使用CUDA加速默认使用torch==2.6.0+cu126
  • 批处理优化使用BatchedInferencePipeline实现批处理根据GPU显存自动调整批大小
  • 模型缓存:实现模型实例缓存,避免重复加载模型
  • 多格式输出支持VTT字幕和JSON格式的转录结果
  • 批量处理:支持批量转录整个文件夹的音频文件

主要工具

服务器提供了三个主要工具:

  1. get_model_info获取可用的Whisper模型信息和系统配置
  2. transcribe:转录单个音频文件,支持多种参数配置
  3. batch_transcribe:批量转录文件夹中的音频文件

错误处理机制

  • 音频文件存在性验证
  • 模型加载异常捕获和日志记录
  • 转录过程异常处理
  • GPU内存管理和清理
  • 批处理参数自适应调整

性能优化

  • 根据GPU显存大小动态调整批处理大小(4-32)
  • 使用VAD(语音活动检测)过滤提高准确性
  • 模型实例缓存避免重复加载
  • 自动选择最佳设备和计算类型

本地测试方案

提供了多种测试方法:

  • 使用MCP Inspector进行快速测试mcp dev whisper_server.py
  • 使用Claude Desktop进行集成测试
  • 使用命令行直接调用:mcp run whisper_server.py

所有文件已准备就绪,包括:

  • whisper_server.py主服务器代码
  • requirements.txt依赖项列表
  • start_server.batWindows启动脚本
  • README.md详细文档

您可以通过运行start_server.bat或直接执行python whisper_server.py来启动服务器。