Files

BigUncleHomePC 5c2cfaa206 docs: 更新README文件以包含致谢部分和英文文档

在README-CN.md中添加了致谢部分，感谢开发过程中使用的AI工具和模型。同时新增了README.md文件，提供项目的英文文档，包括功能、安装、使用说明、性能优化等内容。

2025-03-22 05:53:43 +08:00

4.9 KiB

Raw Permalink Blame History

Whisper 语音识别 MCP 服务器

基于 Faster Whisper 的语音识别 MCP 服务器，提供高性能的音频转录功能。

功能特点

集成 Faster Whisper 进行高效语音识别
支持批处理加速，提高转录速度
自动使用 CUDA 加速（如果可用）
支持多种模型大小（tiny 到 large-v3）
输出格式支持 VTT 字幕和 JSON
支持批量转录文件夹中的音频文件
模型实例缓存，避免重复加载

安装

依赖项

Python 3.10+
faster-whisper>=0.9.0
torch==2.6.0+cu126
torchaudio==2.6.0+cu126
mcp[cli]>=1.2.0

安装步骤

克隆或下载此仓库
创建并激活虚拟环境（推荐）
安装依赖项：

pip install -r requirements.txt

使用方法

启动服务器

在 Windows 上，直接运行 start_server.bat。

在其他平台上，运行：

python whisper_server.py

配置 Claude Desktop

打开 Claude Desktop 配置文件：
- Windows: %APPDATA%\Claude\claude_desktop_config.json
- macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
添加 Whisper 服务器配置：

{
  "mcpServers": {
    "whisper": {
      "command": "python",
      "args": ["D:/path/to/whisper_server.py"],
      "env": {}
    }
  }
}

重启 Claude Desktop

可用工具

服务器提供以下工具：

get_model_info - 获取可用的 Whisper 模型信息
transcribe - 转录单个音频文件
batch_transcribe - 批量转录文件夹中的音频文件

性能优化建议

使用 CUDA 加速可显著提高转录速度
对于大量短音频，批处理模式效率更高
根据 GPU 显存大小自动调整批处理大小
对于长音频，使用 VAD 过滤可提高准确性
指定正确的语言可提高转录质量

本地测试方案

使用 MCP Inspector 进行快速测试：

mcp dev whisper_server.py

使用 Claude Desktop 进行集成测试
使用命令行直接调用（需要安装 mcp[cli]）：

mcp run whisper_server.py

错误处理

服务器实现了以下错误处理机制：

音频文件不存在检查
模型加载失败处理
转录过程异常捕获
GPU 内存管理
批处理参数自适应调整

许可证

MIT

致谢

本项目在开发过程中得到了以下优秀AI工具和模型的帮助：

GitHub Copilot - AI结对编程助手
Trae - 智能AI编码助手
Cline - AI驱动的终端
DeepSeek - 先进的AI模型
Claude-3.7-Sonnet - Anthropic强大的AI助手
Gemini-2.0-Flash - Google的多模态AI模型
VS Code - 强大的代码编辑器
Whisper - OpenAI的语音识别模型
Faster Whisper - 优化的Whisper实现

特别感谢这些出色的工具和背后的团队。

Whisper 语音识别 MCP 服务器（cline claude sonnet 3.7 完成所有任务后的说明）

我已经成功创建了基于Python的语音识别MCP服务器，该服务器集成了Faster Whisper并支持批处理加速。服务器具有以下特点：

核心功能

集成Faster Whisper：使用最新版本(>=0.9.0)进行高效语音识别
CUDA加速：自动检测并使用CUDA加速，默认使用torch==2.6.0+cu126
批处理优化：使用BatchedInferencePipeline实现批处理，根据GPU显存自动调整批大小
模型缓存：实现模型实例缓存，避免重复加载模型
多格式输出：支持VTT字幕和JSON格式的转录结果
批量处理：支持批量转录整个文件夹的音频文件

主要工具

服务器提供了三个主要工具：

get_model_info：获取可用的Whisper模型信息和系统配置
transcribe：转录单个音频文件，支持多种参数配置
batch_transcribe：批量转录文件夹中的音频文件

错误处理机制

音频文件存在性验证
模型加载异常捕获和日志记录
转录过程异常处理
GPU内存管理和清理
批处理参数自适应调整

性能优化

根据GPU显存大小动态调整批处理大小(4-32)
使用VAD(语音活动检测)过滤提高准确性
模型实例缓存避免重复加载
自动选择最佳设备和计算类型

本地测试方案

提供了多种测试方法：

使用MCP Inspector进行快速测试：mcp dev whisper_server.py
使用Claude Desktop进行集成测试
使用命令行直接调用：mcp run whisper_server.py

所有文件已准备就绪，包括：

whisper_server.py：主服务器代码
requirements.txt：依赖项列表
start_server.bat：Windows启动脚本
README.md：详细文档

您可以通过运行start_server.bat或直接执行python whisper_server.py来启动服务器。

4.9 KiB Raw Permalink Blame History Unescape Escape

Whisper 语音识别 MCP 服务器

功能特点

安装

依赖项

安装步骤

使用方法

启动服务器

配置 Claude Desktop

可用工具

性能优化建议

本地测试方案

错误处理

许可证

致谢

Whisper 语音识别 MCP 服务器（cline claude sonnet 3.7 完成所有任务后的说明）

核心功能

主要工具

错误处理机制

性能优化

本地测试方案

4.9 KiB

Raw Permalink Blame History