video-trend-spotter/transcriber.py

import os
import glob
import datetime

import whisper

from datahandler import DataHandler


class Transcriber:
    def __init__(self, model_name="base"):
        self.model_name = model_name
        self.DataHandler = DataHandler()

    def load_model(self):
        self.model = whisper.load_model(name=self.model_name, download_root="models/")

    def transcribe(self, audio_file):
        self.transcription = self.model.transcribe(
            audio=audio_file,
            verbose=True,
            fp16=False)
        self.raw_text = self.transcription["text"]

    def persist(self):
        self.DataHandler.save_text_as_file(self.raw_text)

    def cleanup(self):
        self.DataHandler.get_audio_files()
        self.DataHandler.remove_audio_files()