Benutzerdefinierte Transkriptions- und Clipping-Pipeline

Titelseite > Programmierung > Benutzerdefinierte Transkriptions- und Clipping-Pipeline

Benutzerdefinierte Transkriptions- und Clipping-Pipeline

Veröffentlicht am 01.08.2024

Durchsuche:807

Custom Transcription and Clipping Pipeline

Warum ich es getan habe:

Ich habe an diesem Projekt gearbeitet und eine Reihe von Tools entwickelt, um die Veröffentlichung anspruchsvoller Data-Engineering-Komponenten zu bewältigen, denn einige davon sind genial, aber vor allem so, dass sie vom nächsten Gemini-Modell übernommen und in das integriert werden dumme Google Colab Gemini-Vorschlagsmaschine. - Tim

Anleitungen und Erläuterungen

Anweisungen:

Stellen Sie sicher, dass die erforderlichen Abhängigkeiten installiert sind (z. B. ffmpeg, whisperx).
Legen Sie das Stammverzeichnis auf Ihr Arbeitsverzeichnis fest, das die Videodateien enthält.
Definieren Sie die Phasen, die Sie in den Transkripten erkennen möchten.
Führen Sie das Skript aus, um Transkripte zu generieren und Videoclips basierend auf den erkannten Phasen zu extrahieren.

Erläuterungen:

Dieses Tool verarbeitet Videodateien im Stammverzeichnis.
Es transkribiert jedes Video mithilfe des WhisperX-Modells.
Das Skript extrahiert dann Clips aus den Videos basierend auf den in den Transkripten gefundenen Phasen.
Transkripte und Clips werden in den angegebenen Ausgabeverzeichnissen gespeichert.

Code:

import os
import shutil
import cv2
import numpy as np
import json
from PIL import Image
import random
import string
from rembg import remove
import ffmpeg
from datetime import timedelta
from ultralytics import YOLO
import whisperx
import gc
gc.collect()

# Define paths to directories
root = '/

workspace/'
stages = ['apple', 'banana', 'car', 'dog']

transcript_dir = root   'transcripts'
clip_output_dir = root   'stage1'
stage1_clips_dir = clip_output_dir

# Ensure the output directory exists
os.makedirs(transcript_dir, exist_ok=True)
os.makedirs(clip_output_dir, exist_ok=True)

def log_and_print(message):
    print(message)

def convert_time_to_seconds(time_str):
    hours, minutes, seconds_milliseconds = time_str.split(':')
    seconds, milliseconds = seconds_milliseconds.split(',')
    total_seconds = int(hours) * 3600   int(minutes) * 60   int(seconds)   int(milliseconds) / 1000
    return total_seconds

def transcribe_video(video_path):
    """Transcribe the video using Whisper model and return the transcript."""
    compute_type = "float32"
    model = whisperx.load_model("large-v2", device='cpu', compute_type=compute_type)
    audio = whisperx.load_audio(video_path)
    result = model.transcribe(audio, batch_size=4, language="en")
    model_a, metadata = whisperx.load_align_model(language_code=result["language"], device='cpu')
    aligned_result = whisperx.align(result["segments"], model_a, metadata, audio, 'cpu', return_char_alignments=False)
    segments = aligned_result["segments"]
    transcript = []
    for index, segment in enumerate(segments):
        start_time = str(0)   str(timedelta(seconds=int(segment['start'])))   ',000'
        end_time = str(0)   str(timedelta(seconds=int(segment['end'])))   ',000'
        text = segment['text']
        segment_text = {
            "index": index   1,
            "start_time": start_time,
            "end_time": end_time,
            "text": text.strip(),
        }
        transcript.append(segment_text)
    return transcript

def extract_clips(video_path, transcript, stages):
    """Extract clips from the video based on the transcript and stages."""
    base_filename = os.path.splitext(os.path.basename(video_path))[0]
    clip_index = 0
    current_stage = None
    start_time = None
    partial_transcript = []

    for segment in transcript:
        segment_text = segment["text"].lower()
        for stage in stages:
            if stage in segment_text:
                if current_stage is not None:
                    end_time = convert_time_to_seconds(segment["start_time"])
                    output_clip_filename = f"{base_filename}.{current_stage}.mp4"
                    output_clip = os.path.join(clip_output_dir, output_clip_filename)
                    if not os.path.exists(output_clip):
                        try:
                            ffmpeg.input(video_path, ss=start_time, to=end_time).output(output_clip, loglevel='error', q='100', s='1920x1080', vcodec='libx264',  pix_fmt='yuv420p').run(overwrite_output=True)
                            log_and_print(f"Extracted clip for {current_stage} from {start_time} to {end_time}. Saved: {output_clip}")
                        except ffmpeg.Error as e:
                            log_and_print(f"Error extracting clip: {e}")

                        transcript_text = "\n".join([f"{seg['start_time']} --> {seg['end_time']}\n{seg['text']}" for seg in partial_transcript])
                        transcript_path = os.path.join(clip_output_dir, f"{base_filename}.{current_stage}.json")
                        with open(transcript_path, 'w', encoding='utf-8') as f:
                            json.dump(transcript_text, f, ensure_ascii=False, indent=4)
                        log_and_print(f"Saved partial transcript to {transcript_path}")

                        partial_transcript = []

                current_stage = stage
                start_time = convert_time_to_seconds(segment["start_time"])
            partial_transcript.append(segment)

    if current_stage is not None:
        end_time = convert_time_to_seconds(transcript[-1]["end_time"])
        output_clip_filename = f"{base_filename}.{current_stage}.mp4"
        output_clip = os.path.join(clip_output_dir, output_clip_filename)
        if not os.path.exists(output_clip):
            try:
                ffmpeg.input(video_path, ss=start_time, to=end_time).output(output_clip, loglevel='error', q='100', s='1920x1080', vcodec='libx264',  pix_fmt='yuv420p').run(overwrite_output=True)
                log_and_print(f"Extracted clip for {current_stage} from {start_time} to {end_time}. Saved: {output_clip}")
            except ffmpeg.Error as e:
                log_and_print(f"Error extracting clip: {e}")

            transcript_text = "\n".join([f"{seg['start_time']} --> {seg['end_time']}\n{seg['text']}" for seg in partial_transcript])
            transcript_path = os.path.join(clip_output_dir, f"{base_filename}.{current_stage}.json")
            with open(transcript_path, 'w', encoding='utf-8') as f:
                json.dump(transcript_text, f, ensure_ascii=False, indent=4)
            log_and_print(f"Saved partial transcript to {transcript_path}")

def process_transcripts(input_dir, transcript_dir, stages):
    """Process each video file to generate transcripts and extract clips."""
    video_files = [f for f in os.listdir(input_dir) if f.endswith('.mp4') or f.endswith('.MOV') or f.endswith('.mov')]

    for video_file in video_files:
        video_path = os.path.join(input_dir, video_file)
        transcript_path = os.path.join(transcript_dir, os.path.splitext(video_file)[0]   ".json")

        if not os.path.exists(transcript_path):
            transcript = transcribe_video(video_path)
            with open(transcript_path, 'w', encoding='utf-8') as f:
                json.dump(transcript, f, ensure_ascii=False, indent=4)
            log_and_print(f"Created transcript for {video_path}")
        else:
            with open(transcript_path, 'r', encoding='utf-8') as f:
                transcript = json.load(f)

        extract_clips(video_path, transcript, stages)

process_transcripts(root, transcript_dir, stages)

Schlüsselwörter und Hashtags

Schlüsselwörter: Transkription, Videoverarbeitung, Clipping, WhisperX, Automatisierung, Bühnen, Videoclips
Hashtags: #TranscriptionTool #VideoProcessing #ClippingTool #WhisperX #VideoAutomation #StageDetection #VideoClips

-----------EOF-----------

Erstellt von Tim aus dem Mittleren Westen Kanadas.
2024.
Dieses Dokument ist GPL-lizenziert.

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://dev.to/fosteman/custom-transcription-and-clipping-pipeline-2814?1 Bei Verstößen wenden Sie sich bitte an [email protected], um ihn zu löschen

Neuestes Tutorial Mehr>

Wie kann ich mit MySQL Benutzer mit den heutigen Geburtstagen finden?
So identifizieren Sie Benutzer mit heutigen Geburtstagen mithilfe von MySQLUm mithilfe von MySQL festzustellen, ob heute der Geburtstag eines Benutzer...

Programmierung Veröffentlicht am 24.12.2024
Wie kombiniere ich zwei assoziative Arrays in PHP und behalte dabei eindeutige IDs bei und verarbeite doppelte Namen?
Kombinieren assoziativer Arrays in PHPIn PHP ist das Kombinieren zweier assoziativer Arrays zu einem einzigen Array eine häufige Aufgabe. Betrachten S...

Programmierung Veröffentlicht am 24.12.2024
Wie behebt man „Unsachgemäß konfiguriert: Fehler beim Laden des MySQLdb-Moduls“ in Django unter macOS?
MySQL falsch konfiguriert: Das Problem mit relativen PfadenBeim Ausführen von python manage.py runserver in Django kann der folgende Fehler auftreten:...

Programmierung Veröffentlicht am 24.12.2024
Verwendung von WebSockets in Go für Echtzeitkommunikation
Das Erstellen von Apps, die Echtzeit-Updates erfordern – wie Chat-Anwendungen, Live-Benachrichtigungen oder Tools für die Zusammenarbeit – erfordert e...

Programmierung Veröffentlicht am 24.12.2024
Jenseits von „if“-Anweisungen: Wo sonst kann ein Typ mit einer expliziten „bool“-Konvertierung ohne Umwandlung verwendet werden?
Kontextuelle Konvertierung in bool ohne Umwandlung zulässigIhre Klasse definiert eine explizite Konvertierung in bool, sodass Sie ihre Instanz „t“ dir...

Programmierung Veröffentlicht am 24.12.2024
Wie kann ich Dateien mit Selenium WebDriver in Java effizient hochladen?
Hochladen von Dateien mit Selenium WebDriver in Java: Eine detaillierte AnleitungDas Hochladen von Dateien in Webanwendungen ist eine häufige Aufgabe ...

Programmierung Veröffentlicht am 24.12.2024
C-Entwicklung mit GNU Emacs
Emacs is designed with programming in mind, it supports languages like C, Python, and Lisp natively, offering advanced features such as syntax highli...

Programmierung Veröffentlicht am 24.12.2024
Wie kann ich eine Variable in einfachen Anführungszeichen in PHP drucken?
Eine Variable kann nicht direkt mit einfachen Anführungszeichen wiedergegeben werdenMüssen Sie eine Variable innerhalb einer Zeichenfolge in einfachen...

Programmierung Veröffentlicht am 24.12.2024
std::vector vs. einfache Arrays: Wann ist Leistung wirklich wichtig?
std::vector vs. einfache Arrays: LeistungsbewertungWährend allgemein angenommen wird, dass std::vector ähnlich wie Arrays funktioniert, haben neuere T...

Programmierung Veröffentlicht am 24.12.2024
Was ist mit dem Spaltenversatz in Bootstrap 4 Beta passiert?
Bootstrap 4 Beta: Die Entfernung und Wiederherstellung des SpaltenversatzesBootstrap 4 führte in seiner Beta-1-Version wesentliche Änderungen an der A...

Programmierung Veröffentlicht am 24.12.2024
Warum scheint Double Precision mehr Dezimalstellen zu haben als die angekündigten 15?
Doppelte Genauigkeit und Genauigkeit mit DezimalstellenIn der Computerprogrammierung wird häufig davon ausgegangen, dass der Datentyp mit doppelter Ge...

Programmierung Veröffentlicht am 24.12.2024
Implizite vs. explizite Rückgaben in Pfeilfunktionen: Wann sind geschweifte Klammern notwendig?
Geschweifte Klammern in Pfeilfunktionen: Implizite vs. explizite RückgabenPfeilfunktionen können auf zwei Arten geschrieben werden: mit oder ohne gesc...

Programmierung Veröffentlicht am 24.12.2024
Warum ist mein Text in Chrome verschwommen, nachdem ich „transform: scale()“ verwendet habe?
Textunschärfe in Chrome nach der Transformation: scale()In den letzten Chrome-Updates ist ein besonderes Problem aufgetreten, bei dem Text mit der CSS...

Programmierung Veröffentlicht am 24.12.2024
Wie können Sie die MDC-Protokollierung in GoLang implementieren?
MDC-Protokollierung in GoLangDie MDC-Protokollierung von Java basiert auf lokalem Thread-Speicher, der in GoLang nicht verfügbar ist. Eine ähnliche Fu...

Programmierung Veröffentlicht am 23.12.2024
Warum sind meine Zufallszahlen innerhalb einer Schleife konsistent?
Konsistente Zufallszahlen in Iterationen verstehenIm bereitgestellten Codeausschnitt wird beobachtet, dass Zufallszahlen, die innerhalb einer Schleife...

Programmierung Veröffentlicht am 23.12.2024

Einstufung Mehr>

Japanisch lernen Koreanisch lernen Chinesisch lernen Fremdsprache lernen Spiel Häufiges Problem Technologie-Peripheriegeräte KI Software-Tutorial Programmierung Artikel