Tubería de transcripción y recorte personalizada

Página delantera > Programación > Tubería de transcripción y recorte personalizada

Tubería de transcripción y recorte personalizada

Publicado el 2024-08-01

Navegar:216

Custom Transcription and Clipping Pipeline

Por qué lo hice:

Estaba trabajando en este proyecto y desarrollé un montón de herramientas para superar la publicación de componentes de ingeniería de datos pesados porque algunos de ellos son ingeniosos, pero en su mayoría, para que sean utilizados por el próximo modelo Gemini y se incorporen al Estúpido motor de sugerencias Google Colab Gemini. -Tim

Instrucciones y explicaciones

Instrucciones:

Asegúrese de tener instaladas las dependencias requeridas (por ejemplo, ffmpeg, Whisperx).
Establezca el directorio raíz en su directorio de trabajo que contiene los archivos de video.
Define las etapas que deseas detectar en las transcripciones.
Ejecute el script para generar transcripciones y extraer videoclips según las etapas detectadas.

Explicaciones:

Esta herramienta procesa archivos de video en el directorio raíz.
Transcribe cada video usando el modelo WhisperX.
El guión luego extrae clips de los videos según las etapas que se encuentran en las transcripciones.
Las transcripciones y los clips se guardan en los directorios de salida especificados.

Código:

import os
import shutil
import cv2
import numpy as np
import json
from PIL import Image
import random
import string
from rembg import remove
import ffmpeg
from datetime import timedelta
from ultralytics import YOLO
import whisperx
import gc
gc.collect()

# Define paths to directories
root = '/

workspace/'
stages = ['apple', 'banana', 'car', 'dog']

transcript_dir = root   'transcripts'
clip_output_dir = root   'stage1'
stage1_clips_dir = clip_output_dir

# Ensure the output directory exists
os.makedirs(transcript_dir, exist_ok=True)
os.makedirs(clip_output_dir, exist_ok=True)

def log_and_print(message):
    print(message)

def convert_time_to_seconds(time_str):
    hours, minutes, seconds_milliseconds = time_str.split(':')
    seconds, milliseconds = seconds_milliseconds.split(',')
    total_seconds = int(hours) * 3600   int(minutes) * 60   int(seconds)   int(milliseconds) / 1000
    return total_seconds

def transcribe_video(video_path):
    """Transcribe the video using Whisper model and return the transcript."""
    compute_type = "float32"
    model = whisperx.load_model("large-v2", device='cpu', compute_type=compute_type)
    audio = whisperx.load_audio(video_path)
    result = model.transcribe(audio, batch_size=4, language="en")
    model_a, metadata = whisperx.load_align_model(language_code=result["language"], device='cpu')
    aligned_result = whisperx.align(result["segments"], model_a, metadata, audio, 'cpu', return_char_alignments=False)
    segments = aligned_result["segments"]
    transcript = []
    for index, segment in enumerate(segments):
        start_time = str(0)   str(timedelta(seconds=int(segment['start'])))   ',000'
        end_time = str(0)   str(timedelta(seconds=int(segment['end'])))   ',000'
        text = segment['text']
        segment_text = {
            "index": index   1,
            "start_time": start_time,
            "end_time": end_time,
            "text": text.strip(),
        }
        transcript.append(segment_text)
    return transcript

def extract_clips(video_path, transcript, stages):
    """Extract clips from the video based on the transcript and stages."""
    base_filename = os.path.splitext(os.path.basename(video_path))[0]
    clip_index = 0
    current_stage = None
    start_time = None
    partial_transcript = []

    for segment in transcript:
        segment_text = segment["text"].lower()
        for stage in stages:
            if stage in segment_text:
                if current_stage is not None:
                    end_time = convert_time_to_seconds(segment["start_time"])
                    output_clip_filename = f"{base_filename}.{current_stage}.mp4"
                    output_clip = os.path.join(clip_output_dir, output_clip_filename)
                    if not os.path.exists(output_clip):
                        try:
                            ffmpeg.input(video_path, ss=start_time, to=end_time).output(output_clip, loglevel='error', q='100', s='1920x1080', vcodec='libx264',  pix_fmt='yuv420p').run(overwrite_output=True)
                            log_and_print(f"Extracted clip for {current_stage} from {start_time} to {end_time}. Saved: {output_clip}")
                        except ffmpeg.Error as e:
                            log_and_print(f"Error extracting clip: {e}")

                        transcript_text = "\n".join([f"{seg['start_time']} --> {seg['end_time']}\n{seg['text']}" for seg in partial_transcript])
                        transcript_path = os.path.join(clip_output_dir, f"{base_filename}.{current_stage}.json")
                        with open(transcript_path, 'w', encoding='utf-8') as f:
                            json.dump(transcript_text, f, ensure_ascii=False, indent=4)
                        log_and_print(f"Saved partial transcript to {transcript_path}")

                        partial_transcript = []

                current_stage = stage
                start_time = convert_time_to_seconds(segment["start_time"])
            partial_transcript.append(segment)

    if current_stage is not None:
        end_time = convert_time_to_seconds(transcript[-1]["end_time"])
        output_clip_filename = f"{base_filename}.{current_stage}.mp4"
        output_clip = os.path.join(clip_output_dir, output_clip_filename)
        if not os.path.exists(output_clip):
            try:
                ffmpeg.input(video_path, ss=start_time, to=end_time).output(output_clip, loglevel='error', q='100', s='1920x1080', vcodec='libx264',  pix_fmt='yuv420p').run(overwrite_output=True)
                log_and_print(f"Extracted clip for {current_stage} from {start_time} to {end_time}. Saved: {output_clip}")
            except ffmpeg.Error as e:
                log_and_print(f"Error extracting clip: {e}")

            transcript_text = "\n".join([f"{seg['start_time']} --> {seg['end_time']}\n{seg['text']}" for seg in partial_transcript])
            transcript_path = os.path.join(clip_output_dir, f"{base_filename}.{current_stage}.json")
            with open(transcript_path, 'w', encoding='utf-8') as f:
                json.dump(transcript_text, f, ensure_ascii=False, indent=4)
            log_and_print(f"Saved partial transcript to {transcript_path}")

def process_transcripts(input_dir, transcript_dir, stages):
    """Process each video file to generate transcripts and extract clips."""
    video_files = [f for f in os.listdir(input_dir) if f.endswith('.mp4') or f.endswith('.MOV') or f.endswith('.mov')]

    for video_file in video_files:
        video_path = os.path.join(input_dir, video_file)
        transcript_path = os.path.join(transcript_dir, os.path.splitext(video_file)[0]   ".json")

        if not os.path.exists(transcript_path):
            transcript = transcribe_video(video_path)
            with open(transcript_path, 'w', encoding='utf-8') as f:
                json.dump(transcript, f, ensure_ascii=False, indent=4)
            log_and_print(f"Created transcript for {video_path}")
        else:
            with open(transcript_path, 'r', encoding='utf-8') as f:
                transcript = json.load(f)

        extract_clips(video_path, transcript, stages)

process_transcripts(root, transcript_dir, stages)

Palabras clave y hashtags

Palabras clave: transcripción, procesamiento de vídeo, clipping, WhisperX, automatización, escenarios, videoclips
Hashtags: #TranscriptionTool #VideoProcessing #ClippingTool #WhisperX #VideoAutomation #StageDetection #VideoClips

-----------EOF-----------

Creado por Tim del Medio Oeste de Canadá.
2024.
Este documento tiene licencia GPL.

Declaración de liberación Este artículo se reproduce en: https://dev.to/fosteman/custom-transcription-and-clipping-pipeline-2814?1 Si hay alguna infracción, comuníquese con [email protected] para eliminarla.

Último tutorial Más>

¿Cómo puedo seleccionar programáticamente todo el texto dentro de un DIV en el clic del mouse?
seleccionando el texto DIV en el mouse clic pregunta Dado un elemento DIV con contenido de texto, ¿cómo puede el usuario seleccionar programát...

Programación Publicado el 2025-04-18
¿Cómo analizar las matrices JSON en ir usando el paquete `JSON`?
Parsing Json Matray en Go con el paquete JSON Problema: ¿Cómo puede analizar una cadena JSON que representa una matriz en ir usando el paque...

Programación Publicado el 2025-04-18
¿Cómo puedo manejar múltiples cargas de archivos con FormData ()?
Manejo de múltiples cargas de archivo con formdata () Cuando se trabaja con entradas de archivos, a menudo es necesario manejar múltiples carg...

Programación Publicado el 2025-04-18
¿Cómo puedo crear eficientemente diccionarios utilizando la comprensión de Python?
Python Dictionary Comprension en Python, las comprensiones del diccionario ofrecen una forma concisa de generar nuevos diccionarios. Si bien son...

Programación Publicado el 2025-04-18
¿Cómo modificar de manera efectiva el atributo CSS del pseudo-elemento ": después" usando jQuery?
Comprender las limitaciones de los pseudo-elementos en jQuery: acceder al ": después" selector en el desarrollo web, pseudo-elemento...

Programación Publicado el 2025-04-18
$Resuelve la excepción \\ "Valor de cadena \\" cuando MySQL inserta emoji$
Resuelve la excepción \\ "Valor de cadena \\" cuando MySQL inserta emoji
resolviendo una excepción de valor de cadena incorrecta al insertar emOJi Al intentar insertar una cadena que contenga caracteres emOJi en una b...

Programación Publicado el 2025-04-18
¿Cómo envía Android los datos de publicación al servidor PHP?
enviando datos de publicaciones en android introducción Este artículo aborda la necesidad de enviar datos de publicación a un script de PH...

Programación Publicado el 2025-04-18
Razones por las cuales Python no informa errores al corte de la subconjuntos de hiperescopio
Substring Sliting con índice fuera de rango: dualidad y secuencias vacías en Python, acceder a elementos de una secuencia utilizando el operad...

Programación Publicado el 2025-04-18
Una lista de nuevas características de node.js 20
node.js 20: seguridad mejorada, pruebas nativas y más lanzado el 18 de abril de 2023, Node.js versión 20 cuenta con mejoras significativas que a...

Programación Publicado el 2025-04-18
En C y C ++, ¿por qué no se pueden asignar las matrices directamente, pero en las estructuras, está bien?
asignación de matriz en c y c c y c permiten la asignación de matrices en las matrices dentro de las estructuras pero no en general. Este comp...

Programación Publicado el 2025-04-18
¿Por qué las uniones de la izquierda parecen intraesiones al filtrarse en la cláusula WHERE en la mesa derecha?
Left endrum: Horas de brujería cuando se convierte en una unión interna en el ámbito de un mago de la base de datos, realizar recuperaciones de ...

Programación Publicado el 2025-04-18
¿Cómo puedo personalizar las optimizaciones de compilación en el compilador GO?
Personalización de optimizaciones de compilación En compilador GO El proceso de compilación predeterminado en Go sigue una estrategia de optim...

Programación Publicado el 2025-04-18
¿Cómo recuperar la última biblioteca jQuery de Google API?
recuperando la última biblioteca jQuery de Google APIS La URL de jQuery proporcionada en la pregunta es para la versión 1.2.6. Para recuperar ...

Programación Publicado el 2025-04-18
Guía para establecer el encabezado de autorización con WinRT HttpClient
Agregar encabezados de autorización a httpclient de WinRT winrt's httpclient carece de la clase .net credencial para establecer encabeza...

Programación Publicado el 2025-04-18
¿Cómo implementar una función hash genérica para tuplas en colecciones desordenadas?
Función hash genérica para tuplas en colecciones no ordenadas los contenedores std :: unordened_map y std :: unordened_set proporcionan una mi...

Programación Publicado el 2025-04-18

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo