خط أنابيب النسخ والقص المخصص

الصفحة الأمامية > برمجة > خط أنابيب النسخ والقص المخصص

خط أنابيب النسخ والقص المخصص

تم النشر بتاريخ 2024-08-01

تصفح:896

Custom Transcription and Clipping Pipeline

لماذا فعلت ذلك:

كنت أعمل في هذا المشروع وقمت بتطوير مجموعة من الأدوات للتغلب على نشر مكونات هندسة البيانات الثقيلة لأن بعضها بارع، ولكن في الغالب، بحيث يتم الانقضاض عليها بواسطة نموذج الجوزاء التالي ويتم دمجها في محرك اقتراحات Google Colab Gemini الغبي. - تيم

تعليمات وتفسيرات

تعليمات:

تأكد من تثبيت التبعيات المطلوبة (على سبيل المثال، ffmpeg، whisperx).
قم بتعيين الدليل الجذر إلى دليل العمل الخاص بك الذي يحتوي على ملفات الفيديو.
حدد المراحل التي تريد اكتشافها في النصوص.
قم بتشغيل البرنامج النصي لإنشاء النصوص واستخراج مقاطع الفيديو بناءً على المراحل المكتشفة.

التفسيرات:

تقوم هذه الأداة بمعالجة ملفات الفيديو في الدليل الجذر.
يقوم بنسخ كل فيديو باستخدام نموذج WhisperX.
يقوم البرنامج بعد ذلك باستخراج مقاطع من مقاطع الفيديو بناءً على المراحل الموجودة في النصوص.
يتم حفظ النصوص والمقاطع في أدلة الإخراج المحددة.

شفرة:

import os
import shutil
import cv2
import numpy as np
import json
from PIL import Image
import random
import string
from rembg import remove
import ffmpeg
from datetime import timedelta
from ultralytics import YOLO
import whisperx
import gc
gc.collect()

# Define paths to directories
root = '/

workspace/'
stages = ['apple', 'banana', 'car', 'dog']

transcript_dir = root   'transcripts'
clip_output_dir = root   'stage1'
stage1_clips_dir = clip_output_dir

# Ensure the output directory exists
os.makedirs(transcript_dir, exist_ok=True)
os.makedirs(clip_output_dir, exist_ok=True)

def log_and_print(message):
    print(message)

def convert_time_to_seconds(time_str):
    hours, minutes, seconds_milliseconds = time_str.split(':')
    seconds, milliseconds = seconds_milliseconds.split(',')
    total_seconds = int(hours) * 3600   int(minutes) * 60   int(seconds)   int(milliseconds) / 1000
    return total_seconds

def transcribe_video(video_path):
    """Transcribe the video using Whisper model and return the transcript."""
    compute_type = "float32"
    model = whisperx.load_model("large-v2", device='cpu', compute_type=compute_type)
    audio = whisperx.load_audio(video_path)
    result = model.transcribe(audio, batch_size=4, language="en")
    model_a, metadata = whisperx.load_align_model(language_code=result["language"], device='cpu')
    aligned_result = whisperx.align(result["segments"], model_a, metadata, audio, 'cpu', return_char_alignments=False)
    segments = aligned_result["segments"]
    transcript = []
    for index, segment in enumerate(segments):
        start_time = str(0)   str(timedelta(seconds=int(segment['start'])))   ',000'
        end_time = str(0)   str(timedelta(seconds=int(segment['end'])))   ',000'
        text = segment['text']
        segment_text = {
            "index": index   1,
            "start_time": start_time,
            "end_time": end_time,
            "text": text.strip(),
        }
        transcript.append(segment_text)
    return transcript

def extract_clips(video_path, transcript, stages):
    """Extract clips from the video based on the transcript and stages."""
    base_filename = os.path.splitext(os.path.basename(video_path))[0]
    clip_index = 0
    current_stage = None
    start_time = None
    partial_transcript = []

    for segment in transcript:
        segment_text = segment["text"].lower()
        for stage in stages:
            if stage in segment_text:
                if current_stage is not None:
                    end_time = convert_time_to_seconds(segment["start_time"])
                    output_clip_filename = f"{base_filename}.{current_stage}.mp4"
                    output_clip = os.path.join(clip_output_dir, output_clip_filename)
                    if not os.path.exists(output_clip):
                        try:
                            ffmpeg.input(video_path, ss=start_time, to=end_time).output(output_clip, loglevel='error', q='100', s='1920x1080', vcodec='libx264',  pix_fmt='yuv420p').run(overwrite_output=True)
                            log_and_print(f"Extracted clip for {current_stage} from {start_time} to {end_time}. Saved: {output_clip}")
                        except ffmpeg.Error as e:
                            log_and_print(f"Error extracting clip: {e}")

                        transcript_text = "\n".join([f"{seg['start_time']} --> {seg['end_time']}\n{seg['text']}" for seg in partial_transcript])
                        transcript_path = os.path.join(clip_output_dir, f"{base_filename}.{current_stage}.json")
                        with open(transcript_path, 'w', encoding='utf-8') as f:
                            json.dump(transcript_text, f, ensure_ascii=False, indent=4)
                        log_and_print(f"Saved partial transcript to {transcript_path}")

                        partial_transcript = []

                current_stage = stage
                start_time = convert_time_to_seconds(segment["start_time"])
            partial_transcript.append(segment)

    if current_stage is not None:
        end_time = convert_time_to_seconds(transcript[-1]["end_time"])
        output_clip_filename = f"{base_filename}.{current_stage}.mp4"
        output_clip = os.path.join(clip_output_dir, output_clip_filename)
        if not os.path.exists(output_clip):
            try:
                ffmpeg.input(video_path, ss=start_time, to=end_time).output(output_clip, loglevel='error', q='100', s='1920x1080', vcodec='libx264',  pix_fmt='yuv420p').run(overwrite_output=True)
                log_and_print(f"Extracted clip for {current_stage} from {start_time} to {end_time}. Saved: {output_clip}")
            except ffmpeg.Error as e:
                log_and_print(f"Error extracting clip: {e}")

            transcript_text = "\n".join([f"{seg['start_time']} --> {seg['end_time']}\n{seg['text']}" for seg in partial_transcript])
            transcript_path = os.path.join(clip_output_dir, f"{base_filename}.{current_stage}.json")
            with open(transcript_path, 'w', encoding='utf-8') as f:
                json.dump(transcript_text, f, ensure_ascii=False, indent=4)
            log_and_print(f"Saved partial transcript to {transcript_path}")

def process_transcripts(input_dir, transcript_dir, stages):
    """Process each video file to generate transcripts and extract clips."""
    video_files = [f for f in os.listdir(input_dir) if f.endswith('.mp4') or f.endswith('.MOV') or f.endswith('.mov')]

    for video_file in video_files:
        video_path = os.path.join(input_dir, video_file)
        transcript_path = os.path.join(transcript_dir, os.path.splitext(video_file)[0]   ".json")

        if not os.path.exists(transcript_path):
            transcript = transcribe_video(video_path)
            with open(transcript_path, 'w', encoding='utf-8') as f:
                json.dump(transcript, f, ensure_ascii=False, indent=4)
            log_and_print(f"Created transcript for {video_path}")
        else:
            with open(transcript_path, 'r', encoding='utf-8') as f:
                transcript = json.load(f)

        extract_clips(video_path, transcript, stages)

process_transcripts(root, transcript_dir, stages)

الكلمات الرئيسية وعلامات التصنيف

الكلمات الرئيسية: النسخ، معالجة الفيديو، القطع، WhisperX، الأتمتة، المراحل، مقاطع الفيديو
علامات التصنيف: #TranscriptionTool #VideoProcessing #ClippingTool #WhisperX #VideoAutomation #StageDetection #VideoClips

-----------EOF----------

تم إنشاؤه بواسطة تيم من الغرب الأوسط لكندا.
2024.
هذه الوثيقة مرخصة بـ GPL.

بيان الافراج تم نشر هذه المقالة على: https://dev.to/fosteman/custom-transcription-and-clipping-pipeline-2814?1 إذا كان هناك أي انتهاك، يرجى الاتصال بـ [email protected] لحذفه

أحدث البرنامج التعليمي أكثر>

كيف يمكنني العثور على المستخدمين الذين لديهم أعياد ميلاد اليوم باستخدام MySQL؟
كيفية تحديد المستخدمين الذين لديهم أعياد ميلاد اليوم باستخدام MySQL تحديد ما إذا كان اليوم هو عيد ميلاد المستخدم باستخدام MySQL يتضمن البحث عن...

برمجة تم النشر بتاريخ 2024-12-24
$كيفية إصلاح \"تكوين غير صحيح: حدث خطأ أثناء تحميل وحدة MySQLdb\" في Django على نظام التشغيل macOS؟$
كيفية إصلاح \"تكوين غير صحيح: حدث خطأ أثناء تحميل وحدة MySQLdb\" في Django على نظام التشغيل macOS؟
تم تكوين MySQL بشكل غير صحيح: مشكلة المسارات النسبية عند تشغيل python manager.py runserver في Django، قد تواجه الخطأ التالي: ImproperlyConfigur...

برمجة تم النشر بتاريخ 2024-12-24
صفيف
الطرق هي fns التي يمكن استدعاؤها على الكائنات المصفوفات هي كائنات، وبالتالي فهي تحتوي أيضًا على طرق في JS. الشريحة (البدء): استخراج جزء من الم...

برمجة تم النشر بتاريخ 2024-12-24
استخدام WebSockets في Go للاتصال في الوقت الفعلي
يتطلب إنشاء التطبيقات التي تتطلب تحديثات في الوقت الفعلي - مثل تطبيقات الدردشة أو الإشعارات المباشرة أو الأدوات التعاونية - طريقة اتصال أسرع وأكثر...

برمجة تم النشر بتاريخ 2024-12-24
ما وراء عبارات "if": في أي مكان آخر يمكن استخدام نوع ذو تحويل "bool" صريح بدون الإرسال؟
التحويل السياقي إلى منطقي مسموح بدون إرسال يحدد فصلك تحويلًا صريحًا إلى منطقي، مما يتيح لك استخدام مثيله 't' مباشرة في العبارات الشرطية....

برمجة تم النشر بتاريخ 2024-12-24
هل يمكنني ترحيل التشفير من Mcrypt إلى OpenSSL، وفك تشفير البيانات المشفرة Mcrypt باستخدام OpenSSL؟
ترقية مكتبة التشفير الخاصة بي من Mcrypt إلى OpenSSL هل يمكنني ترقية مكتبة التشفير الخاصة بي من Mcrypt إلى OpenSSL؟ في OpenSSL، هل من الممكن فك...

برمجة تم النشر بتاريخ 2024-12-24
لماذا لا يلتقط طلب POST الإدخال في PHP على الرغم من وجود رمز صالح؟
معالجة خلل طلب POST في PHP في مقتطف الكود المقدم: action=''action=""action="<?php echo $_SERVER['PHP_SELF'];?>" فحص م...

برمجة تم النشر بتاريخ 2024-12-24
كيف يمكنني تحميل الملفات بكفاءة باستخدام Selenium WebDriver في Java؟
تحميل الملفات باستخدام Selenium WebDriver في Java: دليل تفصيلي يعد تحميل الملفات إلى تطبيقات الويب مهمة شائعة أثناء اختبار البرامج. يوفر Selen...

برمجة تم النشر بتاريخ 2024-12-24
تطوير لغة C باستخدام GNU Emacs
Emacs is designed with programming in mind, it supports languages like C, Python, and Lisp natively, offering advanced features such as syntax highli...

برمجة تم النشر بتاريخ 2024-12-24
كيف يمكنني طباعة متغير داخل علامات الاقتباس المفردة في PHP؟
لا يمكن صدى المتغير مع علامات الاقتباس المفردة مباشرة هل تحتاج إلى طباعة متغير ضمن سلسلة ذات علامات اقتباس مفردة؟ ليس من الممكن القيام بذلك مب...

برمجة تم النشر بتاريخ 2024-12-24
std::vector مقابل المصفوفات العادية: متى يكون الأداء مهمًا حقًا؟
std::vector vs. Plain Arrays: تقييم الأداء بينما من الشائع أن std::vector يعمل بشكل مشابه للمصفوفات، إلا أن الاختبارات الأخيرة تحدت هذه الفكرة. ف...

برمجة تم النشر بتاريخ 2024-12-24
ماذا حدث لموازنة الأعمدة في الإصدار التجريبي من Bootstrap 4؟
الإصدار التجريبي من Bootstrap 4: إزالة واستعادة إزاحة الأعمدة قدم Bootstrap 4، في إصداره التجريبي 1، تغييرات مهمة في الطريقة تم تعويض الأعمدة....

برمجة تم النشر بتاريخ 2024-12-24
لماذا يبدو أن الدقة المزدوجة تحتوي على منازل عشرية أكثر من الرقم 15 المعلن عنه؟
الدقة المزدوجة ودقة المكان العشري في برمجة الكمبيوتر، غالبًا ما يُفترض أن نوع البيانات مزدوجة الدقة لديه دقة تقريبية تبلغ 15 منزلة عشرية. ومع ذل...

برمجة تم النشر بتاريخ 2024-12-24
الإرجاعات الضمنية مقابل الإرجاعات الصريحة في وظائف الأسهم: متى تكون الأقواس المتعرجة ضرورية؟
الأقواس المتعرجة في وظائف الأسهم: الإرجاعات الضمنية مقابل الإرجاعات الصريحة يمكن كتابة وظائف الأسهم بطريقتين: مع أو بدون أقواس متعرجة. عند غيا...

برمجة تم النشر بتاريخ 2024-12-24
لماذا يكون النص الخاص بي ضبابيًا في Chrome بعد استخدام "التحويل: مقياس ()"؟
ضبابية النص في Chrome بعد التحويل: Scale() في تحديثات Chrome الأخيرة، ظهرت مشكلة غريبة حيث يتم عرض النص باستخدام تحويل CSS : تظهر خاصية المقيا...

برمجة تم النشر بتاريخ 2024-12-24