Back to all articles
Taylor Brooks

VTT-Dateien leicht gemacht: Erstellen, Bearbeiten & Zeiten korrigieren

VTT-Dateien meistern: Schnell erstellen, bearbeiten und Zeitstempel für Videos, Untertitel und Podcasts optimieren.

Einführung

Für Video-Creator, Accessibility-Editoren und Podcaster ist eine VTT-Datei weit mehr als nur ein weiteres Untertitelformat – sie ist der Schlüssel dafür, Inhalte durchsuchbar, barrierefrei und plattformübergreifend exakt synchronisiert bereitzustellen. WebVTT (Web Video Text Tracks) ist das von der W3C standardisierte Zeittext-Format für HTML5-Videos. Es unterstützt Untertitel, geschlossene Captions, Audiodeskriptionen und sogar Kapitel – alles mit millisekundengenauer Zeitangabe.

Ob von Grund auf erstellt oder aus einem automatisch erzeugten Transkript konvertiert – eine gültige VTT-Datei verlangt exakte Syntax, korrekte Zeitstempel und den richtigen Zeichensatz. Für viele wirkt das mühsam – besonders beim Beheben von überlappenden Zeitstempeln oder beim Umwandeln aus Formaten wie SRT. Effizientere Workflows mit Automatisierung, etwa präzise Transkripterstellung mit Sprecherkennzeichnung, können den Weg vom rohen Dialog zu perfekt getimten Captions deutlich verkürzen.

In diesem Leitfaden erfahren Sie:

  • Aufbau einer VTT-Datei: Header, Cue-Blöcke, Formatregeln
  • Manuelles Erstellen in einem reinen Texteditor
  • Typische Zeitstempel-Fehler und schnelle Korrekturen
  • Bestehende Transkripte importieren und mit Audio abgleichen
  • QA-Checkliste vor dem Upload Ihrer VTT-Datei

Aufbau einer VTT-Datei verstehen

Eine gültige VTT-Datei folgt einem festen Gerüst. Laut der W3C-WebVTT-Spezifikation beginnt jede Datei mit dem WEBVTT-Header und anschließend präzise gesetzten Cues.

Grundstruktur

Minimaler Aufbau einer VTT-Datei:

```
WEBVTT

00:00:00.000 --> 00:00:04.000
Dies ist der erste Untertitel-Cue.

00:00:04.000 --> 00:00:07.500
Dies ist der zweite Cue.
```

Aufgeschlüsselt:

  1. Header: Immer mit WEBVTT beginnen (Titel oder Metadaten optional). Vor dem ersten Cue müssen mindestens zwei Zeilenumbrüche stehen.
  2. Cues:
  • Optionaler Cue-ID: Kennzeichnung des jeweiligen Cues.
  • Timing: Format hh:mm:ss.mmm --> hh:mm:ss.mmm, mit Leerzeichen vor und nach dem Pfeil.
  • Payload: Der angezeigte Text oder das gewünschte Format.
  • Leerzeile: Trennt jeden Cue vom nächsten.

Formatvorgaben

  • Millisekunden immer angeben – auch .000 nicht weglassen.
  • Punkte (.) trennen Sekunden und Millisekunden, Kommas sind aus SRT bekannt und führen hier zu Fehlern.
  • Leere Zeilen zwischen den Cues sind zwingend erforderlich, sonst gibt es in den meisten Browsern Wiedergabeprobleme.
  • --> darf nicht im Textbereich erscheinen, da dies Parser durcheinanderbringt.

Diese Formalitäten sind wichtig, da Plattformparser wie JW Player Untertitel strikt ablehnen, sobald sie vom Standard abweichen. Moderne Browser setzen zudem strengere MIME-Type-Regeln (text/vtt) durch – korrektes Format ist daher wichtiger denn je.


VTT-Dateien im Texteditor erstellen

Das händische Erstellen ist nicht kompliziert, erfordert aber Genauigkeit. Nutzen Sie dafür reine Texteditoren wie Notepad++, Sublime Text oder VS Code.

Zeichensatz: UTF-8 ohne BOM

Zwar unterstützt WebVTT UTF-8 mit optionalem BOM, jedoch vermeiden Sie mit „UTF-8 ohne BOM“ besser Kompatibilitätsprobleme – sonst könnten Schriftzeichen in nicht-lateinischen Sprachen fehlerhaft dargestellt werden. Vorgehen im Editor:

  • Zeichensatz auf UTF-8 (ohne BOM) umstellen
  • Datei mit der Endung .vtt speichern

So stellen Sie sicher, dass mehrsprachige Inhalte browserübergreifend korrekt angezeigt werden.

Auto-Formatierung vermeiden

Manche Editoren umbrechen automatisch lange Zeilen oder fügen unsichtbare Zeichen ein. Schalten Sie dies aus – solche „Verunreinigungen“ können Untertitel unbrauchbar machen.

Falls manuelles Setzen von Zeitstempeln zu aufwendig ist, starten Sie am besten mit einem sauberen Transcript aus einem Transkriptions-Tool. Beim Import etwa aus einer strukturierten Untertitelexportfunktion sind Segmente und Zeitangaben bereits korrekt formatiert.


Häufige Zeitstempel-Fehler korrigieren

Selbst geübte Editoren übersehen manchmal Details, die zu Fehlern oder Synchronisationsproblemen führen.

Stunden auffüllen

Immer zweistellig angeben, z. B. 00: bei Videos unter einer Stunde. 0:02:15.500 ist ungültig; korrekt ist 00:02:15.500.

Überlappungen

Das Endzeit eines Cues muss kleiner sein als die Startzeit des nächsten (außer bei Kapiteln). Überlappungen können Untertitel zum Verschwinden bringen oder abrupt springen lassen.

Format des Trenners

Fehlende Leerzeichen rund um --> führen zu Fehlern:

  • Ungültig: 00:00:01.000-->00:00:04.000
  • Gültig: 00:00:01.000 --> 00:00:04.000

Millisekunden angeben

Millisekunden niemals weglassen. Plattformen erwarten das vollständige Format hh:mm:ss.mmm – auch bei .000.

In großen Dateien kann das manuelle Korrigieren mühsam sein. Regex-Suchen im Editor helfen, fehlende Stunden oder Punkte schnell zu finden und zu ersetzen. Noch einfacher geht es mit automatischen Funktionen wie One-Click-Timestamp-Cleanup, die Zeitangaben und Satzzeichen korrigieren, ohne den Cue-Text zu verändern.


Transkripte importieren und Zeitstempel angleichen

Automatische Transkripte sind oft grob segmentiert, ohne Millisekunden oder mit falschen Trennzeichen. Beim händischen Angleichen teilen Sie den Text in kurze, gut lesbare Blöcke und vergeben exakte Start- und Endzeiten.

Manuelles Angleichen

  1. Video oder Audio in einem Player abspielen, der Zeitlupen- oder Rückwärtsfunktionen bietet.
  2. Startzeit jedes gesprochenen Blocks markieren.
  3. Zeitstempel im VTT-Format eintragen und Millisekunden bei Bedarf für perfektes Timing justieren.

Automatische Hilfe

Konforme Transkriptionstools erkennen Sprecher und setzen präzise Zeitstempel – so sparen Sie sich vieles Nachbearbeiten. Damit vermeiden Sie, dass automatisch erzeugte Untertitel wegen fehlender Standardkonformität komplett neu geschrieben werden müssen. Mit automatischer Neusegmentierung (ideal für Interviews) lässt sich ein gesamtes Transkript binnen Sekunden passend für Untertitel strukturieren – perfekt für erste VTT-Dateien aus langen Aufnahmen.


Kurze QA-Checkliste vor dem Upload

Bevor Sie Ihre VTT-Datei auf einer Plattform oder in ein CMS hochladen, sollten Sie Folgendes prüfen:

  1. Encoding: UTF-8 ohne BOM für maximale Zeichensupport.
  2. Syntax: Jede Cue durch Leerzeilen getrennt; Leerzeichen um -->; Millisekunden gefüllt.
  3. Timing: Endzeiten strikt größer als Startzeiten; keine ungewollten Überlappungen.
  4. Formatierung: Kein --> im Text; keine Artefakte aus Auto-Captions.
  5. MIME-Test: Datei hosten und in einem HTML5-<track>-Tag testen, um Browser-Kompatibilität zu bestätigen.

So verhindern Sie frustrierende Fehlermeldungen kurz vor dem Upload.


Fazit

Das VTT-Format ist eine klare, präzise Möglichkeit, Untertitel, Captions oder andere zeitgesteuerte Textinhalte für Videos zu liefern. Wer den Aufbau beherrscht, UTF-8 richtig nutzt und Zeitstempel konsequent prüft, erstellt Dateien, die sofort plattformübergreifend valide sind.

Egal ob komplett manuell erstellt oder aus einem Transkript übernommen – entscheidend ist die Kombination aus präzisem technischen Vorgehen und effizientem Workflow. Mit strukturierten Transkripten, automatischen Bereinigungen und automatischer Cue-Ausrichtung per Tools wie SkyScribe lassen sich Fehler minimieren und Bearbeitungszeiten drastisch verkürzen.

Am Ende bedeutet eine sauber erstellte VTT-Datei nicht nur Standardkonformität, sondern vor allem Barrierefreiheit, stärkere Zuschauerbindung und einen professionellen Gesamteindruck.


FAQ

1. Was ist der Unterschied zwischen VTT- und SRT-Dateien?
VTT verwendet Punkte für Millisekunden (hh:mm:ss.mmm), optionale Cue-IDs sowie Styling und Metadaten. SRT trennt Millisekunden mit Komma und nutzt nummerierte Frames.

2. Müssen VTT-Dateien UTF-8-kodiert sein?
Ja. Der Standard schreibt UTF-8 vor, um mehrsprachige Untertitel zu ermöglichen. UTF-8 ohne BOM ist am kompatibelsten.

3. Warum verschwinden meine VTT-Captions mitten im Video?
Meist wegen überlappender Zeitstempel oder fehlerhafter Syntax – etwa fehlende Leerzeichen um -->.

4. Kann ich SRT-Dateien leicht in VTT umwandeln?
Ja, ersetzen Sie Kommas in Zeitstempeln durch Punkte, entfernen Sie die Frame-Nummern und achten Sie auf UTF-8-Encoding. Automatische Skripte oder Regex im Editor helfen dabei.

5. Wie prüfe ich, ob meine VTT-Datei gültig ist?
Binden Sie sie in ein HTML5-<track>-Element ein und testen Sie die Wiedergabe. Validatoren oder strikte Player wie JW Player zeigen sofort an, ob die Konventionen eingehalten wurden.

Agent CTA Background

Starte mit vereinfachter Transkription

Gratis-Plan verfügbarKeine Kreditkarte nötig