Ein auf Fernsehgeräten angezeigtes Video liegt in einem der Standards vor, die in den fünfziger Jahren des 20. Jahrhunderts im Rahmen der Einführung des Farbfernsehens entwickelt wurden. Die wichtigsten Formate heißen NTSC (National Television System Committee) und PAL (Phase Alternating Line). NTSC ist der in Amerika und in Japan genutzte Standard, während PAL der vorherrschende Standard in Europa, Australien, im Nahen Osten und in Asien ist.
Keiner dieser Videostandards ist für Präsentationen auf Computer-Monitoren optimal geeignet. Jeder Standard führt zu bestimmten Problemen bei der Optimierung von Videos für die Bereitstellung über das Internet (siehe Tabelle 3):
Tab. 3: Unterschiede zwischen den Videostandards
| Bildgröße | Bildrate | Seitenverhältnis | Anzeige | |
|---|---|---|---|---|
| NTSC | 720 x 480 | 29,97 | D1 | Halbbild |
| PAL | 720 x 576 | 25 | D1 | Halbbild |
| Computer | Unterschiedlich (deutlich höher) |
– | Quadratisch | Progressiv |
Konventionelle Fernsehgeräte arbeiten mit horizontalen Zeilen, während Computer-Monitore das Bild aus horizontalen und vertikalen Pixeln aufbauen. Die Standardauflösung beträgt bei NTSC-Fernsehgeräten 525 Zeilen, bei PAL-Geräten 576 Zeilen. Die meisten modernen Computer-Monitore unterstützen weit höhere vertikale Auflösungen (gemessen in Pixel), z. B. 768 oder 1024. Bei der Wiedergabe müssen die fehlenden Zeilen rechnerisch bereitgestellt werden, um den Bildschirm zu füllen.
Für NTSC-Videobilder definiert der professionelle Standard SMPTE 259M, dass die 525 Zeilen im Format 720 x 486 dargestellt werden (720 horizontale Pixel auf 486 vertikale Pixel). Diese Standard-Videogröße wird normalerweise als D1 bezeichnet. Das Erfassen von Videodaten mit modernen Videokarten über eine professionelle BetaSP- oder digitale Betacam-Kamera liefert ein Bild in der Größe D1. Bei Verwendung einer DV-Quelle (digitales Video) ergibt sich ein Bild im Format 720 x 480. Der Unterschied zwischen der D1-Spezifikation und der DV-Spezifikation beträgt also nur 6 Pixel. Viele Komprimierungsalgorithmen (auch die DV-Komprimierung) sind für Bildgrößen optimiert, die ein Vielfaches von 16 darstellen. Da nur 6 Pixel aus einem Bild in D1-Auflösung entfernt werden müssen, konnte für das DV-Format eine native Auflösung mit einem Vielfachen von 16 definiert werden.
PAL-Videobilder weisen unabhängig von der Videoquelle eine Auflösung von 720 x 576 Pixel auf. Da die vertikale Auflösung von PAL 576 beträgt (ein Vielfaches von 16), ist für die DV-Komprimierung keine Anpassung erforderlich.
Videos sind Bildfolgen, deren Einzelbilder in schneller Folge auf dem Bildschirm dargestellt werden, um eine Illusion von Bewegung zu erzeugen. Die Anzahl der pro Sekunde gezeigten Einzelbilder wird als Bildrate bezeichnet und in Bildern pro Sekunde (BpS) gemessen. Je höher die Bildrate ist, desto mehr Bilder werden pro Sekunde angezeigt. Die Bewegung wird dadurch gleichmäßiger. Der Nachteil besteht aber darin, dass höhere Bildraten die Übertragung von mehr Daten erforderlich machen, um das Video anzuzeigen, also höhere Bandbreiten voraussetzen.
NTSC verwendet eine Geschwindigkeit von ca. 30 BpS, PAL verwendet exakt 25 BpS. Der exakte Wert für NTSC beträgt 29,97 BpS. Der Grund für diese merkwürdige Bildrate liegt historisch im Übergang vom Schwarz-Weiß- zum Farbfernsehen: Damals wurde eine Bildrate von 29,97 BpS gewählt um die Abwärtskompatibilität zu existierenden Fernsehgeräten sicherzustellen. Es existieren 30 Bilder, die aber um 0,1 % langsamer als Echtzeit laufen. Daraus ergibt sich eine Bildrate von 29,97 BpS.
Bei der Arbeit mit komprimierten Videos in einem Format wie Flash Video erhöht sich die Dateigröße mit der Anzahl der pro Sekunde anzuzeigenden Bilder. Um die Größe der endgültigen Datei zu reduzieren, müssen Sie entweder die Bildrate oder die Datenrate senken. Wenn Sie die Datenrate senken und die Bildrate unverändert lassen, wird die Bildqualität reduziert, um kleinere Dateien zu erzielen. Wenn Sie die Bildrate senken und die Datenrate unverändert lassen, reduziert sich die Dateigröße. Der Video-Clip erscheint aber abgehackt und die Bewegungen sind nicht fließend.
Eine Reduzierung der Bildrate sollte immer auf das Ergebnis einer ganzzahligen Division der ursprünglichen Bildrate erfolgen. Hat die Quelle eine Bildrate von 24 BpS, sollten Sie diese auf 12 BpS, 8 BpS, 6 BpS, 4 BpS, 3 BpS oder 2 BpS senken. Beträgt die Bildrate der Quelle 30 BpS, ist in den meisten Fällen eine Anpassung auf 15 BpS, 10 BpS, 6 BpS usw. sinnvoll. Hat das Video eine Länge von mehr als 10 Minuten, wird die Abweichung zwischen Audio und Video deutlich, wenn Sie nicht mit genau 29,97 BpS oder dem Ergebnis einer Teilung durch eine Ganzzahl (z. B. 14,98, also der Hälfte von 29,97) arbeiten.
Die Spezifikationen für D1/DV (NTSC und PAL) sehen rechteckige Pixel vor (auch als D1-Seitenverhältnis bezeichnet), während Computer-Monitore mit quadratischen Pixeln arbeiten. D1-Pixel sind breiter als hoch. Aus diesem Grund wirkt ein D1-Video auf einem Computer-Monitor gestaucht. Personen scheinen kleiner zu sein. Bei der Anzeige auf einem Fernsehgerät haben Personen dagegen die richtigen Proportionen, da die Pixel breiter als hoch sind (siehe Abbildung 2).

Abb. 2: Bildanzeige auf einem Fernsehgerät (links) und einem Computer-Bildschirm (rechts)
Aus diesem Grund muss für Bilder, die auf Computer-Bildschirmen angezeigt werden sollen, eine Korrektur des Pixel-Seitenverhältnisses erfolgen, indem das Bild auf das Seitenverhältnis 4:3 skaliert wird. Für NTSC beträgt die volle Auflösung mit quadratischen Pixeln 720 x 540 (vertikale Kompensation) und für PAL 768 x 572 (horizontale Kompensation). Im Internet sind Auflösungen wie 640 x 480, 512 x 384, 320 x 240 und 160 x 120 gebräuchlich.
Die meisten Anwendungen zur Videobearbeitung kompensieren die Diskrepanz im Pixel-Seitenverhältnis durch Skalierung des Videobildes in Echtzeit, während es auf dem Computer-Bildschirm dargestellt wird. Dieses Verfahren ermöglicht eine spätere Darstellung der Daten auf Fernsehgeräten. Eine Skalierung der eigentlichen Pixel würde unnötigerweise zu leichten Störungen führen, die sich aus der Skalierungsoperation ergeben. Für die Anzeige im Web ist diese Echtzeit-Kompensation jedoch nicht möglich, wenn das Video auf einem Bildschirm mit quadratischen Pixeln angezeigt werden soll. In diesen Fällen muss eine endgültige Konvertierung zur Kompensation der Diskrepanz erfolgen.
Videobilder bestehen aus zwei Halbbildern, die zusammen ein Einzelbild ergeben. Diese Methode wurde aufgrund technischer Beschränkungen eingeführt, als die ersten Fernsehgeräte entwickelt wurden, da ein Einzelbild nicht progressiv und ohne sichtbare Verzögerungen von oben nach unten auf dem Bildschirm dargestellt werden konnte. Tatsächlich wirkte eine Vollbild-Darstellung, als würde das Bild auf den Bildschirm gewischt. Durch Aufteilung des Bildes in zwei Hälften, die nacheinander dargestellt werden, konnte dieses Problem behoben werden. Diese veraltete Technik wurde im Zeitalter von Videos und Computern zu einem großen Problem. Von neueren Videostandards für hochauflösende Fernsehgeräte (High Definition) wird diese Technik nicht mehr unterstützt. Diese Standards sehen eine progressive Darstellung der Bilder in einem Durchgang von oben nach unten vor. Eine einzelne Zeilengruppe wird auch als Feld bezeichnet. Die beiden Felder werden als oberes und unteres Feld bzw. Feld 1 und Feld 2, Gerade und Ungerade oder Oben und Unten bezeichnet. Es existiert leider keine standardisierte Nomenklatur. Am Fernsehgerät werden die Felder knapp nacheinander mit überlappenden Bereichen dargestellt (siehe Abbildung 3).

Abb. 3: Ein aus zwei Feldern bestehendes Halbbild-Video
In echten Videodaten sehen zwei Halbbilder oft sehr ähnlich aus und bei der Darstellung eines Einzelbildes auf einem Computer-Bildschirm entstehen keine sichtbaren Artefakte. Bei Videos mit hohem Bewegungsanteil (Kameraschwenks, bewegende Personen im Bild usw.) treten dagegen deutliche Halbbild-Artefakte auf, die zu einer schattenhaften Darstellung führen, wenn die Felder auf einem Computer-Bildschirm kombiniert werden. Die Ursache besteht darin, dass zwei Augenblicke in einem Einzelbild dargestellt werden.
Soll das Video auf einem Computer-Monitor scharf angezeigt werden, muss deshalb jeweils eines der beiden Halbbilder entfernt werden. Die Hälfte der Daten für jedes Einzelbild wird verworfen, die verbleibenden Daten werden dupliziert oder interpoliert. Bei NTSC-Daten führt dies zu 30 Einzelbildern, die jeweils separate Zeitpunkte dokumentieren (siehe Abbildung 4). Daraus ergibt sich ein wesentlich klareres Gesamtbild.

Abb. 4: Video-Standbild im Halbbild-Modus (links) und nach Entfernung eines Halbbilds (rechts)
Moderne Videostandards für Digitalfernsehen basieren auf modernen progressiven Scan-Technologien. Progressive Scan-Videokameras können normalerweise zwischen progressivem Scan- und Halbbild-Verfahren umschalten. Außerdem unterstützen diese Kameras in vielen Fällen mehrere Bildraten mit und ohne Halbbild-Verfahren. Typische Bildraten sind 60 p (60 BpS progressiv), 30 i (30 BpS Halbbild-Verfahren), 30 p (30 BpS progressiv) und 24 p (24 BpS progressiv). Bei Verwendung progressiv aufgezeichneter Bilder ist eine Entfernung von Halbbildern vor der Bereitstellung des Videos im Web nicht erforderlich.