2005 hat das W3C (Internationales Komittee zur Standarisierung von Webinhalten) eine Empfehlung für den Unicode-Zeichensatz als erste Wahl für Internet-Seiten veröffentlicht.
Schaut man sich heute als Programmierer im Internet um oder arbeitet an Skripten welche nicht nur auf einer Internetseite arbeiten sollen oder gar mehrere Websites verbinden ärgert man sich aber weiterhin über notwendige Konvertierungen zwischen den Zeichensätzen.
Schaut man zu grösseren Webportalen in der Branche, scheint utf8 doch bei der ein oder anderen Site im Einsatz; bei kleineren Websites, ob von Unternehmen oder privat bietet sich allerdings ein anderes Bild, der Standard heißt eindeutig ISO-8859-1 oder wird sogar durch ISO-8859-15 ersetzt.
Der ISO-Standard hat den klaren Nachteil, dass sich z.B. Umlaute oder ander fremsprachliche Zeichen nur durch HTML-Codes darstellen lassen, ein echtes ö im Code führt zwangsläufig zu einer kryptischen Ausgabe.
Warum?
Es scheint, dass utf8 einfach noch nicht angekommen ist bzw. in der Vorbild-Seite eben ISO angegeben war. Nicht jeder möchte sich explizit mit der Bedeutung der vielen HTML-Tags seiner Seite auseinandersetzen.
Alte Arbeitsweisen lassen sich eben doch nicht so einfach abschütteln.
Vorteile von UTF-8 bzw. Unicode-Zeichensätzen:
- mehrsprachige Websites
- problemfreie Einbinden von fremdem Code, z.B. durch RSS bzw. content syndication
- Einsparung von Schreibarbeit durch Wegfall von HTML-Codes z.B. für Umlaute
- erspart jegliches Nachdenken über Zeichensätze bei zukünfigen Änderungen (Vereinfachung durch Vereinheitlichung)
- entspricht aktuellen Web-Standards (Wir machen es richtig – effekt 🙂 )
Nachteile:
- Umgewöhnung
- mögliche Umstellungsschwierigkeiten bei vorhandenen Websites und Datenbanken
Also, folgendes in den Website-Code:
<meta http-equiv=”content-type” content=”text/html; charset=utf-8″ />
Bei xhtml ist es eigentlich gar überflüssig, da utf8 eindeutig Standard ist und keiner extra Erwähnung bedarf.