| Auf dieser Seite finden sie einige Live-Beispiele für die Analyse dieses kompletten Webs. | Die Analyse und alle Auswertungen wurden mit (kostenfreier) Standard-Software durchgeführt. |
IT-Anwendung
|
Dokumentation |
| Dateien | Verzeichnisse, Dateien und Dateitypen |
| Type | MIME-Type und Datei-Erweiterung der Dateien |
| Bilder | Alle enthaltenen und verwendeten Grafik-Dateien |
| Aufbau | Herstellung und Aufbau dieser Webseite |
Statistik der Verzeichnisse und Dateien |
|
|
Die Erhebung wurde von (PHP)-Programmen automatisch ausgeführt. Dabei wurde auch der Inhalt aller Text-Dateien (Webseiten) dieses Webs gelesen und analysiert, die Daten in einer MySQL-Datenbank gespeichert. Die hier gezeigten Ergebnisse sind Live ausgewertet.. Tabellen und Diagramme werden durch (PHP)-Programme aus den Daten der Datenbank erstellt. Die Arbeitszeit zur Erhebung aller Datei-Daten beträgt je nach Server und Auslastung ca. 1 Sekunde, zur detaillierten Analyse aller Texte ca. 5..30 Sekunden. |
|
|
Nebenbei werden auch andere, hier nicht angeführte
Arbeiten erledigt, z.B. Führung von Log-Dateien, Kontrolle von Dateinamen auf Großbuchstaben und Sonderzeichen sowie auf unbekannte Datei-Erweiterungen, Warnungen vor leeren oder sehr großen Dateien, etc. |
Es ist sehr empfehlenswert, solche Arbeiten → regelmäßig und natürlich → automatisch auszuführen: Damit lassen sich einige Datei-Fehler erkennen und korrigieren. Außerdem ist es einfach, ein derartiges Programm laufend zu ergänzen und zu verbessern. |
Statistik nach MIME-Type und Datei-Erweiterung |
|
|
●
Webseiten (auch diese Seite) sind vorwiegend als
→
XHTML-Webseiten enthalten (Type application/xhtml+xml),
seltener als klassische HTML Webseiten (Type text/html) ● Script-Programme ( → Perl, → PHP, Python, ...) werden unter jener MIME-Type geführt, die vom jeweiligen Programm erzeugt wird (z.B. application/xhtml+xml). Die MIME-Type des Programms (z.B. application/x-php) wird nur dann verwendet, wenn sie variabel oder (für das Analyse-Programm) unbekannt ist. ♦ Details zur MIME-Type |
|
|
●
Diese Tabelle zeigt besser die im Web enthaltenen Script-Programme
(z.B. *.pl, *.php, *.py). Sensible Verzeichnisse und Dateien sind von dieser Statistik ausgenommen. |
|
|
Die Größenverteilung der statischen
(*.htm + *.html) und dynamischen
(*.php + *.pl) Webseiten ist derzeit noch nicht
zufriedenstellend: • Es gibt noch zu viele große Dateien: • Sie müssen in kleinere Dateien aufgeteilt werden. Das verbessert die Übersicht und verkürzt die Ladezeit. |
•
Im Idealfall wird der gleichbleibende (meist größere) Teil einer
Webseite als statische Datei *.htm, *.html, *.xhtml
angelegt. • Dynamische (Live hergestellte) Teile werden in möglichst kleine und rasche auszuführende Dateien von Script-Programmen *.php ausgelagert und in die statische Webseite eingebettet. • Auch diese Forderung ist noch unzureichend erfüllt. |
Statistik der verwendeten Grafik-Dateien (Bilder) |
||||
|
||||
Grafik-TypenDie Grafik Datei-Typen PNG, JPEG, GIF enthalten Pixel-Daten (Farben jedes einzelnen Bildpunkts), SVG enthält Objekt-Grafik.♦ Details zu den Themen Farbe, SVG |
JPEG bietet TrueColor (24 Bit, 16.8 Mio Farben). GIF bietet Index-Farben (8 Bit Palette). PNG bietet sowohl TrueColor als auch Index-Farben. ♦ Details zu den Themen TrueColor, Index-Farben |
|||
Datei oder Programmierung• Statische (unveränderliche) Grafik ist in Dateien *.png, *.jpeg, *.jpg, *.gif enthalten.• Dynamische Grafik kann mit Programmen (Java, Perl, PHP, Python, ...) erzeugt werden. Alle Grafiken dieser Seite wurden Live aus den Original-Daten mit → PHP erzeugt. |
SVG• Objekt-Grafik ( → SVG) kann statisch oder dynamisch angelegt werden. Alle Grafik-Objekte können mit Javascript-Programmen beliebig erzeugt, verändert oder bewegt werden.• SVG-Grafik lässt sich direkt in den Quelltext von → XHTML-Webseiten einbauen. |
|||
|
Zur Analyse wurden die Quelltexte sämtlicher Webseiten nach Mustern
dieser Art durchsucht: <img src="*.*" />
Es ist sinnvoll, Icons und andere kleinere Grafiken mehrfach zu verwenden. Das spart Platz am Server und Ladezeit bei den BesucherInnen, welche die Grafik nur 1mal laden und dann aus ihrem Cache-Speicher entnehmen. Die Grafik-Statistik (rechts, stark gekürzt) gibt Aufschluss darüber, wie oft jede einzelne Grafik-Datei (auf allen Webseiten zusammen) verwendet wird. Dabei findet man auch nicht (mehr) verwendete Dateien, die man entfernen kann. Häufigkeits-Klassen:
Die Tabelle zeigt eine Zusammenfassung aller Grafik-Dateien in Klassen
nach der Häufigkeit ihrer Verwendung.
|
||||
| ♣ Tipp: → Javascript ist mit Hilfe von → DOM-Methoden gut geeignet, um die auf einer einzelnen Webseite enthaltenen Bilder zu zählen oder aufzulisten. | ♣ Mit Hilfe von → Bookmarklets kann man u.a. die Bilder einer beliebigen Webseite extrahieren - Selbst dann, wenn durch paranoide Programmierung versucht wurde, das zu unterbinden. | |||
Aufbau dieser Webseite |
|
Innen-RahmenAuf vielen Seiten dieses Webs werden HTML → InnenRahmen (iframes) verwendet. Damit kann man fremde Objekte in eine Webseite einbetten.Beispiel: Alle Tabellen und Grafiken dieser Seite befinden sich auf eigenen Mini-Webseiten und sind in diese Seite eingebettet. Mit Rechtsklick kann man diese Objekte oder ihren Quelltext in einem eigenen Fenster anzeigen. |
Das hat einige Vorteile: • Der größte Teil der Webseite ist statisch, d.h. eine einfache *.html-Datei. Die dynamischen Teile (Anzeige der Live-Daten) erfordern mehr Server-Leistung und sind so klein wie möglich gehalten. • Die dynamischen Objekte lassen sich auch in andere Webseiten einbetten (Mehrfach-Verwendung). • Der Inhalt von InnenRahmen lässt sich rasch und einfach austauschen, ohne dass die Webseite neu geladen wird. Die Anzahl der 'sichtbaren' Webseiten ist deutlich geringer als die Statistik vermuten lässt. Gute Hinweise liefern die verwendeten Icons:
Jedes Standard-Kapitel (außer dieses) enthält die grünen
Navigations-Icons genau 1mal.
|
Dateisystem:Alle hier enthaltenen Daten (und einige mehr...) wurden mit Script-Programmen (→ Perl, → PHP, Python) erhoben.● Moderne Programmiersprachen bieten die Möglichkeit, Verzeichnisse (Ordner) zu öffnen und die Listen der enthaltenen Unter-Verzeichnisse und Dateien zu bearbeiten (Name, Größe, Type, ...). • Dieses Verfahren wird automatisch auf jedes gefundene Unter-Verzeichnis angewendet (Rekursion). Spider (Bot)Wenn man keinen Zugriff auf ein (entferntes) Dateisystem hat, kann die gleiche Arbeit von Spider-(RoBot)-Programmen ausgeführt werden.Solche Programme durchforsten ein (entferntes) Web mit Hilfe der gefundenen HyperLinks. |
Quelltext:Alle gängigen Programmiersprachen können Text-Dateien öffnen und den Inhalt 'lesen'.In diesem Web wird der Inhalt aller Quelltext-Dateien (htm, html, php, pl, py, ...) analysiert. ● Der Text wird nach unterschiedlichen Kriterien durchsucht. Es werden z.B. alle verwendeten Grafik-Dateien <img src="...">, alle Hyperlinks <a href="...">, alle CSS-Klassen class="..." sowie Stichworte und Kapitel-Überschriften gesucht, isoliert und gespeichert. ● Zum Suchen und Isolieren bestimmter Text-Elemente sind → Reguläre Ausdrücke besonders gut geeignet. |
Datenbank-Server und Log-DateienAlle Analyse-Daten werden in einer ( → MySQL) Datenbank gespeichert.• Da die komplette Analyse immerhin ca. 20 Sekunden dauert, wird sie nur bei Änderungen wiederholt. • In der Zwischenzeit steht die Datenbank für umfangreiche Auswertungen zur Verfügung. ● Wenn ein Analyse-Programm auf Fehler stößt, dann kann man diese in manchen Fällen gleich vom Programm beheben lassen. In jedem Fall werden Warnungen und Fehler-Meldungen in Log-Dateien festgehalten. |
AuswertungDie gesammelten Daten ermöglichen viele verschiedene Auswertungen. Jede Auswertung erfolgt auf einer eigenen dynamischen Webseite ( = Script-Programm). In diese statische Webseite sind einige ausgewählte dynamisch erstellte Beispiele → eingebettet• Eine einzelne Auswertung benötigt typisch <1 Sekunde und kann daher jederzeit (z.B. mit geänderten Vorgaben) wiederholt werden. • Alle auf dieser Seite gezeigten Grafiken wurden mit kleinen PHP-Programmen Live aus den Original-Daten erzeugt. Produkte:Die automatisch erhobenen Daten können als Rohmaterial für unterschiedliche Produkte dienen, z.B.● SiteMap für Suchmaschinen (Google, als → XML-Datei) ● Interaktive SiteMap für AnwenderInnen ● Intra-Web Suche nach Stichworten ● Optimierung des Webs |