Wie SiteGuard funktioniert

Technische Dokumentation unserer 14 Scan-Module

Kein Lighthouse — eigene Analyse-Engine

SiteGuard nutzt bewusst NICHT Google Lighthouse. Stattdessen verwenden wir eine eigene fetch-basierte Analyse-Engine, die auf Vercel Serverless läuft. Das bedeutet: konsistente Ergebnisse, keine Browser-Abhängigkeit, und deutlich schnellere Scans (2-3 Sekunden pro Seite statt 15-30 Sekunden mit Lighthouse).

Wichtiger Hinweis zu Legal & Accessibility

Automatisierte Legal- und Accessibility-Scans liefern technische Hinweise und Prioritäten. Sie ersetzen keine Rechtsberatung, keine juristische Prüfung und keine manuelle WCAG/BFSG/EAA-Zertifizierung durch qualifizierte Expert:innen.

So funktioniert ein Scan

1Website-URL wird abgerufen (fetch) — HTML, Response Headers, Cookies werden erfasst
2Interne Links + Sitemap werden analysiert — bis zu 5 Seiten werden gescannt (Root + 4 Unterseiten)
3Je nach Plan laufen bis zu 12 Kernmodule plus Cookie Audit und Discoverability als Companion-Scans — die Checks nutzen je nach Modul HTML, Header, Cookies, DNS/RDAP und gezielte HEAD-Requests
4Ergebnisse werden aggregiert — Scores 0-100 pro Modul, Issues nach Schweregrad sortiert
5KI-Report (optional) — Claude AI erstellt eine Management-Zusammenfassung mit Top-5 Maßnahmen

Methodik, Grenzen und Belastbarkeit

SiteGuard trennt bewusst zwischen gemessenen technischen Signalen, daraus abgeleiteten Prioritäten und Punkten, die eine manuelle oder rechtliche Prüfung brauchen. Diese Tabelle zeigt, wie belastbar die Ergebnisse je Bereich sind.

Accessibility

Gemessen

HTML-Signale wie lang-Attribut, Title, Alt-Texte, H1, Labels, Linktexte und ausgewählte WCAG-Zuordnung.

Nicht automatisiert bewertet

Tastaturnavigation, Screenreader-Verhalten, Fokusführung, Kontrast im gerenderten UI und vollständige WCAG/BFSG/EAA-Konformität.

Belastbarkeit

Hoch für technische Existenzsignale; mittel für die daraus abgeleitete Priorität.

Performance

Gemessen

Antwortzeit, Seitengröße, Ressourcenanzahl, Broken Links, Redirects, SSL-Status und Head-Request-Ergebnisse.

Nicht automatisiert bewertet

Echte Core Web Vitals wie LCP, CLS und INP ohne Browser- oder CrUX-Daten.

Belastbarkeit

Hoch für Fetch-, Header- und Link-Signale; keine Aussage zu echten Core Web Vitals.

Privacy & Legal

Gemessen

Cookie-/Tracker-Muster, CMP-Erkennung, Impressum-/Datenschutz-Links, Kontakt- und HTTPS-Signale.

Nicht automatisiert bewertet

Juristische Vollständigkeit, individuelle Rechtsgrundlagen, Vertragslage, Datenflüsse und konkrete Mandanten-/Branchenpflichten.

Belastbarkeit

Mittel; die technische Evidenz ist belastbar, die rechtliche Bewertung bleibt ein Einzelfall.

Cookie Audit

Gemessen

Cookies, Storage, Third-Party-Requests und CMP-Deklarationen vor Consent, nach Ablehnen und nach Akzeptieren.

Nicht automatisiert bewertet

Rechtliche Freigabe des Consent-Designs, Formulierungen im Banner und vollständige Prüfung aller Datenschutztexte.

Belastbarkeit

Mittel bis hoch für beobachtete Browser-Zustände; keine juristische Freigabe.

Security

Gemessen

Öffentlich sichtbare Header, SSL/TLS, CSP, HSTS, Mixed Content, CORS-Hinweise und bekannte Frontend-Bibliotheksmuster.

Nicht automatisiert bewertet

Penetration Test, Auth-/Business-Logic-Schwachstellen, Server-Internals und nicht öffentlich sichtbare Infrastruktur.

Belastbarkeit

Hoch für beobachtbare Web-Signale; keine Aussage zu versteckten Schwachstellen.

SEO & Discoverability

Gemessen

Meta-Tags, robots.txt, Sitemap, Canonical, hreflang, strukturierte Daten, Crawl-Abdeckung und Noindex-Konflikte.

Nicht automatisiert bewertet

Tatsächliches Google-Ranking, garantierte Indexierung, Suchvolumen, Backlink-Qualität und Wettbewerbsanalyse.

Belastbarkeit

Hoch für technische Auffindbarkeitssignale; keine Ranking- oder Indexierungsgarantie.

Die 14 Module und Companion-Scans im Detail

Privacy Scanner

HTML-Musteranalyse + Cookie-Header

Cookie-Erkennung aus Set-Cookie Headers
13 Third-Party-Tracker-Muster (Google, Meta, TikTok, LinkedIn, etc.)
10 Consent-Management-Plattformen (Cookiebot, Usercentrics, OneTrust, etc.)
Cookie-Klassifizierung (notwendig/analytics/werbung)
DSGVO/TTDSG-Bewertung

Scoring: Start 100. Kein Consent-Banner: -50. Tracker ohne Consent: -10 je (max -30). Nicht-essentielle Cookies: -5 je (max -20).

Accessibility Audit

HTML-Regex-Analyse (kein axe-core Browser nötig)

Bilder ohne alt-Text (WCAG 1.1.1)
Fehlendes HTML lang-Attribut (WCAG 3.1.1)
Fehlender Seitentitel (WCAG 2.4.2)
H1-Präsenz und Heading-Hierarchie (WCAG 1.3.1)
Inputs ohne Labels (WCAG 4.1.2)
Leere Links (WCAG 2.4.4)
EAA-Priorisierungssignal

Scoring: Start 100. Fehlendes lang: -15. Fehlender Title: -10. Bilder ohne alt: -3 je (max -20). Inputs ohne Label: -5 je (max -15). Kein H1: -10.

SEO + GEO Audit

HTML-Analyse + HEAD-Requests + JSON-LD-Parsing

Title, Meta-Description, Viewport, Canonical
Open Graph (8 Tags) + Twitter Card (4 Tags)
Structured Data: 13 Schema.org-Typen mit Pflichtfeld-Validierung
GEO-Score: Content-Struktur, Entity-Signale, AI-Auffindbarkeit, Zitierbarkeit
Sitemap.xml, robots.txt, hreflang-Tags
Favicon-Vollständigkeit, Social Preview Qualität
Bild-Optimierung: Dimensionen, Lazy Loading, WebP/AVIF, Dateigröße
RSS/Atom-Feed-Erkennung, Web-Manifest, Resource Hints

Scoring: 28+ Einzelchecks. Fehlender Title: -15. Fehlende Meta: -15. Kein OG: -10. Kein Structured Data: -10. Plus GEO-Score 0-100 separat.

Security Scanner

fetch() + node:https für SSL-Inspektion

10 HTTP-Security-Headers (HSTS, CSP, X-Frame-Options, etc.)
SSL/TLS-Zertifikat-Validierung + Ablauf
CSP-Tiefenanalyse (unsafe-inline, unsafe-eval, Wildcards, frame-ancestors)
HTTPS-Redirect-Prüfung
Mixed Content-Erkennung
Subresource Integrity (SRI)
CORS-Konfiguration
Server-Informationsleck (Versionsoffenlegung)
Veraltete JS-Bibliotheken (jQuery <3.5, Bootstrap <5, etc.)
Grading A+ bis F (wie SecurityHeaders.com)

Scoring: Start 100. Fehlendes HSTS: -15. Fehlendes/schwaches CSP: -15. SSL-Probleme: bis -30. CORS-Wildcard: -10. Mixed Content: -3 je. Server-Leak: -3 je.

Performance Check

fetch() mit Timing + HEAD-Requests für Links

Antwortzeit (Response Time via fetch-Timing)
Seitengröße (Content-Length)
Broken Links: alle Resource-URLs (a, img, script, link, video, iframe)
Redirect-Ketten (manuelle Verfolgung, Hop-Zählung)
SSL-Validierung
Ressourcen-Anzahl (Scripts, Stylesheets, Bilder)
Kaputte Bilder (HEAD-Request-Prüfung)
Zu große Bilder (>500KB)

Scoring: Start 100. Response >3s: -20, >5s: -30. Broken intern: -5 je. Broken extern: -2 je. Broken Image: -3 je. Redirect-Ketten: -2 je.

Tag Validator

HTML-Musteranalyse auf allen gescannten Seiten

12 Tag-Typen: GA4, GTM, Meta Pixel, LinkedIn, TikTok, Hotjar, Matomo, etc.
Tag-ID-Extraktion (G-XXXXX, GTM-XXXXX, Pixel-IDs)
DataLayer-Erkennung
Seitenübergreifende Konsistenz-Prüfung (Tag auf Homepage aber nicht auf Unterseiten?)
Duplikat-Erkennung

Scoring: Start 100. Kein Analytics: -20. GA ohne GTM: -10. Kein DataLayer mit GTM: -15. Inkonsistente Tags: -3 je (max -9).

Legal Compliance

HTML-Musteranalyse für DACH-Recht

Impressum/Imprint-Link vorhanden
Datenschutz/Privacy-Link vorhanden
Cookie-Banner-Erkennung (20+ CMP-Plattformen)
AGB/Terms-Link vorhanden
Kontaktinformationen (E-Mail, Telefon)
HTTPS aktiv

Scoring: Start 100. Kein Impressum: -25. Kein Datenschutz: -25. Kein Cookie-Banner: -15. Kein AGB: -10. Kein Kontakt: -10.

Content Changes

Text-Fingerprinting + Vergleich

Text-Extraktion (HTML-Tags entfernt)
Wort-, Link- und Bildanzahl
Content-Hash (Fingerprint)
Vergleich mit vorherigem Scan
Änderungserkennung: keine/gering/signifikant/massiv

Scoring: 100 = keine Änderung. 80 = geringe Änderung (<10%). 50 = signifikant. 30 = massiv.

SSL & Domain

node:https + node:dns + RDAP API

SSL-Zertifikat: Gültigkeit, Aussteller, Ablaufdatum, Protokoll
DNS-Records: A, AAAA, MX, NS, TXT
DMARC-Record
SPF-Record
Domain-WHOIS via RDAP (Ablaufdatum, Registrar)

Scoring: Start 100. SSL abgelaufen: -40. SSL <7 Tage: -25. Kein DMARC: -10. Kein SPF: -10. Domain <30 Tage: -15.

CO₂ Footprint

fetch() + Seitengröße-Messung

Transfer-Größe (KB)
Ressourcen-Anzahl (Scripts, Styles, Bilder, Fonts)
CO₂-Schätzung: 0.2g pro MB übertragen
Bewertung: A+ (<0.5g), A (<1g), B (<1.5g), C (<2g), D (>2g)
Vergleich mit globalem Durchschnitt (1.76g pro Seitenaufruf)

Scoring: A+ = 100. A = 85. B = 70. C = 50. D = 30.

Tech Stack

HTML + Response-Header-Analyse

17 CMS-Systeme mit Versionserkennung (WordPress, TYPO3, Drupal, Shopify, etc.)
15 Frontend-Frameworks mit Version (React, Next.js, Vue, Angular, jQuery, etc.)
10 JS-Bibliotheken (Lodash, GSAP, Three.js, D3.js, etc.)
8 CDN-Anbieter (Cloudflare, Vercel, AWS CloudFront, etc.)
14 Analytics-Tools
9 CSS-Frameworks
Font-Provider (Google Fonts, Adobe Fonts)
Server + Hosting-Erkennung
Programmiersprachen-Hinweise (X-Powered-By)

Scoring: Informativ — immer Score 100. Keine Abzüge.

Third-Party Risk

HTML src/href-Extraktion + Domain-Klassifizierung

Externe Domains aus allen Resource-URLs
Kategorisierung: Analytics, Werbung, Social, CDN, Fonts, Maps, Video, Payment
Risikobewertung: bekannter Tracker (hoch), CDN (niedrig), unbekannt (mittel)
Zählung: Gesamte Drittanbieter, Hochrisiko-Anteil

Scoring: Start 100. >10 Drittanbieter: -5. >20: -15. Hochrisiko: -10 je (max -30). Unbekannt: -3 je (max -15).

Cookie Audit

Browser-/Fetch-basierter Companion-Scan mit drei Consent-Zuständen

Consent-Banner-Erkennung und Provider
Cookies, Local Storage und Session Storage vor Consent, nach Ablehnen und nach Akzeptieren
Third-Party-Requests je Consent-Zustand
CMP-Deklarationen
Findings zu nicht notwendigen Cookies und Tracking vor Consent

Scoring: Eigener Score aus Consent-Findings. Cookie Audit läuft als website-skopierter Companion-Scan und wird nicht als normales scan_result-Modul gespeichert.

Discoverability

robots.txt + Sitemap-Fetching + Crawl-Vergleich

robots.txt Status und Sitemap-Direktiven
Sitemap-URLs und lastmod-Validierung
Crawl-Abdeckung
Noindex-Konflikte
Orphan URLs und fehlende Sitemap-Einträge
IndexNow-Key und Einreichung

Scoring: Eigener Score aus Discoverability-Findings. Discoverability läuft als website-skopierter Companion-Scan und wird separat gespeichert.

Zusätzliche Features

Multi-Page Scanning

Jeder Scan analysiert bis zu 5 Seiten (Root + 4 Unterseiten aus Sitemap und internen Links).

Uptime Monitoring

Alle 5 Minuten Ping-Check mit Statusverlauf, Response-Time und Downtime-Alerts.

KI-Reports

Claude AI generiert Management-Zusammenfassungen mit Top-5 Maßnahmen auf Deutsch.

PDF Export

Gebrandeter PDF-Report mit Scores, Charts und Issues zum Download.

CSV/JSON Export

Scan-Ergebnisse als CSV oder JSON für weitere Analyse.

Score Trends

Verlaufsdiagramm zeigt Score-Entwicklung über alle Scans.

Scheduled Scans

Automatische Scans täglich, wöchentlich oder monatlich via Inngest Cron.

Warum kein Lighthouse?

Google Lighthouse ist unzuverlässig in Serverless-Umgebungen, gibt inkonsistente Ergebnisse und braucht einen vollständigen Chrome-Browser. SiteGuard verwendet stattdessen eine eigene fetch-basierte Engine: konsistente Ergebnisse, 2-3 Sekunden pro Seite (statt 15-30s), und läuft auf Vercel Serverless ohne Chromium.

Hinweis: Echte Core Web Vitals (LCP, CLS, INP) benötigen einen Browser. Diese können später über die CrUX API (Chrome Real-User-Daten) ergänzt werden — zuverlässiger als Lighthouse Lab-Daten.