Zurück zur Startseite

Wie SiteGuard funktioniert

Technische Dokumentation unserer 14 Scan-Module

Kein Lighthouse — eigene Analyse-Engine

SiteGuard nutzt bewusst NICHT Google Lighthouse. Stattdessen verwenden wir eine eigene fetch-basierte Analyse-Engine, die auf Vercel Serverless läuft. Das bedeutet: konsistente Ergebnisse, keine Browser-Abhängigkeit, und deutlich schnellere Scans (2-3 Sekunden pro Seite statt 15-30 Sekunden mit Lighthouse).

Wichtiger Hinweis zu Legal & Accessibility

Automatisierte Legal- und Accessibility-Scans liefern technische Hinweise und Prioritäten. Sie ersetzen keine Rechtsberatung, keine juristische Prüfung und keine manuelle WCAG/BFSG/EAA-Zertifizierung durch qualifizierte Expert:innen.

So funktioniert ein Scan

  1. 1Website-URL wird abgerufen (fetch) — HTML, Response Headers, Cookies werden erfasst
  2. 2Interne Links + Sitemap werden analysiert — bis zu 5 Seiten werden gescannt (Root + 4 Unterseiten)
  3. 3Je nach Plan laufen bis zu 12 Kernmodule plus Cookie Audit und Discoverability als Companion-Scans — die Checks nutzen je nach Modul HTML, Header, Cookies, DNS/RDAP und gezielte HEAD-Requests
  4. 4Ergebnisse werden aggregiert — Scores 0-100 pro Modul, Issues nach Schweregrad sortiert
  5. 5KI-Report (optional) — Claude AI erstellt eine Management-Zusammenfassung mit Top-5 Maßnahmen

Methodik, Grenzen und Belastbarkeit

SiteGuard trennt bewusst zwischen gemessenen technischen Signalen, daraus abgeleiteten Prioritäten und Punkten, die eine manuelle oder rechtliche Prüfung brauchen. Diese Tabelle zeigt, wie belastbar die Ergebnisse je Bereich sind.

Accessibility

Gemessen

HTML-Signale wie lang-Attribut, Title, Alt-Texte, H1, Labels, Linktexte und ausgewählte WCAG-Zuordnung.

Nicht automatisiert bewertet

Tastaturnavigation, Screenreader-Verhalten, Fokusführung, Kontrast im gerenderten UI und vollständige WCAG/BFSG/EAA-Konformität.

Belastbarkeit

Hoch für technische Existenzsignale; mittel für die daraus abgeleitete Priorität.

Performance

Gemessen

Antwortzeit, Seitengröße, Ressourcenanzahl, Broken Links, Redirects, SSL-Status und Head-Request-Ergebnisse.

Nicht automatisiert bewertet

Echte Core Web Vitals wie LCP, CLS und INP ohne Browser- oder CrUX-Daten.

Belastbarkeit

Hoch für Fetch-, Header- und Link-Signale; keine Aussage zu echten Core Web Vitals.

Privacy & Legal

Gemessen

Cookie-/Tracker-Muster, CMP-Erkennung, Impressum-/Datenschutz-Links, Kontakt- und HTTPS-Signale.

Nicht automatisiert bewertet

Juristische Vollständigkeit, individuelle Rechtsgrundlagen, Vertragslage, Datenflüsse und konkrete Mandanten-/Branchenpflichten.

Belastbarkeit

Mittel; die technische Evidenz ist belastbar, die rechtliche Bewertung bleibt ein Einzelfall.

Cookie Audit

Gemessen

Cookies, Storage, Third-Party-Requests und CMP-Deklarationen vor Consent, nach Ablehnen und nach Akzeptieren.

Nicht automatisiert bewertet

Rechtliche Freigabe des Consent-Designs, Formulierungen im Banner und vollständige Prüfung aller Datenschutztexte.

Belastbarkeit

Mittel bis hoch für beobachtete Browser-Zustände; keine juristische Freigabe.

Security

Gemessen

Öffentlich sichtbare Header, SSL/TLS, CSP, HSTS, Mixed Content, CORS-Hinweise und bekannte Frontend-Bibliotheksmuster.

Nicht automatisiert bewertet

Penetration Test, Auth-/Business-Logic-Schwachstellen, Server-Internals und nicht öffentlich sichtbare Infrastruktur.

Belastbarkeit

Hoch für beobachtbare Web-Signale; keine Aussage zu versteckten Schwachstellen.

SEO & Discoverability

Gemessen

Meta-Tags, robots.txt, Sitemap, Canonical, hreflang, strukturierte Daten, Crawl-Abdeckung und Noindex-Konflikte.

Nicht automatisiert bewertet

Tatsächliches Google-Ranking, garantierte Indexierung, Suchvolumen, Backlink-Qualität und Wettbewerbsanalyse.

Belastbarkeit

Hoch für technische Auffindbarkeitssignale; keine Ranking- oder Indexierungsgarantie.

Die 14 Module und Companion-Scans im Detail

Privacy Scanner

HTML-Musteranalyse + Cookie-Header

  • Cookie-Erkennung aus Set-Cookie Headers
  • 13 Third-Party-Tracker-Muster (Google, Meta, TikTok, LinkedIn, etc.)
  • 10 Consent-Management-Plattformen (Cookiebot, Usercentrics, OneTrust, etc.)
  • Cookie-Klassifizierung (notwendig/analytics/werbung)
  • DSGVO/TTDSG-Bewertung

Scoring: Start 100. Kein Consent-Banner: -50. Tracker ohne Consent: -10 je (max -30). Nicht-essentielle Cookies: -5 je (max -20).

Accessibility Audit

HTML-Regex-Analyse (kein axe-core Browser nötig)

  • Bilder ohne alt-Text (WCAG 1.1.1)
  • Fehlendes HTML lang-Attribut (WCAG 3.1.1)
  • Fehlender Seitentitel (WCAG 2.4.2)
  • H1-Präsenz und Heading-Hierarchie (WCAG 1.3.1)
  • Inputs ohne Labels (WCAG 4.1.2)
  • Leere Links (WCAG 2.4.4)
  • EAA-Priorisierungssignal

Scoring: Start 100. Fehlendes lang: -15. Fehlender Title: -10. Bilder ohne alt: -3 je (max -20). Inputs ohne Label: -5 je (max -15). Kein H1: -10.

SEO + GEO Audit

HTML-Analyse + HEAD-Requests + JSON-LD-Parsing

  • Title, Meta-Description, Viewport, Canonical
  • Open Graph (8 Tags) + Twitter Card (4 Tags)
  • Structured Data: 13 Schema.org-Typen mit Pflichtfeld-Validierung
  • GEO-Score: Content-Struktur, Entity-Signale, AI-Auffindbarkeit, Zitierbarkeit
  • Sitemap.xml, robots.txt, hreflang-Tags
  • Favicon-Vollständigkeit, Social Preview Qualität
  • Bild-Optimierung: Dimensionen, Lazy Loading, WebP/AVIF, Dateigröße
  • RSS/Atom-Feed-Erkennung, Web-Manifest, Resource Hints

Scoring: 28+ Einzelchecks. Fehlender Title: -15. Fehlende Meta: -15. Kein OG: -10. Kein Structured Data: -10. Plus GEO-Score 0-100 separat.

Security Scanner

fetch() + node:https für SSL-Inspektion

  • 10 HTTP-Security-Headers (HSTS, CSP, X-Frame-Options, etc.)
  • SSL/TLS-Zertifikat-Validierung + Ablauf
  • CSP-Tiefenanalyse (unsafe-inline, unsafe-eval, Wildcards, frame-ancestors)
  • HTTPS-Redirect-Prüfung
  • Mixed Content-Erkennung
  • Subresource Integrity (SRI)
  • CORS-Konfiguration
  • Server-Informationsleck (Versionsoffenlegung)
  • Veraltete JS-Bibliotheken (jQuery <3.5, Bootstrap <5, etc.)
  • Grading A+ bis F (wie SecurityHeaders.com)

Scoring: Start 100. Fehlendes HSTS: -15. Fehlendes/schwaches CSP: -15. SSL-Probleme: bis -30. CORS-Wildcard: -10. Mixed Content: -3 je. Server-Leak: -3 je.

Performance Check

fetch() mit Timing + HEAD-Requests für Links

  • Antwortzeit (Response Time via fetch-Timing)
  • Seitengröße (Content-Length)
  • Broken Links: alle Resource-URLs (a, img, script, link, video, iframe)
  • Redirect-Ketten (manuelle Verfolgung, Hop-Zählung)
  • SSL-Validierung
  • Ressourcen-Anzahl (Scripts, Stylesheets, Bilder)
  • Kaputte Bilder (HEAD-Request-Prüfung)
  • Zu große Bilder (>500KB)

Scoring: Start 100. Response >3s: -20, >5s: -30. Broken intern: -5 je. Broken extern: -2 je. Broken Image: -3 je. Redirect-Ketten: -2 je.

Tag Validator

HTML-Musteranalyse auf allen gescannten Seiten

  • 12 Tag-Typen: GA4, GTM, Meta Pixel, LinkedIn, TikTok, Hotjar, Matomo, etc.
  • Tag-ID-Extraktion (G-XXXXX, GTM-XXXXX, Pixel-IDs)
  • DataLayer-Erkennung
  • Seitenübergreifende Konsistenz-Prüfung (Tag auf Homepage aber nicht auf Unterseiten?)
  • Duplikat-Erkennung

Scoring: Start 100. Kein Analytics: -20. GA ohne GTM: -10. Kein DataLayer mit GTM: -15. Inkonsistente Tags: -3 je (max -9).

Legal Compliance

HTML-Musteranalyse für DACH-Recht

  • Impressum/Imprint-Link vorhanden
  • Datenschutz/Privacy-Link vorhanden
  • Cookie-Banner-Erkennung (20+ CMP-Plattformen)
  • AGB/Terms-Link vorhanden
  • Kontaktinformationen (E-Mail, Telefon)
  • HTTPS aktiv

Scoring: Start 100. Kein Impressum: -25. Kein Datenschutz: -25. Kein Cookie-Banner: -15. Kein AGB: -10. Kein Kontakt: -10.

Content Changes

Text-Fingerprinting + Vergleich

  • Text-Extraktion (HTML-Tags entfernt)
  • Wort-, Link- und Bildanzahl
  • Content-Hash (Fingerprint)
  • Vergleich mit vorherigem Scan
  • Änderungserkennung: keine/gering/signifikant/massiv

Scoring: 100 = keine Änderung. 80 = geringe Änderung (<10%). 50 = signifikant. 30 = massiv.

SSL & Domain

node:https + node:dns + RDAP API

  • SSL-Zertifikat: Gültigkeit, Aussteller, Ablaufdatum, Protokoll
  • DNS-Records: A, AAAA, MX, NS, TXT
  • DMARC-Record
  • SPF-Record
  • Domain-WHOIS via RDAP (Ablaufdatum, Registrar)

Scoring: Start 100. SSL abgelaufen: -40. SSL <7 Tage: -25. Kein DMARC: -10. Kein SPF: -10. Domain <30 Tage: -15.

CO₂ Footprint

fetch() + Seitengröße-Messung

  • Transfer-Größe (KB)
  • Ressourcen-Anzahl (Scripts, Styles, Bilder, Fonts)
  • CO₂-Schätzung: 0.2g pro MB übertragen
  • Bewertung: A+ (<0.5g), A (<1g), B (<1.5g), C (<2g), D (>2g)
  • Vergleich mit globalem Durchschnitt (1.76g pro Seitenaufruf)

Scoring: A+ = 100. A = 85. B = 70. C = 50. D = 30.

Tech Stack

HTML + Response-Header-Analyse

  • 17 CMS-Systeme mit Versionserkennung (WordPress, TYPO3, Drupal, Shopify, etc.)
  • 15 Frontend-Frameworks mit Version (React, Next.js, Vue, Angular, jQuery, etc.)
  • 10 JS-Bibliotheken (Lodash, GSAP, Three.js, D3.js, etc.)
  • 8 CDN-Anbieter (Cloudflare, Vercel, AWS CloudFront, etc.)
  • 14 Analytics-Tools
  • 9 CSS-Frameworks
  • Font-Provider (Google Fonts, Adobe Fonts)
  • Server + Hosting-Erkennung
  • Programmiersprachen-Hinweise (X-Powered-By)

Scoring: Informativ — immer Score 100. Keine Abzüge.

Third-Party Risk

HTML src/href-Extraktion + Domain-Klassifizierung

  • Externe Domains aus allen Resource-URLs
  • Kategorisierung: Analytics, Werbung, Social, CDN, Fonts, Maps, Video, Payment
  • Risikobewertung: bekannter Tracker (hoch), CDN (niedrig), unbekannt (mittel)
  • Zählung: Gesamte Drittanbieter, Hochrisiko-Anteil

Scoring: Start 100. >10 Drittanbieter: -5. >20: -15. Hochrisiko: -10 je (max -30). Unbekannt: -3 je (max -15).

Cookie Audit

Browser-/Fetch-basierter Companion-Scan mit drei Consent-Zuständen

  • Consent-Banner-Erkennung und Provider
  • Cookies, Local Storage und Session Storage vor Consent, nach Ablehnen und nach Akzeptieren
  • Third-Party-Requests je Consent-Zustand
  • CMP-Deklarationen
  • Findings zu nicht notwendigen Cookies und Tracking vor Consent

Scoring: Eigener Score aus Consent-Findings. Cookie Audit läuft als website-skopierter Companion-Scan und wird nicht als normales scan_result-Modul gespeichert.

Discoverability

robots.txt + Sitemap-Fetching + Crawl-Vergleich

  • robots.txt Status und Sitemap-Direktiven
  • Sitemap-URLs und lastmod-Validierung
  • Crawl-Abdeckung
  • Noindex-Konflikte
  • Orphan URLs und fehlende Sitemap-Einträge
  • IndexNow-Key und Einreichung

Scoring: Eigener Score aus Discoverability-Findings. Discoverability läuft als website-skopierter Companion-Scan und wird separat gespeichert.

Zusätzliche Features

Multi-Page Scanning

Jeder Scan analysiert bis zu 5 Seiten (Root + 4 Unterseiten aus Sitemap und internen Links).

Uptime Monitoring

Alle 5 Minuten Ping-Check mit Statusverlauf, Response-Time und Downtime-Alerts.

KI-Reports

Claude AI generiert Management-Zusammenfassungen mit Top-5 Maßnahmen auf Deutsch.

PDF Export

Gebrandeter PDF-Report mit Scores, Charts und Issues zum Download.

CSV/JSON Export

Scan-Ergebnisse als CSV oder JSON für weitere Analyse.

Score Trends

Verlaufsdiagramm zeigt Score-Entwicklung über alle Scans.

Scheduled Scans

Automatische Scans täglich, wöchentlich oder monatlich via Inngest Cron.

Warum kein Lighthouse?

Google Lighthouse ist unzuverlässig in Serverless-Umgebungen, gibt inkonsistente Ergebnisse und braucht einen vollständigen Chrome-Browser. SiteGuard verwendet stattdessen eine eigene fetch-basierte Engine: konsistente Ergebnisse, 2-3 Sekunden pro Seite (statt 15-30s), und läuft auf Vercel Serverless ohne Chromium.

Hinweis: Echte Core Web Vitals (LCP, CLS, INP) benötigen einen Browser. Diese können später über die CrUX API (Chrome Real-User-Daten) ergänzt werden — zuverlässiger als Lighthouse Lab-Daten.