Extraktio von Apivanta

Aus ungenutzten
Dokumenten wird
verwertbares Wissen.

Wir strukturieren Ihr Dokumentenarchiv mit KI: klassifiziert, mit Metadaten, migrationsbereit. In Wochen, nicht Jahren.

100 % On-Premise Keine Cloud Eigene Infrastruktur
100 % On-Premise - keine Cloud, keine externen APIs
Erstgespräch vereinbaren
Extraktio
KI · On-Premise
  • Keine Cloud-Dienste
  • Keine externen APIs
  • Eigene KI-Infrastruktur
  • Verarbeitung in der Schweiz

Daten vorhanden. Nicht nutzbar.

Millionen Dateien. Keine Metadaten. Keine Struktur. So sieht die Realität aus:

NAS / BWD / Bauten
📁 Alt/Diverse/2019/scan0042.pdf
📁 Projekte/AFL/???/Baugesuch_final_v3_KORR(2).docx
📁 Backup_2021/Archiv/archiv_alt.7z → 148 Dateien verschachtelt
📁 _temp/Kopie_Elektro/plan_neu_ALT.dwg
📁 Bauten/Irchel/Gebäude?/Datenblatt.pdf
📁 SharePoint_Export_2018/data sheet (1).pdf
4.999.994 weitere Dateien · 34 TB · 0 Metadaten
SharePoint Server – Support-Ende
Migrationszwang - mit oder ohne bereinigte Daten.
DSGVO-Compliance
Ohne strukturierte Metadaten kaum umsetzbar.

Ihr Projekt. Unser Vorgehen.

Vier Phasen mit klaren Übergaben. Sie definieren die Anforderungen. Wir liefern.

Wir sichten Ihr Archiv und identifizieren Formate, Mengen und Muster. Verschachtelte Archive (ZIP, 7z, RAR, ISO) werden automatisch entpackt. Sie erhalten eine klare Einschätzung: Was vorhanden ist, was fehlt, was es braucht.

Welche Felder brauchen Sie? Gebäude, Dokumenttypen, Phasen, Disziplinen - oder ganz andere? Wir definieren Ihre Taxonomie gemeinsam - z.B. Dokumenttypen nach KBOB, Phasen nach SIA - und konfigurieren die Pipeline auf Ihre Logik. Anzahl, Art und Validierung der Felder sind frei wählbar.

Wir verarbeiten repräsentative Testmengen und prüfen die Ergebnisse gemeinsam. Iteration, bis die Qualität stimmt. Erst dann geht es in die Breite.

Unterbrechungssicher: Bei Abbruch wird nahtlos fortgesetzt. Sie erhalten strukturierte Metadaten als CSV oder JSON - jedes Feld dokumentiert, jede Entscheidung nachvollziehbar.

Das Ergebnis: Aus Chaos wird Struktur
Vorher
\\NAS\BWD\Alt\Diverse\2019\
scan_elektro_final_v3.pdf
Nachher
ABCGebäude
12345Projekt
V08004Dok.typ (KBOB)
52Phase (SIA)
1Version
V123456Fachbereich
001Plan-Nr.
OG02Geschoss
ElektroplanBeschreibung
.pdf
Beispiel: 10 Felder für Bauakten. Taxonomie und Felder werden pro Kunde definiert - anpassbar an Ihre Struktur und Branche.
Vier Quellen, ein Ergebnis
Jedes Dokument wird aus vier unabhängigen Perspektiven analysiert. Wo eine Quelle unsicher ist, gleichen die anderen aus.
Eingang
Dokument
PDF · CAD · Office
Bild · Text · Archive
Alle Formate
01
Pfad & Dateiname
Ordnerstruktur & Dateiname als erste Erkennungsquelle
02
Text-Extraktion
Maschinenlesbarer Volltext aus PDF, Office & CAD
03
Vision AI
Titelblöcke, Stempel & Layouts visuell gelesen - auch Baupläne
04
Keyword-Abgleich
DE + EN Synonyme → normalisierte Codes B19009
Ausgang
Strukturierte
Metadaten
Gebäude Dokumenttyp Phase Disziplin Geschoss + 7 weitere
97%
vollständig klassifiziert

Intern machbar. Aber in welchem Zeitrahmen?

Beispiel: 80.000 Dokumente manuell aufarbeiten bedeutet 4.000 Stunden Aufwand. Die Frage ist nicht ob, sondern wie lange - und wer es macht.

1 Mitarbeiter intern
~25 Mte.
4.000 Stunden
Vollzeiteinsatz
3 Mitarbeiter intern
~8 Mte.
4.000 Stunden
aufgeteilt
Mit Extraktio
Wir übernehmen
~4–6 Wo.
Analyse, Konfiguration,
Verarbeitung, Übergabe

Basis: 80.000 Dokumente × 3 Min. manuelle Bearbeitungszeit · Verarbeitungsgeschwindigkeit Extraktio: ~10.000 Dokumente pro Stunde

Bereit für strukturierte Daten? Erstgespräch vereinbaren

Universität Zürich - bewiesene Ergebnisse.

0
Dateien
erfolgreich verarbeitet
0
Trefferquote
in relevanten Feldern
0
Gebäude
vollständig strukturiert
0
Dokumenttypen
im System abgebildet
Referenz: Universität Zürich (UZH)
Die Abteilung Immobilien und Betrieb der Universität Zürich verfügte über ein gewachsenes Dokumentenarchiv mit Millionen von Dateien - Baupläne, Verträge, CAD-Zeichnungen, Protokolle. Uneinheitlich benannt, über Jahrzehnte gewachsen, verteilt auf verschiedene Systeme. Extraktio strukturierte den gesamten Bestand: klassifiziert nach KBOB (Dokumenttypen, Fachbereiche) und SIA-Phasen, mit Metadaten versehen und bereit für die Migration ins neue DMS.
80'000+ Dateien
97% Trefferquote
490+ Gebäude
600+ Dokumenttypen
Ähnliche Herausforderung? Lassen Sie uns sprechen

Der Unterschied in der Praxis.

Vorher
\\NAS\Projekte\Alt\Div_2019\scan0042.pdf - kein Kontext
Baugesuch_final_v3_KORR(2).docx - welches Gebäude?
Wissen steckt in Köpfen - nicht im System
Aufbewahrungspflichten? Unklar.
Nachher
UNI-B19009-Elektroplan-Phase52-OG02.pdf - sofort findbar
Gebäude, Typ, Phase, Disziplin, Geschoss - in jedem Datensatz
Metadaten im System - unabhängig von Personen
Aufbewahrungsfristen: pro Dokument transparent dokumentiert

Was uns unterscheidet.

Keine Cloud, keine externen APIs
Wir verarbeiten Ihre Daten auf unserer eigenen Infrastruktur in der Schweiz. Nichts davon geht in die Cloud oder an Drittanbieter. Nach der Verarbeitung erhalten Sie die strukturierten Ergebnisse. Ihre Quelldaten bleiben unverändert.
Wir übernehmen. Sie entscheiden.
Ihr Team definiert die Anforderungen. Wir kümmern uns um Analyse, Konfiguration, Testverarbeitung und Übergabe. Kein interner Aufwand, keine Schulungen, kein neues Tool, das jemand bedienen muss.
Jede Entscheidung nachvollziehbar
Jedes Metadaten-Feld dokumentiert, woher die Information stammt: Dateipfad, extrahierter Text, visuelle Analyse oder Keyword-Abgleich. Kein opakes Scoring - jede Klassifikation ist nachprüfbar und auditierbar.
Eingebaute Qualitätsprüfung
Ein unabhängiges, grösseres KI-Modell prüft eine repräsentative Stichprobe der Ergebnisse nach, mit höherer Auflösung und mehr Kontext als die Pipeline selbst. Daraus entsteht ein detaillierter Genauigkeitsbericht pro Feld, Dokumenttyp und Quelle.

Strukturierte Daten als Grundlage.

Suche, Compliance, Migration, KI-Anwendungen - alles baut auf sauberen Metadaten auf.

Migration
Saubere, validierte Metadaten als Grundlage - kein Chaos übertragen, sondern strukturierte Inhalte migrieren.
Strukturierte Suche
«Alle Elektropläne, Gebäude X» - gefiltert nach Metadaten in Sekunden. Kein Ordner-Klicken mehr.
Compliance
Aufbewahrungsfristen und Löschpflichten pro Dokument transparent dokumentiert und jederzeit auditierbar.
KI-Anwendungen als nächster Schritt
Semantic Search, RAG, Knowledge Graphs: erst auf geordneten Daten kann KI wirklich arbeiten.

Was Sie wissen sollten.

Typisch 4–6 Wochen ab Datenübernahme. Phase 1 (Analyse) dauert wenige Tage. Die Verarbeitung selbst läuft mit rund 10.000 Dokumenten pro Stunde - bei 80.000 Dokumenten ist die reine Verarbeitungszeit unter einem Tag.
PDF, CAD-Formate (DWG, DXF), Office-Dokumente (Word, Excel, PowerPoint), Bilder und Textdateien. Verschachtelte Archive - ZIP, 7z, RAR, TAR, ISO - werden automatisch entpackt und indexiert, egal wie tief verschachtelt.
Sie erhalten die strukturierten Metadaten als CSV oder JSON. Ihre Quelldaten bleiben dabei unverändert. Nach Projektabschluss werden alle Daten auf unserer Infrastruktur vollständig gelöscht.
Wir verarbeiten Ihre Daten auf unserer eigenen Infrastruktur in der Schweiz. Keine Cloud-Dienste, keine Drittanbieter-APIs wie OpenAI, Google oder Azure. Die Daten verlassen zu keinem Zeitpunkt unsere kontrollierte Umgebung.
Minimal. Ihre IT liefert die Daten - zum Beispiel auf einer externen Festplatte oder via gesicherten Transfer. Die gesamte Verarbeitung, Konfiguration und Qualitätssicherung übernehmen wir.
Jedes Dokument wird aus vier unabhängigen Quellen analysiert und die Ergebnisse kreuzvalidiert. Zusätzlich prüft ein unabhängiges KI-Modell jede Klassifikation systematisch nach. Fehlerhafte oder unsichere Ergebnisse werden explizit markiert - kein opakes Confidence-Scoring, sondern klare Flags wie «Dokumenttyp fehlt» oder «Gebäudecode ungültig».
Jetzt starten

Erstgespräch vereinbaren

Lassen Sie uns Ihre Dokumentensituation besprechen -
kostenlos und unverbindlich.

David Parolo
David Parolo
Business & Prozesse
Mario Saladino
Mario Saladino
Tech & Produkt