Extraktio von Apivanta

Aus ungenutzten
Dokumenten wird
verwertbares Wissen.

Wir strukturieren Ihr Dokumentenarchiv mit KI: klassifiziert, mit Metadaten, migrationsbereit. In Wochen, nicht Jahren.

100 % On-Premise Keine Cloud Eigene Infrastruktur

100 % On-Premise - keine Cloud, keine externen APIs

Erstgespräch vereinbaren

Extraktio

KI · On-Premise

Keine Cloud-Dienste
Keine externen APIs
Eigene KI-Infrastruktur
Verarbeitung in der Schweiz

Das Problem

Daten vorhanden. Nicht nutzbar.

Millionen Dateien. Keine Metadaten. Keine Struktur. So sieht die Realität aus:

NAS / BWD / Bauten

📁 Alt/Diverse/2019/scan0042.pdf

📁 Projekte/AFL/???/Baugesuch_final_v3_KORR(2).docx

📁 Backup_2021/Archiv/archiv_alt.7z → 148 Dateien verschachtelt

📁 _temp/Kopie_Elektro/plan_neu_ALT.dwg

📁 Bauten/Irchel/Gebäude?/Datenblatt.pdf

📁 SharePoint_Export_2018/data sheet (1).pdf

⋯ 4.999.994 weitere Dateien · 34 TB · 0 Metadaten

SharePoint Server – Support-Ende

Migrationszwang - mit oder ohne bereinigte Daten.

DSGVO-Compliance

Ohne strukturierte Metadaten kaum umsetzbar.

Die Lösung

Ihr Projekt. Unser Vorgehen.

Vier Phasen mit klaren Übergaben. Sie definieren die Anforderungen. Wir liefern.

Wir sichten Ihr Archiv und identifizieren Formate, Mengen und Muster. Verschachtelte Archive (ZIP, 7z, RAR, ISO) werden automatisch entpackt. Sie erhalten eine klare Einschätzung: Was vorhanden ist, was fehlt, was es braucht.

Welche Felder brauchen Sie? Gebäude, Dokumenttypen, Phasen, Disziplinen - oder ganz andere? Wir definieren Ihre Taxonomie gemeinsam - z.B. Dokumenttypen nach KBOB, Phasen nach SIA - und konfigurieren die Pipeline auf Ihre Logik. Anzahl, Art und Validierung der Felder sind frei wählbar.

Wir verarbeiten repräsentative Testmengen und prüfen die Ergebnisse gemeinsam. Iteration, bis die Qualität stimmt. Erst dann geht es in die Breite.

Unterbrechungssicher: Bei Abbruch wird nahtlos fortgesetzt. Sie erhalten strukturierte Metadaten als CSV oder JSON - jedes Feld dokumentiert, jede Entscheidung nachvollziehbar.

Das Ergebnis: Aus Chaos wird Struktur

Vorher

\\NAS\BWD\Alt\Diverse\2019\
scan_elektro_final_v3.pdf

Nachher

ABCGebäude

12345Projekt

V08004Dok.typ (KBOB)

52Phase (SIA)

1Version

V123456Fachbereich

001Plan-Nr.

OG02Geschoss

ElektroplanBeschreibung

.pdf

Beispiel: 10 Felder für Bauakten. Taxonomie und Felder werden pro Kunde definiert - anpassbar an Ihre Struktur und Branche.

Vier Quellen, ein Ergebnis

Jedes Dokument wird aus vier unabhängigen Perspektiven analysiert. Wo eine Quelle unsicher ist, gleichen die anderen aus.

Eingang

Dokument

PDF · CAD · Office
Bild · Text · Archive

Alle Formate

Pfad & Dateiname

Ordnerstruktur & Dateiname als erste Erkennungsquelle

Text-Extraktion

Maschinenlesbarer Volltext aus PDF, Office & CAD

Vision AI

Titelblöcke, Stempel & Layouts visuell gelesen - auch Baupläne

Keyword-Abgleich

DE + EN Synonyme → normalisierte Codes B19009

Ausgang

Strukturierte
Metadaten

Gebäude Dokumenttyp Phase Disziplin Geschoss + 7 weitere

97%

vollständig klassifiziert

Aufwand

Intern machbar. Aber in welchem Zeitrahmen?

Beispiel: 80.000 Dokumente manuell aufarbeiten bedeutet 4.000 Stunden Aufwand. Die Frage ist nicht ob, sondern wie lange - und wer es macht.

1 Mitarbeiter intern

~25 Mte.

4.000 Stunden
Vollzeiteinsatz

3 Mitarbeiter intern

~8 Mte.

4.000 Stunden
aufgeteilt

Mit Extraktio
Wir übernehmen
~4–6 Wo.
Analyse, Konfiguration,
Verarbeitung, Übergabe

Basis: 80.000 Dokumente × 3 Min. manuelle Bearbeitungszeit · Verarbeitungsgeschwindigkeit Extraktio: ~10.000 Dokumente pro Stunde

Bereit für strukturierte Daten? Erstgespräch vereinbaren

Referenzprojekt

Universität Zürich - bewiesene Ergebnisse.

Dateien

erfolgreich verarbeitet

Trefferquote

in relevanten Feldern

Gebäude

vollständig strukturiert

Dokumenttypen

im System abgebildet

Referenz: Universität Zürich (UZH)

Die Abteilung Immobilien und Betrieb der Universität Zürich verfügte über ein gewachsenes Dokumentenarchiv mit Millionen von Dateien - Baupläne, Verträge, CAD-Zeichnungen, Protokolle. Uneinheitlich benannt, über Jahrzehnte gewachsen, verteilt auf verschiedene Systeme. Extraktio strukturierte den gesamten Bestand: klassifiziert nach KBOB (Dokumenttypen, Fachbereiche) und SIA-Phasen, mit Metadaten versehen und bereit für die Migration ins neue DMS.

80'000+ Dateien

97% Trefferquote

490+ Gebäude

600+ Dokumenttypen

Ähnliche Herausforderung? Lassen Sie uns sprechen

Vorher / Nachher

Der Unterschied in der Praxis.

Vorher

\\NAS\Projekte\Alt\Div_2019\scan0042.pdf - kein Kontext

Baugesuch_final_v3_KORR(2).docx - welches Gebäude?

Wissen steckt in Köpfen - nicht im System

Aufbewahrungspflichten? Unklar.

Nachher

UNI-B19009-Elektroplan-Phase52-OG02.pdf - sofort findbar

Gebäude, Typ, Phase, Disziplin, Geschoss - in jedem Datensatz

Metadaten im System - unabhängig von Personen

Aufbewahrungsfristen: pro Dokument transparent dokumentiert

Warum Extraktio

Was uns unterscheidet.

Keine Cloud, keine externen APIs

Wir verarbeiten Ihre Daten auf unserer eigenen Infrastruktur in der Schweiz. Nichts davon geht in die Cloud oder an Drittanbieter. Nach der Verarbeitung erhalten Sie die strukturierten Ergebnisse. Ihre Quelldaten bleiben unverändert.

Wir übernehmen. Sie entscheiden.

Ihr Team definiert die Anforderungen. Wir kümmern uns um Analyse, Konfiguration, Testverarbeitung und Übergabe. Kein interner Aufwand, keine Schulungen, kein neues Tool, das jemand bedienen muss.

Jede Entscheidung nachvollziehbar

Jedes Metadaten-Feld dokumentiert, woher die Information stammt: Dateipfad, extrahierter Text, visuelle Analyse oder Keyword-Abgleich. Kein opakes Scoring - jede Klassifikation ist nachprüfbar und auditierbar.

Eingebaute Qualitätsprüfung

Ein unabhängiges, grösseres KI-Modell prüft eine repräsentative Stichprobe der Ergebnisse nach, mit höherer Auflösung und mehr Kontext als die Pipeline selbst. Daraus entsteht ein detaillierter Genauigkeitsbericht pro Feld, Dokumenttyp und Quelle.

Was danach möglich wird

Strukturierte Daten als Grundlage.

Suche, Compliance, Migration, KI-Anwendungen - alles baut auf sauberen Metadaten auf.

Migration

Saubere, validierte Metadaten als Grundlage - kein Chaos übertragen, sondern strukturierte Inhalte migrieren.

Strukturierte Suche

«Alle Elektropläne, Gebäude X» - gefiltert nach Metadaten in Sekunden. Kein Ordner-Klicken mehr.

Compliance

Aufbewahrungsfristen und Löschpflichten pro Dokument transparent dokumentiert und jederzeit auditierbar.

KI-Anwendungen als nächster Schritt

Semantic Search, RAG, Knowledge Graphs: erst auf geordneten Daten kann KI wirklich arbeiten.

Häufige Fragen

Was Sie wissen sollten.

Wie lange dauert ein typisches Projekt?

Typisch 4–6 Wochen ab Datenübernahme. Phase 1 (Analyse) dauert wenige Tage. Die Verarbeitung selbst läuft mit rund 10.000 Dokumenten pro Stunde - bei 80.000 Dokumenten ist die reine Verarbeitungszeit unter einem Tag.

Welche Dateiformate werden unterstützt?

PDF, CAD-Formate (DWG, DXF), Office-Dokumente (Word, Excel, PowerPoint), Bilder und Textdateien. Verschachtelte Archive - ZIP, 7z, RAR, TAR, ISO - werden automatisch entpackt und indexiert, egal wie tief verschachtelt.

Was passiert mit unseren Daten nach der Verarbeitung?

Sie erhalten die strukturierten Metadaten als CSV oder JSON. Ihre Quelldaten bleiben dabei unverändert. Nach Projektabschluss werden alle Daten auf unserer Infrastruktur vollständig gelöscht.

Was bedeutet «On-Premise» genau?

Wir verarbeiten Ihre Daten auf unserer eigenen Infrastruktur in der Schweiz. Keine Cloud-Dienste, keine Drittanbieter-APIs wie OpenAI, Google oder Azure. Die Daten verlassen zu keinem Zeitpunkt unsere kontrollierte Umgebung.

Muss unsere IT-Abteilung involviert sein?

Minimal. Ihre IT liefert die Daten - zum Beispiel auf einer externen Festplatte oder via gesicherten Transfer. Die gesamte Verarbeitung, Konfiguration und Qualitätssicherung übernehmen wir.

Wie wird die Qualität sichergestellt?

Jedes Dokument wird aus vier unabhängigen Quellen analysiert und die Ergebnisse kreuzvalidiert. Zusätzlich prüft ein unabhängiges KI-Modell jede Klassifikation systematisch nach. Fehlerhafte oder unsichere Ergebnisse werden explizit markiert - kein opakes Confidence-Scoring, sondern klare Flags wie «Dokumenttyp fehlt» oder «Gebäudecode ungültig».

Jetzt starten

Erstgespräch vereinbaren

Lassen Sie uns Ihre Dokumentensituation besprechen -
kostenlos und unverbindlich.

Kontakt aufnehmen apivanta.com

David Parolo

Business & Prozesse

Mario Saladino

Tech & Produkt

dp@apivanta.com · ms@apivanta.com

Aus ungenutzten Dokumenten wird verwertbares Wissen.

Daten vorhanden. Nicht nutzbar.

Ihr Projekt. Unser Vorgehen.

Intern machbar. Aber in welchem Zeitrahmen?

Universität Zürich - bewiesene Ergebnisse.

Der Unterschied in der Praxis.

Was uns unterscheidet.

Strukturierte Daten als Grundlage.

Was Sie wissen sollten.

Erstgespräch vereinbaren

Aus ungenutzten
Dokumenten wird
verwertbares Wissen.