PDF-Dateien

Top  Previous  Next

Überwachen des Text-Inhalts von PDF-Dateien

Mit einem speziellen PDF-Plugin lassen sich die Text-Inhalte von PDF-Dateien extrahieren und in HTML-Dateien umwandeln. Dadurch lassen sich PDF-Dateien wie normale Webseiten prüfen und WebSite-Watcher kann Änderungen optisch hervorheben. Dieses Plugin wird neuen Bookmarks automatisch zugewiesen.

 

Leider ist es nicht immer möglich, den Text aus PDF-Dateien zu extrahieren. Das PDF-Plugin von WebSite-Watcher verwendet zwei unterschiedliche Lösungen für das Extrahieren von Text:

 

1.Interne Konvertierungsroutinen
2.Text-Extraktion mit dem IFilter-System
Das IFilter-System wird von der Windows-Suche verwendet, um bestimmte Dateien nach Text zu durchsuchen. Ein IFilter für PDF-Dateien wird normalerweise automatisch mit einem PDF-Reader installiert. zB. durch Adobe Reader.

 

Sollte eine der beiden Lösungen nicht funktionieren, dann besteht immer noch eine gute Chance, dass die zweite Lösung den Text extrahieren kann.

Alternative Tools zum Konvertieren von PDF-Dateien

Alternativ zur internen Lösung können auch externe Tools zum Konvertieren von PDF-Dateien in eine Webseite verwendet werden. Nachfolgend finden Sie die erforderlichen Schritte, um ein Plugin für ein externes Konvertierungstool zu wählen:

 

Öffnen Sie die Bookmark-Eigenschaften
Wählen Sie die Sektion "Erweitert"
Wählen Sie "Plugin" auf der linken Seite
Klicken Sie auf das Button "Plugin wählen"
Wählen Sie eines der verfügbaren PDF-Plugins

 

Für diese externe Lösung muss ein zusätzliches PDF-Tool installiert werden.

Überwachen von PDF-Dateien ohne Plugin

Wenn für die Prüfung von PDF-Dateien kein Plugin verwendet wird, dann werden sie wie binäre Dateien behandelt. Abhängig von der Server-Logdatei verwendet WebSite-Watcher eine einzige oder eine Kombination der folgenden Techniken:

 

Prüfung des Datei-Datums
Prüfung der Datei-Größe
Prüfung von Teilen des Inhalts

 

Es ist dann nicht möglich, textuelle Unterschiede in PDF-Dateien optisch hervorzuheben oder unerwünschten Inhalt mit den Filter-Definitionen zu ignorieren.