PDF-Dateien

Top  Previous  Next

Überwachen des Text-Inhalts von PDF-Dateien

Mit einem speziellen PDF-Plugin lassen sich die Text-Inhalte von PDF-Dateien extrahieren und in HTML-Dateien umwandeln. Dadurch lassen sich PDF-Dateien wie normale Webseiten prüfen und WebSite-Watcher kann Änderungen optisch hervorheben. Dieses Plugin wird neuen Bookmarks automatisch zugewiesen.

 

Leider ist es nicht immer möglich, den Text aus PDF-Dateien zu extrahieren. Die PDF-Plugins von WebSite-Watcher verwenden unterschiedliche Methoden/Lösungen für das Extrahieren von Text. Sollte eine dieser Methoden nicht funktionieren, dann besteht immer noch eine gute Chance, dass eine andere Methode den Text extrahieren kann.

Überwachen von PDF-Dateien ohne Plugin

Wenn für die Prüfung von PDF-Dateien kein Plugin verwendet wird, dann werden sie wie binäre Dateien behandelt. Abhängig von der Server-Logdatei verwendet WebSite-Watcher eine einzige oder eine Kombination der folgenden Techniken:

 

Prüfung des Datei-Datums
Prüfung der Datei-Größe
Prüfung von Teilen des Inhalts

 

Es ist dann nicht möglich, textuelle Unterschiede in PDF-Dateien optisch hervorzuheben oder unerwünschten Inhalt mit den Filter-Definitionen zu ignorieren.