mediengestalter.info
FAQ :: Mitgliederliste :: MGi Team

Willkommen auf dem Portal für Mediengestalter

Aktuelles Datum und Uhrzeit: Do 28.03.2024 23:18 Benutzername: Passwort: Auto-Login

Thema: [php] Wie kann ich PDFs auslesen? vom 15.01.2005


Neues Thema eröffnen   Neue Antwort erstellen MGi Foren-Übersicht -> Programmierung -> [php] Wie kann ich PDFs auslesen?
Seite: Zurück  1, 2, 3
Autor Nachricht
smile jamaica
Threadersteller

Dabei seit: 31.10.2003
Ort: Freiburg
Alter: 39
Geschlecht: Männlich
Verfasst Di 18.01.2005 17:38
Titel

Antworten mit Zitat Zum Seitenanfang

faul bin ich ganz bestimmt, sonst wäre ich kein programmierer geworden. die fehlenden wörter in meinen sätzen habe ich selber gemerkt allerdings dacht ich mir dass man des versteht was ich will auf deutsch war zu faul Lächel

ich mein ich programmier etwas damit es automatisch läuft und ich mich zurücklehnen kann.

ne schmarrn eistee. es ist so, dass es etwas dauert bis die aufgabe zu bewerkstelligen ist und a ich ja faul bin wollt ich halt alles wissen, was mir das arbeiten noch mehr erleichtert. sry bin schuldig * Mmmh, lecker... *

zusatz: wenn jemand noch was weiß, wäre dankbar


Zuletzt bearbeitet von smile jamaica am Di 18.01.2005 17:39, insgesamt 1-mal bearbeitet
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Eistee
Administrator

Dabei seit: 31.10.2001
Ort: Grimma
Alter: 45
Geschlecht: Männlich
Verfasst Di 18.01.2005 17:45
Titel

Antworten mit Zitat Zum Seitenanfang

Abgesehen davon, das ich dein vorheriges Posting kaum verstehe, für den richtigen Stundenlohn kaue ich dir gern alles vor, google für dich, les dir Dokus und Manuals vor, drucke dir www.php.net aus, erstelle dir unkomprimierte pdfs und tippe für dich Postings, mit denen andere "Programmierer" was anfangen können...

Da fehlen mir echt die Worte... aber muss ja jeder selber wissen, wie er seinen Job machen möchte.
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Anzeige
Anzeige
gtz

Dabei seit: 15.04.2002
Ort: -
Alter: 48
Geschlecht: Männlich
Verfasst Di 18.01.2005 18:11
Titel

Antworten mit Zitat Zum Seitenanfang

so, damit jetz endlich ma ruhe is hier mit dem albtraum:

donatas at spurgius dot com in nem kommentar im manual für die php-pdf-funktionen (wie überraschend) hat geschrieben:

I've been looking for a way to extract plain text from PDF documents (needed to search for text inside 'em). Not being able to find one I wrote the needed functions myself. here you go folks.
Code:

<?php
  function pdf2string ($sourceFile)
  {
   $textArray = array ();
   $objStart = 0;
 
   $fp = fopen ($sourceFile, 'rb');
   $content = fread ($fp, filesize ($sourceFile));
   fclose ($fp);
 
   $searchTagStart = chr(13).chr(10).'stream';
   $searchTagStartLenght = strlen ($searchTagStart);
 
   while ((($objStart = strpos ($content, $searchTagStart, $objStart)) && ($objEnd = strpos ($content, 'endstream', $objStart+1))))
   {
     $data = substr ($content, $objStart + $searchTagStartLenght + 2, $objEnd - ($objStart + $searchTagStartLenght) - 2);
     $data = @gzuncompress ($data);
   
     if ($data !== FALSE && strpos ($data, 'BT') !== FALSE && strpos ($data, 'ET') !== FALSE)
     {
       $textArray [] = ExtractText ($data);
     }
   
     $objStart = $objStart < $objEnd ? $objEnd : $objStart + 1;
   }
 
   return $textArray;
  }
 
  function ExtractText ($postScriptData)
  {
   while ((($textStart = strpos ($postScriptData, '(', $textStart)) && ($textEnd = strpos ($postScriptData, ')', $textStart + 1)) && substr ($postScriptData, $textEnd - 1) != '\\'))
   {
     $plainText .= substr ($postScriptData, $textStart + 1, $textEnd - $textStart - 1);
     if (substr ($postScriptData, $textEnd + 1, 1) == ']') //this adds quite some additional spaces between the words
     {
       $plainText .= ' ';
     }
   
     $textStart = $textStart < $textEnd ? $textEnd : $textStart + 1;
   }
 
   return stripslashes ($plainText);
  }
?>



meine fresse.wenn das mit der medienkompetenz nich langsam mal was wird, dann seh ich schwarz fürs weitere leben. mann. echt.
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
n0Fear

Dabei seit: 17.07.2003
Ort: EARTH @ 7.316 O 52.683 N
Alter: 39
Geschlecht: Männlich
Verfasst Fr 04.02.2005 16:23
Titel

Antworten mit Zitat Zum Seitenanfang

Tag, bin auch auf der Suche nach ner Funktion mit der ich aus PDFs Strings mache um Sie durchsuchen zu können.

Die Funktion von gtz funktioniert zwar, jedoch nicht bei komprimierten PDF´s. *hu hu huu* Gibt es auss XPDF (das man ja auf dem Server installieren muss) eine alternative als PHP Klasse/Funktion

MFG
  View user's profile Private Nachricht senden
smile jamaica
Threadersteller

Dabei seit: 31.10.2003
Ort: Freiburg
Alter: 39
Geschlecht: Männlich
Verfasst Fr 04.02.2005 21:16
Titel

Antworten mit Zitat Zum Seitenanfang

danke.

aber das problem ist ja, das pdfs normaler weise (wenn ich das richtig verstehe) ja komprimiert sind. mir geht es weniger bzw. nicht um den code, sondern eher um die Programmier-Technik.

den tip von karmacoder werde ich weiterverfolgen.

programmieren kann ich ja selber, aber es ist halt sehr hilfreich wenn erfahrene sagen können sie haben es z.B. so oder so gemacht. danke für alles, hab jetzt nen ansatz nachdem ich suchen könnte.
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
 
Ähnliche Themen XML mit PHP auslesen
XML in PHP auslesen
[PHP] URL auslesen
XML -> in PHP auslesen mit DOM
[PHP/SQL] ID Auslesen aus DB? Wie?
URL aus Flash auslesen
Neues Thema eröffnen   Neue Antwort erstellen Seite: Zurück  1, 2, 3
MGi Foren-Übersicht -> Programmierung


Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst an Umfragen in diesem Forum nicht mitmachen.