HTML Datei in Einzelteile zerlegen

Vom Front-End bis SOAP.

Moderator: Moderatoren

Antworten
Elvis
Cut&Paste-Entwickler
Cut&Paste-Entwickler
Beiträge: 34
Registriert: Mi, 13. Dez 2006 11:00
Wohnort: Hamburg

HTML Datei in Einzelteile zerlegen

Beitrag von Elvis »

Hallo allerseits,

ich arbeite gerade an einem Projekt, wo ich Daten aus eine HTML Datei auslesen muß.
Leider fehlen bei den Table und div Tags, die ich benötige, jegliche id und namens Zuweisungen.

Ich habe mir also gedacht ich lese alle Tags in ein Array ein und arbeite mit einer Art koordinatensystem.

Jetzt ist nur meine Schwierigkeit wie bekomme ich die HTML Datei zerplückt.
Ich habe ein Programm (domdisplay) von Phil Idle endeckt, das das allem anschein nach kann, aber keine Ahnung ob man dort an den source kommt, da es noch in 1.82 kompiliert ist.

Hat jemand vielleicht erfahrung mit sowas oder kann mir einen Tipp geben?

Vielen Dank

Rene
Benutzeravatar
brandelh
Foren-Moderator
Foren-Moderator
Beiträge: 15689
Registriert: Mo, 23. Jan 2006 20:54
Wohnort: Germersheim
Hat sich bedankt: 65 Mal
Danksagung erhalten: 33 Mal
Kontaktdaten:

Re: HTML Datei in Einzelteile zerlegen

Beitrag von brandelh »

Falls du die Prof Sub hast, gibt es von Alaska code dazu ... HRF.ZIP (HTML Reflection Framework) oder so
Phil hat eigentlich immer den Quellcode rausgegeben, seine Dateien kann man hier finden:

:arrow: http://www.alaska-software.com/download ... ection=400
:arrow: http://www.xbwin.com/forum.php?ng=/%2Fn ... .resources
Gruß
Hubert
Benutzeravatar
Jan
Marvin
Marvin
Beiträge: 14641
Registriert: Fr, 23. Sep 2005 18:23
Wohnort: 49328 Melle
Hat sich bedankt: 21 Mal
Danksagung erhalten: 87 Mal
Kontaktdaten:

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Jan »

Hubert,

auf der Alaska-Seite hatte ich auch schon nachgesehen. Da sind aber wirklich nur die PDF und die dll. Kein Code. Auch auf der ftp-Seite von Alaska nicht.

Und leider gilt das Gleiche für Pablos Seite ...

Jan
Mitglied der XUG Osnabrück
Mitglied der XUG Berlin/Brandenburg
Mitglied des Deutschsprachige Xbase-Entwickler e. V.
Benutzeravatar
Tom
Der Entwickler von "Deep Thought"
Der Entwickler von "Deep Thought"
Beiträge: 9345
Registriert: Do, 22. Sep 2005 23:11
Wohnort: Berlin
Hat sich bedankt: 100 Mal
Danksagung erhalten: 359 Mal
Kontaktdaten:

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Tom »

Wenn es um eine konkrete HTML-Datei geht, die immer gleich aufgebaut ist, kann es sinnvoller sein, zeilenweise Strings zu analysieren. Ein allgemeines Tool wird man ohnehin kaum bauen können, wenn es um dynamische Inhalte geht.
Herzlich,
Tom
georg
Der Entwickler von "Deep Thought"
Der Entwickler von "Deep Thought"
Beiträge: 2823
Registriert: Fr, 08. Feb 2008 21:29
Hat sich bedankt: 95 Mal
Danksagung erhalten: 13 Mal

Re: HTML Datei in Einzelteile zerlegen

Beitrag von georg »

Hallo,


an dieser Stelle möchte ich einmal den Begriff "Regular Expressions" in den Raum werfen.

Ich verwenden inzwischen überwiegend Regular Expressions (unter selfhtml.org gibt es eine allgemeinverständliche Einführung in das Thema), um Webseiten zu analysieren und bestimmte Inhalte zu extrahieren.

Von Phil Ide gibt es einen Wrapper, um die PCRE (Pearl Compatible Regular Expressions) Library auch unter Xbase++ nutzen zu können. Alaska stellt den Wrapper im Download-Bereich zur Verfügung.

Ach ja, fast hätte ich's vergessen: Regular Expressions werde ich in meinem Vortrag nach der Jahreshauptversammlung behandeln.
Liebe Grüsse aus der Eifel,

Georg S. Lorrig
Redakteur der Wiki des Deutschprachigen Xbase-Entwickler e.V.
Elvis
Cut&Paste-Entwickler
Cut&Paste-Entwickler
Beiträge: 34
Registriert: Mi, 13. Dez 2006 11:00
Wohnort: Hamburg

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Elvis »

Also vielen Dank erstmal für die schnellen Antworten.

Hubert, ja ich habe die Prof. Subscription und habe mir das HRF angesehen. Phil spricht allerdings in der Hilfe zum "domdisplay" von einer HRF2, die konnnte ich bisher auch nicht finden. Damit würde es wahrschienlich noch einfacher werden.

Tom, die Inhalte sind leider Dynamisch da komme ich nicht drumherum.

Ich werde mir das mit den PCRE mal ansehen.

Wenn jemand Zugang zu der Source von domdisplay oder HRF2 hat wäre natürlich am allerbesten.

Rene
Benutzeravatar
Armin
Rekursionen-Architekt
Rekursionen-Architekt
Beiträge: 389
Registriert: Mo, 26. Sep 2005 12:09
Wohnort: 75331 Engelsbrand
Danksagung erhalten: 3 Mal
Kontaktdaten:

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Armin »

Hallo Rene,
ja ich habe die Prof. Subscription und habe mir das HRF angesehen
damit sollte es doch gut funktionieren... Wenn Du Fragen hast, ich habe schon einiges damit gemacht.

Gruß, Armin
Elvis
Cut&Paste-Entwickler
Cut&Paste-Entwickler
Beiträge: 34
Registriert: Mi, 13. Dez 2006 11:00
Wohnort: Hamburg

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Elvis »

Hallo Armin,

ja ich habe es mir auch angesehen, aber es fehlt leider eine wichtige Funktion.
Es gibt die funktionen Tag bei Name und Tag bei ID.
Leider fehlt die Funktion Tag bei Type.

Wenn ich jetzt 10 Tabellen (<table>) in einer HTML Datei habe, ohne ID oder Name, kann ich per dem was ich im HRF gefunden habe, mit nicht die 7 Tabelle geben lassen.

Hast Du so einen Fall schon mal gehabt?
Bzw. hast Du mit HRF schon mal erfolgreich eine ganze HTML datei zerlegt bekommen?

Gruß

Rene
Benutzeravatar
Armin
Rekursionen-Architekt
Rekursionen-Architekt
Beiträge: 389
Registriert: Mo, 26. Sep 2005 12:09
Wohnort: 75331 Engelsbrand
Danksagung erhalten: 3 Mal
Kontaktdaten:

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Armin »

Hallo Rene,

so sollten in aTable alle Tabellen stehen:

Code: Alles auswählen

oElem :=  oDocument:childFromTag( "body", .t. )
aTable := childtest(oDocument,oElem, aTable)


function childtest(oDocument,oElem,aTable)
local aChilds := {}
local i := 0

   aChilds := oElem:childList()

   for i := 1 to len(aChilds)
      if aChilds[i]:cHTMLTag == "table"
         aadd(aTable, aChilds[i])
      endif
      aTable := childtest(oDocument,aChilds[i], aTable)
   next

return aTable

Gruß, Armin
Elvis
Cut&Paste-Entwickler
Cut&Paste-Entwickler
Beiträge: 34
Registriert: Mi, 13. Dez 2006 11:00
Wohnort: Hamburg

Re: HTML Datei in Einzelteile zerlegen

Beitrag von Elvis »

Hallo Armin,

vielen Dank ich teste das mal aus.

Gruß

Rene
Antworten