Willkommen auf dem Portal für Mediengestalter

Sarky · Threadersteller

Hi!

Ich habe hier ein kleines Problem:

m · Moderator

Wenn whitespace wirklich so vorhanden ist dann sollte es eigentlich gehen:

Pixelpole · **Verfasst** Di 04.08.2009 00:04 **Titel**

wird html oder xhtml verwendet.

wenn 2: ist es wohlgeformt? Dann wäre es auch möglich das einfach als xml zu parsen.

bacon · **Verfasst** Di 04.08.2009 09:28 **Titel**

Du kannst aufgrund der Limitierung von (standard)-Regular Expressions keine Baumstrukturen parsen. Dafür brauchst du einen Tokenizer oder halt einfacher, du nutzt einen XML-Parser.

Sarky · Threadersteller

Danke fuer Eure Antworten.

Das ganze ist Teil eines Parsers der relativ schnell und ohne viel Overhead durchlaufen sollte, deswegen moechte ich eigentlich ungerne noch einen XML-Parser fuer dieses eine Problem anfeuern.

@m
Danke, das klappt schon um einiges besser als meine eigene Loesung Lächel

bacon · **Verfasst** Mi 05.08.2009 08:42 **Titel**

1.) Kein Overhead, die 4 Stunden, die du über der Regex gehangen hast, hättest du auch in einen 10 Zeiler investieren können, der dir das Zeug parst und um jedes <li> im richtigen Kontext ein ul legt.

2.) Fehleranfälligkeit, das Script geht von Leerzeilen als Delimiter aus.

3.) Mangelnde Wartbarkeit.

Aber gut, Beratungsresistenz bin ich ja gewohnt hier Grins

Sarky · Threadersteller

Immer wieder schoen wenn Leute von A unvermittelt auf B schliessen ohne die Hintergruende genau zu kennen - und das hat nichts mit Beratungsresistenz meinerseits zu tun.

Dennoch danke fuer den Fisch.

Willkommen auf dem Portal für Mediengestalter

Thema: HTML-Abschnitte per Regex erkennen vom 03.08.2009

HTML-Abschnitte per Regex erkennen