mediengestalter.info
FAQ :: Mitgliederliste :: MGi Team

Willkommen auf dem Portal für Mediengestalter

Aktuelles Datum und Uhrzeit: So 11.12.2016 09:08 Benutzername: Passwort: Auto-Login

Thema: Aufgabe: BADWORDS Die bösen Wörter in Gästebüchern und Foren vom 14.02.2005


Neues Thema eröffnen   Neue Antwort erstellen MGi Foren-Übersicht -> Programmierung -> Aufgabe: BADWORDS Die bösen Wörter in Gästebüchern und Foren
Seite: 1, 2, 3  Weiter
Autor Nachricht
graphicsandunity
Threadersteller

Dabei seit: 22.11.2004
Ort: Berlin
Alter: 33
Geschlecht: Männlich
Verfasst Mo 14.02.2005 14:31
Titel

Aufgabe: BADWORDS Die bösen Wörter in Gästebüchern und Foren

Antworten mit Zitat Zum Seitenanfang

Ich habe eine kleine bis mittlere Aufgabe für alle, die gerne programmieren und dem Web etwas geben wollen. Lächel

Ich habe mich die Tage damit befasst ein Gästebuch zu programmieren.

Dabei kommt man ja irgendwann unweigerlich an die Stelle, an der man über das Prüfen der Eingaben des Users nachdenken muss.

Zu diesem Zweck hatte ich hier schon angefragt, wo man eine Liste mit Badwords her bekommen kann.
Das war noch das weitaus geringere Übel.




Nun kommt der schwere Teil:

Das Überprüfen der Eingaben ist insofern spannend, da beim Versuch einen Substring zu filtern, der aus der Zeichenfolge des Badwords besteht, nicht nur die Badwords gefiltert werden. Hierzu ein Beispiel:


Der User gibt das Wort "Marsch" ein oder vertippt sich beim Wort "wahrscheinlich" indem er das erste "h" vergisst.

Da eines der bekanntesten Badwords nun mal "arsch" ist, passiert in beiden Fällen folgendes. Es wird in beiden Fällen das badword "arsch" gefunden. Allerdings wurde dabei nicht berücksichtigt, dass im ersten Fall noch ein "M" davor steht und im zweiten Fall auch noch was dahinter.



Wenn man das ganze dann versucht mit Regulären Ausdrücken zumachen, wir ddas ganze genauso albern. Eine richtige Abfolge zu finden, nach welchem Muster gesucht werden soll, wird dabei immer kryptischer.

Der Versuch ein alleinstehendes Badword zu lokalisieren scheiterte. Dabei wurde das Muster so angelegt, dass es erst nach einem Satz- oder Leerzeichen sucht. Dann prüft ob das Badword folgt udn dann wieder nach einem Satz- oder Leerzeichen sucht.

Das ganze wird sogar noch verrückter. Denn man muss ja beachten, dass das Badword acuh am Anfang oder am Ende der Zeichenkette stehen kann. Dann wird es nach dem eben beschriebenen Muster nicht erkannt.
Dafür kann man dann (wie XschinkenX zu diesem Thema schon mal vorschlug) einen eindeutigen Identifier an den Anfang und an das Ende der Zeichenkette hängen.
Dann muss man aber das Matching auch in drei Teile aufsplitten, weil sonst das Suchmuster inter umständen zu unübersichtlich wird. Eine Matching, das den Anfang überprüft, eins für die Mitte und eins für das Ende.

Das funktionierte allerdings auch nicht und ich wette, dass wir nicht die ersten wahren, die diese Idee hatten.


Desweiteren gibt es ja auch google. Und davonhab ich auch Gebrauch gemacht.

Fazit: Es gibt allerhöchstens eine Funktion, die das ganze hinreichend gut umsetzt. Wohl eher schlecht.
Außerdem führt diese Funktion zu einem Replace des Badwords. Das ist aber modifizierbar.
Das größe Problem an dieser Funktion ist, dass sie nicht auf allen Plattformen läuft. Den Grund kene ich nicht.


Nun die Aufgabe:

Es geht darum einen Weg zu finden Badwords sauber zu matchen. Dabei muss aber beachtet werden, dass es für dei Performance des Scripts noch vertretbar ist.
Sinnvolle Sprachen sind dafür wohl PHP, Perl und vielleicht auch JavaScript.


Ich werde die Tage hierzu auch noch meinen eigenen Ansatz nachtragen.


Dann ma ran an Sarch und mit jewehnt! Grins

GaU


Zuletzt bearbeitet von graphicsandunity am Mo 14.02.2005 14:38, insgesamt 1-mal bearbeitet
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
beeviZ

Dabei seit: 30.09.2002
Ort: Dortmund
Alter: 23
Geschlecht: Männlich
Verfasst Mo 14.02.2005 14:37
Titel

Antworten mit Zitat Zum Seitenanfang

ich denke mit regular expressions könntest dus leicht lösen.
^$badword oder so müsste das dann sein. wenn du möchtest das wörter wie MArsch oder so nicht gefiltert werden.

schau mal unter php.net nach regex

denk mal die spezis hier werden dir da eher weiterhelfen können.
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Anzeige
Anzeige
Waschbequen
Account gelöscht


Ort: -

Verfasst Mo 14.02.2005 14:42
Titel

Antworten mit Zitat Zum Seitenanfang

www.regexlib.com

Edit: in der Zeit, wo du diesen Roman hier geschrieben hast, hättest du dir einschlägige Software wie etwa PHPBB oder jedes beliebige andere Board etc. anschauen können - die haben das alle drin.


Zuletzt bearbeitet von am Mo 14.02.2005 14:43, insgesamt 1-mal bearbeitet
 
Account gelöscht


Ort: -
Alter: -
Verfasst Mo 14.02.2005 14:49
Titel

Antworten mit Zitat Zum Seitenanfang

Das ist alles sooo einfach. Warum gibts denn dann hier immer noch keine richtige Lösung?
(Laberboard)
 
Waschbequen
Account gelöscht


Ort: -

Verfasst Mo 14.02.2005 15:00
Titel

Antworten mit Zitat Zum Seitenanfang

XSchinkenX hat geschrieben:
Das ist alles sooo einfach. Warum gibts denn dann hier immer noch keine richtige Lösung?
(Laberboard)


*balla balla* Wasn so falsch dran sich mal anzuschauen, wie es andere machen? Er tut ja grad so als würde er hier das Rad neu erfinden müssen.
 
graphicsandunity
Threadersteller

Dabei seit: 22.11.2004
Ort: Berlin
Alter: 33
Geschlecht: Männlich
Verfasst Mo 14.02.2005 15:11
Titel

Antworten mit Zitat Zum Seitenanfang

Ich weiß gar nicht, wo das Problem ist.

Ich bin dankbar für jeden Tipp. Und sicher ist auch Kritik angebracht.
Aber man kann ja nicht alle Richtungen im Kopf haben.

Wenn ich jede Möglichkeit mit einem Fingerschnippen im Kopf durchdacht hätte, dann hätte ich auch auf den Olymp ziehen und anfangen können selbst Blitze auf die Erde zu feuern!


Zuletzt bearbeitet von graphicsandunity am Mo 14.02.2005 15:12, insgesamt 2-mal bearbeitet
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Waschbequen
Account gelöscht


Ort: -

Verfasst Mo 14.02.2005 15:15
Titel

Antworten mit Zitat Zum Seitenanfang

Hm ... also für mich ist der erste Schritt immer erstmal zu eruieren, was die Konkurrenz so treibt. Und dein Gästebuch ist Nummer 9.534.323 in der Welt der Gästebücher, also kannste doch annehmen, dass zumindest eines vor dir das schon implementiert hat. Oder muss man dafür wirklich hoch aufn Olymp, um soweit zu denken?
 
Account gelöscht


Ort: -
Alter: -
Verfasst Mo 14.02.2005 15:24
Titel

Antworten mit Zitat Zum Seitenanfang

Das war ein Mißverständnis, es ging nicht gegen dich, graphicsandunity. Es ist nur, dass hier jeder immer nur sagt: Ach, das ist soo einfach; aber passieren tut irgendwie nicht sooo viel. Sorry, nur meine Meinung, die leider durch andere ähnliche Threads gefestigt wurde. Tut mir leid, wenns ein wenig ungerecht klingt...
 
 
Ähnliche Themen Badwords-Liste für Gästebuch
dreamweaver foren
Gefettete Wörter im Text im PDF
Fett gedruckte Wörter im PDF?
rss feeds in foren (wbb)
Old Style Foren und die Sicherung
Neues Thema eröffnen   Neue Antwort erstellen Seite: 1, 2, 3  Weiter
MGi Foren-Übersicht -> Programmierung


Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst an Umfragen in diesem Forum nicht mitmachen.