Forum:Schavan-Entscheidung: methodische Grundlagen?

Forum: Übersicht > Schavan-Entscheidung: methodische Grundlagen?

Im Forum ist kein Raum für persönliche Angriffe: VP:KPA. Alle Beiträge im Forum sind Meinungsäußerungen der jeweils Beitragenden und deshalb zu signieren (vier Tilden an das Ende des Beitrags setzen: ~~~~). Weitere Tipps zum Forum finden sich unter VP:Forum, Hinweise zur Moderation unter VP:Moderation.

In einem anderen Forumsthread wurde mir angeraten, die einzelnen Mitarbeiter nach ihrer Meinung zu Fragen, was die Grundlagen zur Ablehnung der Veröffentlichung des Falles Schavan betrifft. Dies führt mich zu einer weitergehenden speziellen Frage, die den Rahmen des anderen Threads sprengt, wo eher allgemeine Ansichten zum Besten gegeben werden. Konkret interessiert mich:

Werden zur Plagiatserkennung stochastische Algorithmen angewendet (Auftretenswahrscheinlichkeiten von Begriffskombinationen, Textnähe etc.) und ausgewertet? Die farblichen Kennzeichnungen von Textpassagen deuten in diese Richtung. Wie gehen Ergebnisse solcher Analysen über einzelne Fragmente in die Gesamtbewertung und die Entscheidung über den "Schweregrad" eines Plagiats ein, so dass es zu einer Veröffentlichung mit Namensnennung kommt?

Eine Entscheidung aufgrund bloßer Einschätzung "Pi mal Daumen" ist IMO aus wissenschaftlicher Sicht zu dünn. Das kann es nicht sein, oder? 92.227.20.234 14:58, 6. Mai 2012 (UTC)

Wie Sie vielleicht bemerkt haben, habe ich im anderen Thread noch nachträglich Ergänzungen vorgenommen. Die farblichen Markierungen dienen nur zur Illustration und berücksichtigen nur Wortgruppen von mindestens vier identisch geschriebenen zusammenhängenden Worten. Sinngemäße Gedankenübernahmen oder leicht umformulierte Übernahmen können so oft nicht erfasst werden. Eine stochastische automatisierte Auswertung findet nicht statt, weder bei Vroniplag, noch in offiziellen Universitätsgutachten. "Pi mal Daumen"-Entscheidung trifft die Sache mMn nicht ganz, da ja nicht nur ein Einzelner entscheidet, sondern eine Gemeinschaft, von der sich viele gründlich mit den Texten auseinandergesetzt haben. Ergänzend muss gesagt werden, dass Vroniplag auch keine Gutachten erstellt, sondern sich auf Textgegenüberstellungen mit einigen Anmerkungen beschränkt. Der Leser soll sich eine eigene Meinung bilden, d.h. die Einschätzung und wissenschaftliche Fundiertheit obliegt dem Leser. Die Nichtveröffentlichung ist kein Freischein, eine Veröffentlichung bedeutet aber auch nicht unbedingt, dass hier ein Doktorgrad zu entziehen ist. Solche Entscheidungen müssen natürlich aus wissenschaftlicher Sicht sehr fundiert sein und bleiben den Universitäten überlassen. Ich bin persönlich der Meinung, dass man sich auf möglichst klare Fälle für die Veröffentlichung beschränken sollte, dann vermeidet man Spekulationen, Unterstellungen von Verleumdung und viele bereits im anderen Thread angesprochenen Probleme. Andere Leute teilen diese Auffassung nicht, was ihr gutes Recht ist. Zugegeben, bei reinen Textgegenüberstellungen bräuchte man sich eigentlich gar keine Gedanken über die Schwere zu machen. Beschränkt man sich jedoch auf glasklare Fälle, stellen sich die Fragen nach stochastischen Algorithmen oder der wissenschaftlichen Fundiertheit kaum mehr, die Plagiate sind auch für Laeien sofort ersichtlich. Man vermeidet z.B. langwierige Diskussionen, Streitereien und Vorwürfe. Ansonsten wäre Vroniplag leicht überfordert. Zum Fall Schavan mag jeder hier seine/ihre eigene Einschätzung über den "Schweregrad" abgeben. (Ich habe keine abschließende Meinung dazu, da ich mich nicht ausgiebig mit dem Fall beschäftigt habe.) - Hood 15:36, 6. Mai 2012 (UTC)

Langer Rede kurzer Sinn: Algorithmen kommen nicht zum Einsatz. Es zählt die persönliche Einschätzung? Pi mal Daumen? 92.227.20.234 20:37, 6. Mai 2012 (UTC)

Nein, wir haben ganz einfach gewürfelt. Da stimmt die Zufallsverteilung, wenn genügend mitwürfeln. Ein statistisch exaktes Verfahren. - Wie machen Sie sowas eigentlich? Welche Algorithmen kämen bei Ihnen zum Einsatz, wenn Sie in dieser Sache entscheiden müßten? KayH 20:56, 6. Mai 2012 (UTC)

Um Missverständnisse zu vermeiden: Um Textübereinstimmungen zu finden, kommen natürlich schon Tools zum Einsatz. Nur werden sie nicht zur Bewertung benutzt. Das muss immer noch ein Mensch machen, kein Roboter. Genau wie bei Universitätsgutachten. Nur, dass hier keine langwierigen Gutachten ausgearbeitet und veröffentlicht werden, dafür aber Textstellen zur Meinungsbildung gegenübergestellt werden. Und dass mehr Personen beteiligt sind. Wer das abwertetend "Pi mal Daumen" (= unfundiert, unüberlegt, usw.) nennen will, soll das von mir aus tun. Ich würde NICHT so bezeichen. Ansonsten dito (und kein kurzer Sinn). - Hood 21:11, 6. Mai 2012 (UTC)

Warum ist sämtliche verfügbare Plagiatserkennungssoftware wohl so schlecht? Für mich deutet das darauf hin dass es alles andere als trivial ist einen Algorithmus zu finden der das gewollte leistet. Das menschliche Hirn ist zu erstaunlichen Leistungen fähig, ohne das die genauen Mechanismen bekannt wären und/oder sich das einfach in einen Algoritmus giessen lassen würde. Das "mehr als 2 Augen Prinzip" hilft dann noch die Fehlerquote erheblich zu reduzieren. Die Frage nach einem Algorithmus bringt mich aber auf eine Idee: Sie sind nicht zufällig einer der Anwälte von Frau MM? Die haben sich tatsächlich einen schönen Algorithmus ausgedacht, bei dem bleibt nur wundersamerweise nichts mehr übrig an Plagiaten. 88.77.223.202 21:16, 6. Mai 2012 (UTC)

Siehe auch FAQ Abschnitt Technische Fragen.- Hood 21:50, 6. Mai 2012 (UTC)

Vielen Dank für die Meldungen bisher. Methoden wie "Auswürfeln" und "Meinungsbildung" sind nicht unbedingt geeignet, Glaubwürdigkeit zu begründen, wenn man es ausschließlich dabei bewenden lässt. Methoden gibt es ausreichend, sogar Open-Source Algorithmen. Sie nutzen sie täglich, sobald Sie Google aufrufen. Hilfreich für einen Überblick ist vielleicht der Artikel "string metric" in der englischen Wikipedia.

Die "Meinungsbildung" stellt sich am Beispiel hier folgendermaßen dar:

Contra: "Ich bin mir bei diesem Fragment nicht sicher." - subjektives Argument
Pro: lexikalische Eigenheiten - valide
Contra (lustig): zwar Plagiat, springt aber "nicht direkt ins Auge" - sachfremd
[Infragestellung von (3)]
Contra (auch lustig): "Wenn ich glaube, es ist ein Plagiat, bin aber nur 98% sicher, dann muss das Fragment meiner Ansicht nach als 'verdächtig' eingestuft werden." "Glaube" und "98% sicher" = "verdächtig"... oh - subjektiv
Pro: statistische und Differenz-Betrachtung - valide
Pro: semantische Betrachtung - valide

Wir finden also 3 valide objektive Argumente für die Plagiatseinstufung, 2 subjektive sowie ein sachfremdes Argument dagegen mit dem Ergebnis: "kein Plagiat" ("nicht gesichtet"). Oder: "zu dünn", wie andernorts gelesen bei dem Teilnehmer, der subjektiv argumentiert. Hält die Community dies für eine sachgerechte Analyse?

Nein, ich bin kein Anwalt. Ich kenne auch keinen Algorithmus, der die hier gefundenen Plagiate wegrechnet. Was ich befürchte jedoch ist, dass das Fehlen von grundlegenden Methoden, sauberer Analyse und das Einhalten von einheitlichen Verfahrensweisen tatsächlich eine Beweiskraft angreifbar macht. Hoffentlich lesen hier keine solchen Anwälte mit. 78.50.206.204 11:18, 7. Mai 2012 (UTC)

Ab welcher - nehmen wir das - Levenshtein-Distanz bezogen auf welche Zeichenmenge handelt es sich denn objektiv um ein Plagiat? Was ist die kleinste Texteinheit, für die wir noch sinnvoll eine Levenshtein-Distanz berechnen können beim objektiven Plagiatsnachweis? Wie gehen Sie bei Übersetzungsplagiaten vor? Wie filtern Sie Quellenangaben und korrekte Zitate heraus bei der Berechnung? Müssen die herausgefiltert werden? Brauchen wir noch ein Synonym-Wörterbuch, um simple Verschleierungsoperation gewichten zu können bei der Berechnung? Und zu welchem Ergebnis kommen Sie schließlich bei dieser konkreten Textstelle: Ist es ein klares Plagiat, was wir hier vor uns haben? KayH 11:48, 7. Mai 2012 (UTC)

Oh. Eristik. Werter Mitforist, Ihre forsche Herangehensweise an meine Beiträge ist etwas irritierend. Schöner wäre es, man könnte argumentieren. Aber gut. Zunächst haben sie falsche Prämissen. Wir bewegen uns im Raum der Stochastik. Da gibt es nix mit "objektiv". Ich sprach von objektiven Argumenten, nicht von objektiven Plagiaten. Ebenfalls war ich es nicht, der von Automaten sprach, wohl im landläufigen Sinn verstanden: oben Texte rein, unten Plagiat raus. Geht nicht. Ich sprach von bei dem Bearbeitungsprozeß eingebundenen Algorithmen, ein Unterschied, den Sie gerne beachten dürfen. Levenshtein könnte an der Stelle ein Indiz liefern. Wie ist denn die Levenshtein-Distanz beim Beispielfragment? Wie ist sie beim Vergleich zwischen Fragmenttext und Freuds Texten? Wo ist sie geringer? Wie sieht es bei einem Referenztext aus? Das sind die richtigen Fragen. Gern dürfen Sie auch den Text normalisieren vorher, schadet nicht. Ob Zitate herauszunehmen sind oder drinbleiben oder ob sie durch Marker ersetzt werden, entscheiden Sie am entsprechenden Untersuchungsobjekt.

Wahrscheinlichkeiten aus solchen Analysen können Sie darstellen. Mein Sohn war letztens enttäuscht von einer Mathearbeit. Alle Lösungen richtig. Trotzdem ne 4, weil er die Lösungswege nicht hatte. Sie verstehen das Problem, das ich mit o.a. "Analyse" habe? Dann bitte auf die Argumente eingehen. Danke. 78.50.206.204 13:14, 7. Mai 2012 (UTC)

Na, dann vielen Dank für die diversen Anregungen. KayH 14:19, 7. Mai 2012 (UTC)

Ich habe hier und im anderen Thread mit sehr viel Geduld versucht, die Notwendigkeiten, Herausforderungen und Fundiertheit der Entscheidungsfindung darzulegen. Das bisherige Vorgehen finden Sie nicht akzeptabel. Sie haben nun viele Möglichkeiten (hier nur einige):

Sie kommen Sie mit konkreten Lösungen statt mit Forderungen. (Ideen gibt es unendlich viele, umsetzbar sind die wenigsten). Wenn Sie ernsthaft verlangen, dass Bewertungsalgorithmen (nicht Suchalgorithmen) programmiert werden, die bislang in keinem einzigen Plagiatsgutachten auf der Welt Anwendung finden, dann bedenken Sie dabei, dass VP eine Gemeinschaft von Freiwilligen ist, die diese Arbeit leisten müssten. Bedenken Sie auch, dass die Ergebnisse dieser Algorithmen immer noch von Menschen interpretiert werden müssten. Nach welchen Kriterien? Realistisch betrachtet enthält der Beitrag von KayH eigentlich kaum Eristik.
Sie erlauben Sie einen Meinungsbildungsprozess und geben auch (subjektiven) Einschätzungen über das, was dokumentiert werden sollte, und darüber, wie es dokumentiert werden sollte, ausreichend Raum. Sie verwechseln die dabei geäußerten Diskussionskommentare nicht mit einem analytischen Befund oder einer vorgenommenen Einstufung. Sie akzeptieren außerdem, dass der Meinungsbildungsprozess nicht in allen Einzelheiten dokumentiert werden kann. Sie fordern von kategorisierten Textsynopsen keine „Beweiskraft“ im Sinne eines Gutachtens. Sie verstehen aber, dass man sich (aus guten Gründen) mit Plagiatseinstufungen lieber auf die sichere Seite begibt (im Zweifelsfall nur „verdächtig“ /„KeinPlagiat“), solange es keine Alternative gibt. Haben sie realistische Verbesserungsvorschläge zum Workflow oder zur Dokumentation? (Das Wiki befindet sich in ständiger Weiterentwicklung und Umbauprozessen.)
Sie fragen einen anerkannten Plagiatsgutachter wie z.B. Stefan Weber, wie man ein Plagiat bewertet.
Sie kontaktieren Prof. Kamenz. Offenbar ist der mit der automatisierten Auswertung schon etwas weiter (?).
Sie zweifeln die bisherigen inneruniversitären und außeruniversitären Plagiatsgutachten an, weil zur Bewertung keine Algorithmen eingesetzt wurden. Und weil die >>Methode „Meinungsbildung“<< zum Einsatz kommt (=> unglaubwürdig), weil der Analyseprozess im Dunklen bleibt (Gutachten erst gar nicht veröffentlicht werden), weil Professoren und andere Experten eine „Entscheidung aufgrund bloßer Einschätzung“ fällen („aus wissenschaftlicher Sicht zu dünn“). Die Universität Hagen ist nach ihrer Entscheidungsverkündung im Fall Pes zu schließen: "bösartig" (= subjektiv? = sachfremd?).

- Hood 15:39, 7. Mai 2012 (UTC)

Werter User, Ihren Ausführungen kann ich nicht folgen, es will mir nicht gelingen, sie in einen Sinnzusammenhang mit dem Threadthema zu bringen. Ihre Absicht war bestimmt die beste, mir jederzeit alles mit viel Geduld darzulegen. Ich andererseits habe, um ehrlich zu sein, mit der Eröffnung dieses Threads unter anderem auch versucht, der epischen Breite Ihrer Darlegungen dort zu entkommen, weil es solche Langtexte sehr erschweren, die präzisen Antworten herauszufiltern. Ich selber bin weit über 18, geimpft, nicht blöd, habe studiert und nicht plagiiert, komme hier ganz gut alleine klar und denke, ich kann eine Textähnlichkeit recht gut formal herausarbeiten, berufsbedingt. Sie haben natürlich alle Möglichkeiten, unter anderem:

lassen Sie mich bitte über meine Möglichkeiten selbst entscheiden. Danke.

Dafür brauchen Sie mich auch nicht mehr an die Hand zu nehmen... Was ist eine "realistische Betrachtung" eines Beitrags?? (bitte keine Antwort oder neuen Thread aufmachen)

Ich bin hier her gekommen aus Interesse am Thema, der Oberhäuptling der Akademie schreibt ja nicht jeden Tag seine Diss ab ;). Ich wollte sehen, welche Einwände Vroniplag gegen die Veröffentlichung auf schavanplag erhebt, habe damit gerechnet hier schwerwiegende Gründe zu finden, die gegen die Veröffentlichung stehen und bin vom Vorgefundenen einigermaßen überrascht. Wird hier wirklich komplett "ohne Plan" gearbeitet? Haben die Fragmente tatsächlich keine auswertbaren Attribute außer den finalen Plagiatskategorien? Wie kommen die Pressesprecher auf die 10% Plagiate - ohne Methodik??

Wenn hier einer der Textanalysten aus dem Core-Team noch etwas zur Sache sagen würde, wäre ich dankbar. 78.50.206.204 17:12, 7. Mai 2012 (UTC)

Ich hätte da noch eine Bitte und eine Frage an Sie:

Sie schreiben "...ich kann eine Textähnlichkeit recht gut formal herausarbeiten, berufsbedingt." Ich vermute, nach Ihren bisherigen Ausführungen, dass Sie dabei einen wie auch immer gearteten Algorithmus anwenden. Es würde mich brennend interessieren wie der aussieht und würde vielleicht auch den Aktiven Anregungen geben, wenn Sie den bitte kurz schildern könnten.

Wäre es nicht auch angebracht ihre Fragen an diejenigen Stellen zu richten die letztendlich die Konsequenzen bei Plagiaten in Dissertationen (oder sonstigen Arbeiten zur Erlangung akad. Grade) bestimmen? Denn spätestens dort sollte doch, um den Betroffenen gerecht zu werden, ein nachvollziehberer, möglichst standardisierter Algorithmus oder sonstiger Formalismus angewandt werden. Oder ist das schon der Fall? 88.77.223.202 19:05, 7. Mai 2012 (UTC)

Ich würde sagen - das sind ideale Fragestellungen zur weiteren Behandlung in diesem Kompetenzforum. Da treffen Sie sicherlich adäquate Gesprächspartner. KayH 20:20, 7. Mai 2012 (UTC)

"Seit Monaten gibt es Plagiatsvorwürfe gegen Bildungsministerin Annette Schavan - und es wird wohl noch Monate dauern, bis sie geklärt sind. Die Uni Düsseldorf meldet, man werde noch lange weiter prüfen, denn die Arbeit sei ein sehr aufwendiger Fall..." Spiegel-Online: Plagiatsprüfung dauert noch Monate 195.46.44.53 17:58, 15. Aug. 2012 (UTC)