Tool zur Suche/Auflistung von verwendeten Abkürzungen in Dokumenten

  • Hallöchen!

    Kennt jemand 'n Tool, dem ich ein Text enthaltendes Dokument (z. B. PDF- oder Word-Dokument) zuführen kann, welches mir dann eine Liste ausspuckt, welche Abkürzungen da drin so gefunden wurden? Was als "Abkürzung" zählt, sollte man vorteilhafterweise festlegen können (also bspw. Worte, die mehr als einen Großbuchstaben enthalten, oder die auf einen "." enden).

    Hintergrund ist das Abkürzungsverzeichnis in 'ner wissenschaftlichen Arbeit :D Das würde das Ganze doch merklich vereinfachen =)

    «Ich verstehe Ihre Frage so: Dass es Menschen gibt, die wünschen, dass ein solches OS als "Retro-OS" bezeichnet wird, ja? Mir ist nicht bekannt, dass solche Absichten bestehen, da HP-UX 9.x einfach ein altes OS ist. Niemand hat die Absicht, ein "Retro-OS" zu bauen.» Xaar, 2014

    Prozessor gesucht? -> Prozessoren, die ich abgeben kann (unter "Available for trading")
    "Überschüssige" Prozessoren oder Hardware? -> Einfach PN an mich schicken :b1: -> Hardware, die ich suche

    Einmal editiert, zuletzt von Xaar (6. November 2016 um 09:12)


  • grep?

    Falls diese Antwort ernstgemeint war: Beispiel gefällig?

    «Ich verstehe Ihre Frage so: Dass es Menschen gibt, die wünschen, dass ein solches OS als "Retro-OS" bezeichnet wird, ja? Mir ist nicht bekannt, dass solche Absichten bestehen, da HP-UX 9.x einfach ein altes OS ist. Niemand hat die Absicht, ein "Retro-OS" zu bauen.» Xaar, 2014

    Prozessor gesucht? -> Prozessoren, die ich abgeben kann (unter "Available for trading")
    "Überschüssige" Prozessoren oder Hardware? -> Einfach PN an mich schicken :b1: -> Hardware, die ich suche


  • Was als "Abkürzung" zählt, sollte man vorteilhafterweise festlegen können (also bspw. Worte, die mehr als einen Großbuchstaben enthalten, oder die auf einen "." enden).

    Der Schuss wird gewaltig nach hinten losgehen, denn an fast jedem Satzende endet ein Wort mit einem Punkt. :D


  • Der Schuss wird gewaltig nach hinten losgehen, denn an fast jedem Satzende endet ein Wort mit einem Punkt. :D

    Das ist mir bewusst. Aber lieber schaue ich mir 1000 gefundene Einträge an, als fast 30000 Wörter ;)



    Die windows suche kann doch dokumenteninhalte durchsuchen...dann einfach im explorer suchfeld die vorgegebenen abkürzungen rein klatschen

    Wie soll das gehen? Ich such ja nicht nach einer bestimmten Abkürzung (dafür kann ich auch die SuFu von Word oder dem Acrobat Reader nutzen), sondern will danach eine Auflistung aller "Abkürzungen" haben.

    «Ich verstehe Ihre Frage so: Dass es Menschen gibt, die wünschen, dass ein solches OS als "Retro-OS" bezeichnet wird, ja? Mir ist nicht bekannt, dass solche Absichten bestehen, da HP-UX 9.x einfach ein altes OS ist. Niemand hat die Absicht, ein "Retro-OS" zu bauen.» Xaar, 2014

    Prozessor gesucht? -> Prozessoren, die ich abgeben kann (unter "Available for trading")
    "Überschüssige" Prozessoren oder Hardware? -> Einfach PN an mich schicken :b1: -> Hardware, die ich suche

    Einmal editiert, zuletzt von Xaar (6. November 2016 um 22:53)


  • sondern will danach eine Auflistung aller "Abkürzungen" haben.

    Das wird schwierig, eine Möglichkeit wäre ein "Wörterbuchangriff" mit grep, also das Suchen gegen eine Liste mit Abkürzungen. Nicht allgemeinübliche Abkürzungen sollten in wissenschaftlichen Texten ohnehin bei Erstgebrauch ausgeschrieben sein, Beispiel:

    … die Hochspannungs-Gleichstrom-Übertragung (HGÜ) wird … blablabla … die HGÜ … bläh sülz bla … wegen der HGÜ … bla blubb …


  • Nicht allgemeinübliche Abkürzungen sollten in wissenschaftlichen Texten ohnehin bei Erstgebrauch ausgeschrieben sein, Beispiel:

    … die Hochspannungs-Gleichstrom-Übertragung (HGÜ) wird … blablabla … die HGÜ … bläh sülz bla … wegen der HGÜ … bla blubb …

    Das habe ich ja auch so. Nichts desto trotz gehören die Abkürzungen ins Abkürzungsverzeichnis - und das will ich gegenprüfen. Also ob alles das, was im Abkürzungsverzeichnis drin ist, auch im Text verwendet wird, und - was noch wichtiger ist! - , ob alle im Text verwendeten Abkürzungen auch im Abkürzungsverzeichnis drin sind.

    Letztlich werd' ich wohl oder übel eh im Abkürzungsverzeichnis "abstreichen", wenn ich die Arbeit nochmal einer Kontrolllesung unterziehe.

    «Ich verstehe Ihre Frage so: Dass es Menschen gibt, die wünschen, dass ein solches OS als "Retro-OS" bezeichnet wird, ja? Mir ist nicht bekannt, dass solche Absichten bestehen, da HP-UX 9.x einfach ein altes OS ist. Niemand hat die Absicht, ein "Retro-OS" zu bauen.» Xaar, 2014

    Prozessor gesucht? -> Prozessoren, die ich abgeben kann (unter "Available for trading")
    "Überschüssige" Prozessoren oder Hardware? -> Einfach PN an mich schicken :b1: -> Hardware, die ich suche

  • Falls diese Antwort ernstgemeint war: Beispiel gefällig?

    Natürlich war die ernst gemeint. Für genau solche Anwendungen wurde grep gemacht. Musst dir nur einen regulären Ausdruck zurechtbasteln, z.B. [A-Z-]{2,} (müsste man mal noch schauen wegen Unicode). Das mit dem Punkt als Satzzeichen wird dir aber tatsächlich auf die Füße fallen. Wie soll man bspw. das ›bspw.‹ von dem ›fallen.‹ im letzten Satz unterscheiden können? … Hmm, eventuell über den Case des ersten Buchstabens des folgenden Wortes. Wie gesagt, ist alles eine Frage der richtigen Regexp.

    • • • – • – – • – –

    Einmal editiert, zuletzt von s4ndwichMakeR (7. November 2016 um 00:20)

  • Hatte auch mal in der Unizeit mit Python und Regex gespielt. Da ist viel möglich. Aber hat auch seine grenzen. Wenn es hilft kann man mit Calibre die pdfs und doc/docx in txt verwandeln. Dort ist auch ne Regexsuche drin, aber die wirft keine Liste, sondern nacheinnander stellen.

    Die Frage ist, ob normale Abkürzungen gesucht werden müssen, sonst sind bspw. wirklich nicht ohne Wortliste zu finden. Der Großbuchstabe danach kann auch einfach aus einem Hauptwort entstammen. Wenn mehrere Großbuchstaben in einen Wort sind ist es ja einfach, einfach a-z und A-Z gierig aber nullig suchen zwischen 2 Großbuchstaben. Aber Regex ist auch nicht mein Steckenpferd.

  • Natürlich war die ernst gemeint. Für genau solche Anwendungen wurde grep gemacht. Musst dir nur einen regulären Ausdruck zurechtbasteln, z.B. [A-Z-]{2,} (müsste man mal noch schauen wegen Unicode). Das mit dem Punkt als Satzzeichen wird dir aber tatsächlich auf die Füße fallen. Wie soll man bspw. das ›bspw.‹ von dem ›fallen.‹ im letzten Satz unterscheiden können? … Hmm, eventuell über den Case des ersten Buchstabens des folgenden Wortes. Wie gesagt, ist alles eine Frage der richtigen Regexp.


    und grep kann mit PDF und DOCX umgehen?

  • grep kann mit Plaintext umgehen. Das ist meiner Meinung nach ein gängiges Format für geschriebene Sprache, wenn nicht sogar das naheliegendste. Gerüchte besagen sogar, das sei ein freies Format und es müssen keine Lizenzgebühren dafür gezahlt werden. Oder besteht der nach Abkürzungen zu durchsuchende Text aus Höhlenmalerei als JPGs?

    • • • – • – – • – –


  • docx/doc/pdf is nicht plain text

    Richtig, aber eher ich stunden-, tage- oder wochenlang nach einer Speziallösung suche und wenn ich es sowieso nicht automatisieren will, kopiere ich den Text aus dem Ausgangsdokument als Plaintext kurz raus. MS bietet eben nun mal leider innerhalb Word keine derartige Lösung an, außer vielleicht die Mustersuche in Verbindung mit VBA, damit man die Ergebnisse rausbekommt. Ich würde aber eher zu grep tendieren, weil: Das Suchmuster muss ich ohnehin eruieren, bei VBA kämen noch etliche Codezeilen dazu, die ich mir nicht schneller aus dem Ärmel schütteln könnte als ich die grep-Zeile eingetippt hätte.

    • • • – • – – • – –

  • Du willst einen regulären Kraftausdruck, der beschreibt, was du suchst, Punkt.

    PGP-Key E384 009D 3B54 DCD3 21BF  9532 95EE 94A4 3258 3DB1 | S/MIME-Key 0x1A33706DAD44DA
    G d-@ s+:- a--- C+++ UB+L++ P--- L++@ E-@>++ W+ N o? K? w>++ !O !M !V PS+++ PE-- Y+>++ PGP++>+++ !t 5? X? !R tv b+++>++++ DI !D G>+ e>+++ h !r>++ !z
    „Die Aachener gelten als Erfinder des 4. Hauptsatzes der Thermodynamik: ‚Thermo schreibt man zweimal.“‘
    “Saying that Java is good because it works on all platforms is like saying oral sex is good because it works on all sexes.”
    „Es gibt 10 Sorten von Leuten: Die einen verstehen das Binärsystem, die anderen nicht.“
    „Manche Männer lieben Männer, Manche Frauen eben Frauen; Da gibt's nix zu bedauern und nichts zu staunen; Das ist genau so normal wie Kaugummi kauen; Doch die meisten werden sich das niemals trauen“

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!