MePrep - Meva Präprozessor

Dieses Dokument erläutert MePrep, ein Tool zur Kompression von PubMed-Dateien.

Beschreibung

Meva verweigert ab einer bestimmten, vom Administrator definierbaren Eingabedateigröße die Verarbeitung, um das Netzwerk nicht zu überlasten. In diesem Fall können Sie die Daten mittels MePrep, dem Meva PreProcessor, lokal auf Ihrem Rechner vor dem Absenden an Meva komprimieren. Die Kompression erreicht in der Regel eine Reduktion auf durchschnittlich 1 - 20% der ursprünglichen Dateigröße, wenn nur 1 - 2 Felder extrahiert werden, und auf durchschnittlich 30 - 40%, wenn alle Felder außer Abstracts extrahiert werden. Die PubMed®-ID wird immer extrahiert. Ist Meva beispielsweise auf ein Dateimaximum von 10MB eingestellt, könnten Sie so dennoch virtuelle 50 - 1000MB an Meva zur Verarbeitung schicken. Dies wird generell bei Dateigrößen über 5MB und bei wiederholten Anfragen empfohlen, da es die Netzlast reduziert und die Verarbeitungsgeschwindigkeit erhöht.

Denken Sie jedoch daran, daß Meva unabhängig von der Größe der Eingabedatei nur eine Maximalzahl an Feldern ausgibt, da ansonsten die zurückgelieferte HTML-Datei so groß wird, daß die Web-Browser sie nicht mehr darstellen können. Im Text-Modus trifft die Feldbeschränkung jedoch nicht zu.

Installation

Laden Sie sich die ausführbare Datei meprep.exe [7kB; MD5: e2ae4c107bf51ec098178d4d76972dad] auf Ihren Rechner. Eine besondere Installation ist nicht nötig. Legen Sie einfach das Programm in ein Verzeichnis Ihrer Wahl, z.B. in das Verzeichnis, in das Sie auch die PubMed-Dateien abspeichern.

Wenn Ihre von PubMed heruntergeladenen Dateien immer die Dateierweiterung .fcgi besitzen (Vorgabewert von PubMed), können Sie sich die spätere Handhabung noch mehr erleichtern, wenn Sie auf eine solche Datei doppelklicken, im "Öffnen mit"-Dialogfenster "Andere..." anwählen und den Pfad zu MePrep wählen. Dies führt dazu, daß Sie später nur noch auf eine fcgi-Datei doppelklicken müssen, um ihre Verarbeitung durch MePrep zu starten.

Programmstart

MePrep muß wissen, aus welcher Datei es welche Felder extrahieren soll, und in welche Datei das Resultat geschrieben werden soll. Dies wird ihm über 4 Parameter mitgeteilt:

  1. Name der Eingabedatei, also der von PubMed heruntergeladenen Datei, z.B. query.fcgi.
  2. Kürzel des 1. Suchfeldes, z.B. AD für Affiliation. Lassen Sie ihn frei, nimmt MePrep standardmäßig an, daß Sie lediglich die Abstracts entfernen wollen, d.h. alle anderen Felder werden kopiert. (Abstracts können in Meva sowieso nicht abgefragt werden, belegen aber viel Platz.) Trotz der Reduktion der Dateigröße können Sie mit dieser Datei Meva also immer noch nach allen Feldern befragen.
  3. Kürzel des 2. Suchfeldes, z.B. SO für Source. Der Defaultwert ist hier NONE, d.h. es wird kein zweites Feld kopiert.
  4. Name der Ausgabedatei, also der Datei, die dann als Eingabe für Meva dient, z.B. ad-so.txt. Standardmäßig wird der Name der Eingabedatei verwendet, vermehrt um die Feldkürzel.

Die benötigten Feldkürzel finden Sie in der Feldhilfe.

Interaktiver Modus

Ziehen Sie die Datei, die MePrep komprimieren soll, einfach per Drag and Drop auf das Programm (oder doppelklicken Sie auf die Datei, sofern sie es in der Installation so eingerichtet haben - s.o.). MePrep wird damit gestartet und fragt die ausstehenden Parameter ab: Drücken Sie entweder die ENTER-Taste, um die in eckigen Klammern angezeigten Defaultwerte zu übernehmen, oder geben Sie eigene Werte an.

Nachfolgend drei Beispiele. In PubMed wurde nach Veröffentlichungen zu Multiple Sclerosis im Jahr 2002 gesucht und das Ergebnis unter MS_2000.fcgi abgespeichert. Diese Datei dient nun als Eingabedatenstrom für MePrep, aus dem eine komprimierte Ausgabedatei für Meva erstellt werden soll. (Hinweis: File to read [query.fcgi]: wird nicht abgefragt, wenn Sie die Datei im File Explorer doppelklicken oder aber auf MePrep ziehen.)

Im ersten Beispiel werden alle Felder außer Abstracts extrahiert (Abstracts werden von Meva ohnehin nicht ausgewertet, aber nehmen viel Platz in der PubMed-Resultatdatei ein). Dies ist sinnvoll, wenn man mit ein und derselben (komprimierten) Datei mehrere Anfragen an Meva nach unterschiedlichen Feldern richten möchte. Die Kompression ist allerdings nicht so gut, als wenn nur ganz spezifische Felder extrahiert werden:

* Meva Preprocessor V1.0. Type meprep -? for help.

File to read [query.fcgi]: MS_2000.fcgi
Field 1 [Delete only AB's]:
File to write [MS_2000.meva]:

Deleted only AB's.
Compressed 10238kB of MS_2000.fcgi onto 4576kB (44%) in MS_2000.meva.

Press a key to continue..

Im zweiten Beispiel werden nur MeSH Terms (MH) und Autoren (AU) extrahiert, der Rest wird verworfen. Wie man sieht, schlägt MePrep einen Zieldateinamen vor, der zwecks schnellerer Identifikation die Namen der extrahierten Feldtypen angehangen bekommt:

* Meva Preprocessor V1.0. Type meprep -? for help.

File to read [query.fcgi]: MS_2000.fcgi
Field 1 [Delete only AB's]: MH
Field 2 [NONE]: AU
File to write [MS_2000-MH-AU.meva]:

Counted 3908 records.
Extracted 41488 'MH's.
Extracted 17267 'AU's.
Compressed 10238kB of MS_2000.fcgi onto 1586kB (15%) in MS_2000-MH-AU.meva.

Press a key to continue..

Im letzten Beispiel werden nur die Länder (CY) extrahiert. Die Kompression ist jetzt mit 100:1 hervorragend, allerdings können mit dieser Datei nur noch Anfragen nach Ländern an Meva gerichtet werden. Sollen andere Feldtypen abgefragt werden, muß MePrep erneut mit den geänderten Feldnamen gestartet werden:

* Meva Preprocessor V1.0. Type meprep -? for help.

File to read [query.fcgi]: MS_2000.fcgi
Field 1 [Delete only AB's]: CY
Field 2 [NONE]:
File to write [MS_2000-CY.meva]:

Counted 3908 records.
Extracted 3853 'CY's.
Compressed 10238kB of MS_2000.fcgi onto 127kB (1%) in MS_2000-CY.meva.

Press a key to continue..

Automatischer Modus

Alternativ können Sie die Parameter auch direkt auf der Kommandozeile (MS-DOS-Eingabeaufforderung) übergeben; fehlende Parameter fragt MePrep nach. Die Eingabe von meprep -? auf der Kommandozeile druckt einen kurzen Hilfetext:

  Meva Preprocessor V1.0.

  Usage: meprep [-?] [infile pubmed_field1 pubmed_field2 outfile]

  Example to extract MeSH Terms and Authors from query.fcgi into mh-au.txt:

    meprep query.fcgi MH AU mh-au.txt

  For missing parameters meprep will ask interactively.
 Home  Über Meva Meva Formularhilfe Feldhilfe Resultathilfe Glossar FAQ Geschichte MePrep English
Webmaster 2004-03