Dieses Dokument erläutert Installation und Gebrauch der Werkzeuge PMComp (PubMed File Compressor) und PMUniq (PubMed File Unique) zur Kompression und Dublettenentfernung von MEDLINE- bzw. PubMed-Daten, die im PubMed-Format vorliegen.
Kompression mit PMComp
Beschreibung
Meva verweigert ab einer bestimmten, vom Administrator definierbaren Eingabedateigröße die Verarbeitung, um das Netzwerk nicht zu überlasten. In diesem Fall können Sie die Daten mittels eines Präprozessors, dem Werkzeug PMComp (zuvor: MePrep), lokal auf Ihrem Rechner vor dem Absenden an Meva komprimieren. Die Kompression erreicht in der Regel eine Reduktion auf durchschnittlich 1-20 % der ursprünglichen Dateigröße, wenn nur 1-2 Felder extrahiert werden, und auf durchschnittlich 30-40 %, wenn alle Felder außer Abstracts extrahiert werden. Die PubMed-ID wird immer extrahiert. Ist Meva beispielsweise auf ein Dateimaximum von 10 MB eingestellt, könnten Sie so dennoch virtuelle 50-1000 MB an Meva zur Verarbeitung schicken. Dies wird generell bei Dateigrößen über 5 MB und bei wiederholten Anfragen empfohlen, da es die Netzlast reduziert und die Verarbeitungsgeschwindigkeit erhöht.
Denken Sie jedoch daran, daß Meva unabhängig von der Größe der Eingabedatei nur eine Maximalzahl an Feldern ausgibt, da ansonsten die zurückgelieferte HTML-Datei so groß geriete, daß Web-Browser sie nicht mehr darstellen könnten. Im Text-Modus trifft die Feldbeschränkung jedoch nicht zu.
Installation
Laden Sie das Programmarchiv (Windows x64: pmcomp.zip, 9 KB, MD5; Linux Elf x64: pmcomp.tgz, 5 KB, MD5) auf Ihren Rechner. Eine besondere Installation ist nicht nötig. Entpacken Sie das Programm aus dem Archiv und legen Sie es einfach in ein Verzeichnis Ihrer Wahl, z.B. in das Verzeichnis, in das Sie auch die PubMed-Dateien abspeichern.
Wenn Ihre von PubMed heruntergeladenen Dateien immer eine bestimmte Dateierweiterung besitzen, können Sie sich die spätere Handhabung noch mehr erleichtern, wenn Sie auf eine solche Datei doppelklicken, im »Öffnen mit«-Dialogfenster »Andere …« anwählen und den Pfad zu PMComp wählen. Dies führt dazu, daß Sie später nur noch auf eine solche Datei doppelklicken müssen, um ihre Verarbeitung durch PMComp zu starten.
Programmstart
PMComp muß wissen, aus welcher Datei es welche Felder extrahieren soll, und in welche Datei das Resultat geschrieben werden soll. Dies wird ihm über 4 Parameter mitgeteilt:
- Name der Eingabedatei, also der von PubMed heruntergeladenen Datei, z.B. pubmed_result.txt. Diese Datei muß im MEDLINE-Textformat vorliegen.
- Kürzel des 1. Suchfeldes, z.B. AD für Affiliation. Lassen Sie ihn frei, nimmt PMComp standardmäßig an, daß Sie lediglich die Abstracts entfernen wollen, d.h. alle anderen Felder werden kopiert. (Abstracts können in Meva sowieso nicht abgefragt werden, belegen aber viel Platz.) Trotz der Reduktion der Dateigröße können Sie mit dieser Datei Meva also immer noch nach allen Feldern befragen.
- Kürzel des 2. Suchfeldes, z.B. SO für Source. Der Vorgabewert ist hier NONE, d.h. es wird kein zweites Feld kopiert.
- Name der Ausgabedatei, also der Datei, die dann als Eingabe für Meva dient, z.B. pubmed_result-ad-so.txt. Standardmäßig wird der Name der Eingabedatei verwendet, vermehrt um die Feldkürzel.
Die benötigten Feldkürzel finden Sie in der Feldhilfe.
Interaktive Bedienung
Ziehen Sie die Datei, die PMComp komprimieren soll, einfach per Drag and Drop auf das Programm (oder doppelklicken Sie auf die Datei, sofern sie es in der Installation so eingerichtet haben - s.o.). PMComp wird damit gestartet und fragt die ausstehenden Parameter ab: Drücken Sie entweder die ENTER-Taste, um die in eckigen Klammern angezeigten Vorgabewerte zu übernehmen, oder geben Sie eigene Werte an.
Nachfolgend drei Beispiele. In PubMed wurde nach Veröffentlichungen zu Multiple Sclerosis aus dem Jahr 2000 gesucht und das Ergebnis unter ms2000.txt abgespeichert. Diese Datei dient nun als Eingabedatenstrom für PMComp, aus dem eine komprimierte Ausgabedatei für Meva erstellt werden soll. (Hinweis: File to read [pubmed_result.txt]: wird nicht abgefragt, wenn Sie die Datei im File Explorer doppelklicken oder aber auf PMComp ziehen.)
Im ersten Beispiel werden alle Felder außer Abstracts extrahiert (Abstracts werden von Meva ohnehin nicht ausgewertet, aber nehmen viel Platz in der PubMed-Resultatdatei ein). Dies ist sinnvoll, wenn man mit ein und derselben (komprimierten) Datei mehrere Anfragen an Meva nach unterschiedlichen Feldern richten möchte. Die Kompression ist allerdings nicht so gut, als wenn nur ganz spezifische Felder extrahiert werden:
PubMed File Compressor V1.2.0.1. File to read [pubmed_result.txt]: ms2000.txt Field 1 [Delete only AB's]: File to write [ms2000.meva]: Deleted only AB's. Compressed 10238 KB of ms2000.txt onto 4576 KB (44%) in ms2000.meva. Press a key to continue ...
Im zweiten Beispiel werden nur MeSH Terms (MH) und Autoren (AU) extrahiert, der Rest wird verworfen. Wie man sieht, schlägt PMComp einen Zieldateinamen vor, der zwecks schnellerer Identifikation die Namen der extrahierten Feldtypen angehangen bekommt:
PubMed File Compressor V1.2.0.1. File to read [pubmed_result.txt]: ms2000.txt Field 1 [Delete only AB's]: MH Field 2 [NONE]: AU File to write [ms2000-mh-au.meva]: Counted 3908 records. Extracted 41488 'MH's. Extracted 17267 'AU's. Compressed 10238 KB of ms2000.txt onto 1586 KB (15%) in ms2000-mh-au.meva. Press a key to continue ...
Im letzten Beispiel werden nur die Länder (CY) extrahiert. Die Kompression ist jetzt mit 100:1 hervorragend, allerdings können mit dieser Datei nur noch Anfragen nach Ländern an Meva gerichtet werden. Sollen andere Feldtypen abgefragt werden, muß PMComp erneut mit den geänderten Feldnamen gestartet werden:
PubMed File Compressor V1.2.0.1. File to read [pubmed_result.txt]: ms2000.txt Field 1 [Delete only AB's]: CY Field 2 [NONE]: File to write [ms2000-cy.meva]: Counted 3908 records. Extracted 3853 'CY's. Compressed 10238 KB of ms2000.txt onto 127 KB (1%) in ms2000-cy.meva. Press a key to continue ...
Kommandozeilengesteuerte Bedienung
Alternativ können Sie die Parameter auch direkt auf der Kommandozeile (DOS-Eingabeaufforderung) übergeben; fehlende Parameter fragt PMComp nach. Die Eingabe von pmcomp -? auf der Kommandozeile druckt einen kurzen Hilfetext:
PubMed File Compressor V1.2.0.1, (c) 2002, 2022 med-ai.com. This tool compresses a PubMed result file downloaded in 'PubMed' format. Syntax: pmcomp [-?] [pubmedfile] [fieldname1] [fieldname2] [outfile] Examples: Extract Authors and MeSH codes: pmcomp pubmed_res.txt AU MH out.txt Extract Authors : pmcomp pubmed_res.txt AU NONE out.txt Remove only abstracts : pmcomp pubmed_res.txt NONE NONE out.txt With all parameters set on the command line, the program runs quietly; otherwise the program interactively asks for missing values.
Dublettenentfernung mit PMUniq
Beschreibung
Fügt man Ergebnisdateien aus PubMed-Suchen zusammen, können Artikel im Kompilat mehrfach vorkommen. PMUniq (PubMed Unique) sucht – in Analogie zum Unix-Programm uniq – mehrfach vorhandene Datensätze, zeigt diese mit Artikelnummern (PMID) an und entfernt die Dubletten.
Installation
Laden Sie das Programmarchiv (Windows x86: pmuniq.zip, 17 KB, MD5) auf Ihren Rechner. Eine besondere Installation ist nicht nötig. Entpacken Sie das Programm aus dem Archiv und legen Sie es einfach in ein Verzeichnis Ihrer Wahl, z.B. in das Verzeichnis, in das Sie auch die PubMed-Dateien abspeichern.
Programmstart
PMUniq muß die Namen der zu untersuchenden MEDLINE-Datei wissen und den Namen der Datei, in welche die korrigierten Daten geschrieben werden sollen. Dies wird ihm über 2 Parameter mitgeteilt:
- Name der Eingabedatei im MEDLINE-Format, z.B. pubmed_result.txt. Diese Datei muß im MEDLINE-Textformat vorliegen.
- Name der Ausgabedatei. Schlägt der Benutzer keinen eigenen Namen vor, wird der Name der Eingabedatei verwendet, vermehrt um -unique.
Interaktive Bedienung
Ziehen Sie die Datei, die PMUniq korrigieren soll, einfach per Drag and Drop auf das Programm. PMUniq wird damit gestartet und fragt die ausstehenden Parameter ab: Drücken Sie entweder die ENTER-Taste, um die in eckigen Klammern angezeigten Vorgabewerte zu übernehmen, oder geben Sie eigene Werte an.
Nachfolgend ein Beispiel:
* PubMed Unique V1.0. Type pmuniq -? for help. File to read [pubmed_result.txt]: ms.txt File to write [ms-unique.txt]: PMID's of duplicate records: 23732945 21258057 Found 2 doublets in 93 records in ms.txt, saved corrected data to ms-unique.txt. Press a key to continue ...
Kommandozeilengesteuerte Bedienung
Alternativ können Sie die Parameter auch direkt auf der Kommandozeile (DOS-Eingabeaufforderung) übergeben; fehlende Parameter fragt PMUniq nach. Die Eingabe von pmuniq -? auf der Kommandozeile druckt einen kurzen Hilfetext:
* PubMed Unique V1.0. Cop. (c) 2013 www.med-ai.com. Remove duplicate records from PubMed result files (MEDLINE text format). Syntax: pmuniq [-?] [pubmedfile] [outfile]