Eingabe löschen

Kopfbereich

Schnellnavigation

Hauptnavigation

Text- und Data-Mining

Text- und Data-Mining (TDM) durchsucht grosse Mengen von Texten und Daten mit computergestützten Verfahren. Unstrukturierte Daten werden aufbereitet und automatisiert auf Muster, Trends und Zusammenhänge untersucht.

TDM bezeichnet verschiedene Verfahren, um grosse Mengen von Texten oder Daten zu durchsuchen und auszuwerten. Mithilfe computergestützter Analyseverfahren werden meist unstrukturierte Daten zunächst systematisch und maschinenlesbar aufbereitet und schliesslich automatisiert auf Muster, Trends und andere forschungsrelevante Zusammenhänge hin untersucht.

Bei der Nutzung von urheberrechtlich geschützten Materialien wie z.B. Texte, Bilder oder audiovisuelle Medien als Datenquelle für TDM müssen rechtliche als auch technischen Nutzungsbedingungen beachtet werden.  Weboberflächen der jeweiligen Anbieter sind in der Regel nicht geeignet, grosse Datenmengen direkt herunterzuladen. Wenn Sie für Ihre Forschung beispielsweise grosse Mengen an Inhalten aus lizenzierten E-Ressourcen der Hochschulbibliothek analysieren möchten, beachten Sie bitte unsere Hinweise im Selfserviceportal (KI 3355).

Viele Verlage verfügen über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen. Dort finden sich häufig auch Informationen zu Schnittstellen und deren Nutzung (Registrierung, Vorgabe für Lade- und Download-Raten etc.). (Liste nicht abschliessend).  

Neben lizenzierten Inhalten gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschliessend):

  • Arxiv
    Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie
  • BioMed Central
    Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin
  • Europeana
    Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen
  • HathiTrust Digital Library
    Digitalisate von über hundert akademischen Institutionen weltweit
  • Public Library of Science (PLOS)
    Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag
  • PubMed Central: Databases and Text Mining Tools
    Diverse frei zugängliche Mining Tools, mit denen PubMed Central, ein Archiv mit frei zugänglichen Inhalten aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann

Der offene Zugang zu selbst geschaffenen Inhalten im Sinne von Open Science erleichtert TDM-Verfahren. Das eindeutige Rechte-Management mit standardisierten, maschinenlesbaren und open-content-gerechten Creative-Commons-Lizenzen trägt zur rechtssicheren Anwendung von TDM-Methoden auf Daten- und Textkorpora bei.

Weitere Informationen: