SCDH
diff --git a/‎exercises/Aufgaben_Tag_1.ipynb
+385 b/‎exercises/Aufgaben_Tag_1.ipynb
+385
@@ -0,0 +1,385 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "b548150e-e77b-4aa0-b021-36d2135bdabe",
+   "metadata": {},
+   "source": [
+    "# Programmieren für Geisteswissenschaftler - Workshop II\n",
+    "# Tag 1\n",
+    "\n",
+    "## Datenstukturen in Jupyter Notebooks\n",
+    "\n",
+    "Lernen Sie das Jupyter Notebook kennen:  \n",
+    "Ein Jupyter Notebook enthält einen Python-Interpreter und verschiedene Zellen.  \n",
+    "In den Zellen können Sie entweder Text oder Code eingeben.  \n",
+    "Jede Zelle mit Code kann *einzeln* ausgeführt werden.  \n",
+    "\n",
+    "Hinweis:  \n",
+    "Sie können zudem unter \"Edit\" oder der rechten Maustaste die Funktion \"Clear Outputs\" / \"Clear All Outputs\" nutzen, um das Notebook weiterhin übersichtlich zu halten.\n",
+    "\n",
+    "Lernziele:\n",
+    "\n",
+    "* Was sind die Vorteile von Jupyter Notebooks?\n",
+    "* Wie kann ich in Python Dateien einlesen?\n",
+    "* Wie kann ich Dateien schreiben?\n",
+    "* Wie kann ich aus unstrukturierten Daten strukturierte Daten erzeugen?\n",
+    "* Wie halte ich mehrere Daten in einer Datenstruktur?\n",
+    "* Welche Datenstrukturen gibt es?\n",
+    "* Wie exportiere ich Daten in Standardformate?\n",
+    "* Wie nutze ich bestehende Bibliotheken in Python?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "0fb5ce41-c3cc-42db-95bd-6735d7c3bb9f",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 1\n",
+    "\n",
+    "Machen Sie sich mit dem Jupyter Hub vertraut.\n",
+    "\n",
+    "Erzeugen Sie zwei neue Zellen. Eine für Markdown Text und eine formatiert für Code.  \n",
+    "\n",
+    "Schreiben Sie in die Textzelle einen Satz und heben Sie dabei ein Wort mit **Fettdruck** hervor.  \n",
+    "Schreiben Sie anschließend `Hello Wrld`(sic!) in eine Variable.  \n",
+    "Nutzen Sie Ersetzen Funktion von Pythons String-Objekt, um das fehlerhafte Wort mit dem korrekten Wort zu ersetzen.\n",
+    "\n",
+    "Geben Sie die Variable aus."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "745859b2-12c3-4cf7-b7d1-b05e3d96d43c",
+   "metadata": {},
+   "source": [
+    "Diese Zelle enthält einen **Fettdruck**"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6ad79205-3766-4fe4-b3e4-6613ccd8ebae",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 2\n",
+    "\n",
+    "Laden Sie, wenn nicht bereits geschehen, von Github das Repo zu diesem Workshop unter [NLP-Workshop](https://github.com/SCDH/python-nlp-workshop) als ZIP Datei herunter.  \n",
+    "Entpacken Sie diese Datei in einem Ordner auf Ihrem PC. Öffnen Sie diesen Ordner. Erstellen Sie nun im Hub einen Ordner namens `data` und kopieren Sie alle Textdateien dort hinein. Sie können die Dateien direkt von Ihrem Explorer hier in das Hub ziehen.  \n",
+    "\n",
+    "Lesen Sie nun die Datei `bpb_text_ki_im_klassenzimmer.txt` im Ordner `data` ein.\n",
+    "Benutzen Sie dabei den Context Manager von Python. Infos dazu finden Sie im Infomaterial:  \n",
+    "https://github.com/SCDH/python-nlp-workshop/blob/main/Infomaterial.md#dateien-%C3%B6ffnenlesen\n",
+    "\n",
+    "Geben Sie anschließend den Text aus.\n",
+    "\n",
+    "Tipp: Schauen Sie immer wieder in das Infomaterial, wenn Sie sich nicht sicher sind.  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "bed40fa8-f3e0-47f7-af6f-22eb6b8f7424",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "572f8ea6-ed22-43e1-9fe7-2d922d8fb98e",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 3\n",
+    "\n",
+    "Laden Sie nun alle fünf Texte mittels Python zunächst einmal in eine Liste.  \n",
+    "Hierbei soll jedes Element der Liste ein Text (d.h. ein String des gesamten Textes) sein.  \n",
+    "Prüfen Sie, ob Sie alle fünf Texte geladen haben.  \n",
+    "\n",
+    "Sie können die Bibliothek `glob` (ein Abkömmling des Unix-Tools \"global\" von 1971) nutzen, um eine Liste aller Dateien aus dem Dateisystem zu bekommen.  \n",
+    "Die Methode `glob` in der gleichnamigen Bibliothek bekommt einen Pfad als Parameter.  \n",
+    "Sie können hier auch sog. \"Wildcards\" verwenden. Mehr dazu im Infomaterial.  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "109798e5-f4c6-403e-9919-aa9d6e2b6633",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "3d42aa79-c660-4e8f-947c-aa35759ce363",
+   "metadata": {},
+   "source": [
+    "## Optional: Aufgabe 4\n",
+    "\n",
+    "Vertiefen Sie in dieser optionalen Aufgaben das Arbeiten mit Dateien.  \n",
+    "\n",
+    "Schreiben Sie alle Texte aus Ihrer Liste wieder in das Dateisystem zurück.  \n",
+    "Nutzen Sie dazu erneut eine for-Schleife, mit deren Hilfe Sie über die Elemente Ihrer Liste iterieren.  \n",
+    "Um die Dateien zu schreiben können sie vorher einen separaten Ordner erstellen.  \n",
+    "\n",
+    "Tipp: Egal, ob Sie in einen neuen oder den bestehenden Ordner schreiben, Sie müssen sicher sein, dass dieser Ordner existiert.  \n",
+    "Python hat dazu in der Library `os` die Methode `makedirs()`: `os.makedirs(output_folder, exist_ok=True)`\n",
+    "\n",
+    "Hinzu kommt, dass Sie für jede Datei einen Dateinamen brauchen. Überlegen Sie sich, wie sie einen eindeutigen Namen für jede Datei erzeugen können.  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f017a4a2-14db-4762-8659-c50888afc58a",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7fa4c13c-f937-4d13-b8ed-643bdba5eb27",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 5\n",
+    "\n",
+    "Schauen Sie in die Texte (entweder öffnen Sie die Dateien oder Sie lassen sich den Inhalt ihrer Textliste hier ausgeben).  \n",
+    "Sie erkennen dort in den ersten Zeilen wichtige Metainformationen zu den Texten.  \n",
+    "Zunächst wird die Kategorie genannt, dann der Titel, das Datum und schließlich die Autoren.\n",
+    "\n",
+    "Überlegen Sie sich eine geeignet Datenstruktur für diese Metadaten mithilfe von Python Dictionaries."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f98aa6b7-e806-4281-a5f5-6607206d2abd",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "2e94be55-d25f-41b0-aca0-ebb54eb1c0ec",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 6\n",
+    "\n",
+    "Bisher haben wir die Texte nur als Elemente einer Liste vorliegen.  \n",
+    "Wir möchten die Daten aber mehr strukturieren.  \n",
+    "\n",
+    "Iterieren Sie über ihre Liste `texts` und nutzten Sie Pythons Methode `split()`, um den Text an Zeilenumbrüchen zu trennen.  \n",
+    "Sie werden dann eine Liste an \"Zeilen\" bekommen.\n",
+    "\n",
+    "Hinweis: `split()` erwartet als Parameter das Zeichen, an dem getrennt werden soll. Übergeben Sie keinen, wird standardmäßig das Leerzeichen verwendet.  \n",
+    "\n",
+    "Überlegen Sie anschließend, wie Sie in derselben Schleife ihr Dictionary für die Metadaten befüllen können.  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9f99ce68-81eb-4a52-a3c1-95b0174702f7",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bd0055d5-26d7-4778-b671-b8a6399655db",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 7\n",
+    "\n",
+    "Wir wollen nun unsere strukturierten Daten auch strukturiert speichern.  \n",
+    "Dictionaries sind Datenstrukturen, die nur zur Laufzeit des Python Scripts existieren.  \n",
+    "Um Sie persistent zu speichern, müssen wir Sie in eine Datei schreiben.  \n",
+    "\n",
+    "Tatsächlich ist es möglich, Dictionaries zu speichern. Aber wir halten uns an dieser Stelle lieber an verbreitertere Standards.  \n",
+    "Ein Standard ist CSV, Comma-Separated Values, das vom Prinzip her dieselbe Grundlage hat wie Excel Tabellen und auch in Excel verarbeitet werden können.  \n",
+    "\n",
+    "Wollen wir also unsere Metadaten tabellarisch speichern, bietet sich das CSV-Format an.  \n",
+    "\n",
+    "Eine Bibliothek, die in den letzten Jahren immer beliebter wurde, ist [Pandas](https://pandas.pydata.org/).  \n",
+    "Pandas kann hervorragend mit großen Tabellen umgehen. Das liegt daran, dass Tabellen sich mathematisch als Matrizen darstellen lassen.  \n",
+    "Und dafür hat Pandas einige sehr performante Methoden parat.  "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c0195395-308f-43a0-ad47-59ad44f8f20c",
+   "metadata": {},
+   "source": [
+    "Installieren Sie Pandas in Ihre Umgebung, indem Sie in eine Zelle `!pip install pandas` schreiben. \n",
+    "\n",
+    "Nutzen Sie dazu [Pip](https://pip.pypa.io/en/stable/), den Python Package Manager.  \n",
+    "Das Installieren von Packages über den Package Manager benötigt i.d.R. ein Terminal, auch [Shell](https://wiki.ubuntuusers.de/Shell/) genannt.  \n",
+    "Einige Befehle lassen sich jedoch auch über Notebooks ausführen, wenn man ein `!` voranstellt.\n",
+    "\n",
+    "PIP wird Pandas installieren, sodass Sie anschließend mit `import pandas as pd` Pandas nutzen können.  \n",
+    "(Die Abkürzung `pd` hat sich in Bezug auf Pandas etabliert.)\n",
+    "\n",
+    "Hinweis: Das Installieren von Bibliotheken müssen Sie pro Umgebung nur einmal machen. D.h. Sie können den Befehl nach dem ersten erfolgreichen Durchlauf auskommentieren."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "51f160f3-9193-4cc0-97dc-7401ac5562fb",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "846256a9-b9e7-4503-8978-8ab6bb1f89ab",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 8\n",
+    "\n",
+    "Erstellen Sie nun einen Pandas DataFrame bei dem Sie ihre Metadaten als Parameter übergeben.  \n",
+    "\n",
+    "Speichern Sie anschließend den DataFrame in einer CSV Datei."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "2ab32459-036a-4db0-98f3-a3381d1c0829",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "176e1785-9b78-43af-bb6a-ac851330ee20",
+   "metadata": {},
+   "source": [
+    "## Optional: Aufgabe 9\n",
+    "\n",
+    "In dieser Übung wollen wir die Probleme verstehen, die entstehen, wenn wir Texte einfach mittels Zeichen trennen.  \n",
+    "\n",
+    "Iterieren Sie wieder über ihre Texte. Überlegen Sie sich, an welchen Zeichen Sie trennen müssen, um \"Sätze\" zu erzeugen.  \n",
+    "Bedenken Sie auch, wie Sie das in Python lösen bzw. welche Probleme hier auftauchen.  \n",
+    "\n",
+    "Sie können dann die Sätze in Ihrer Datenstruktur speichern. Am besten unter einem Schlüssel namens `sentences`.  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "4bd47813-b225-45d5-bdf4-8dd7e17dae43",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "8ffc2385-a321-4d2b-b743-ed9ddb56b009",
+   "metadata": {},
+   "source": [
+    "## Aufgabe 10\n",
+    "\n",
+    "Als Vorübung zur finalen Aufgabe geht es nun darum, die fünf Texte an ihren Wortgrenzen aufzusplitten, um an die Wörter zu kommen.  \n",
+    "Danach müssen alle Wörter zu einer großen Wortmenge vereinigt werden.  \n",
+    "\n",
+    "Überlegen Sie sich, wie sie ihre Liste an Texten verarbeiten können, um dies zu erreichen.  \n",
+    "Wenn Sie bereits Aufgabe 9 erledigt haben, sollten Sie davon bereits ein Verständnis haben.\n",
+    "\n",
+    "Schreiben Sie am Ende alle Wörter in die Variable `bow` (Bag of Words).  \n",
+    "Prüfen Sie, ob Sie auf ca. 6700 Wörter für alle fünf Texte kommen."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cc2324b7-5e7d-4985-86c9-b0620821f972",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "79c55711-961f-4131-a6b6-45ba7844e07a",
+   "metadata": {},
+   "source": [
+    "## Finale Aufgabe\n",
+    "\n",
+    "Als Abschluss wollen wir eine kleine Statistik über unsere Texte erstellen.  \n",
+    "Wir möchten die Wordhäufigkeit (word frequency) ermitteln.  \n",
+    "\n",
+    "Dazu können Sie sich einmal überlegen, wie Sie die Wörter aus ihren fünf Texten zählen können.  \n",
+    "Neben dem Wort an sich wollen wir also auch die Anzahl der Vorkommnisse des Wortes ermitteln und speichern.  \n",
+    "\n",
+    "Welche Datenstruktur wäre dazu geeignet?  \n",
+    "\n",
+    "Bitte schreiben Sie keinen Code, sondern überlegen nur theoretisch!"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c18eed89-48ed-4b8b-9ec9-6721fc139194",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Hier ist Platz für ihre Notizen"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c0238cde-88e2-40f2-80a2-e5c3a336457a",
+   "metadata": {},
+   "source": [
+    "Der Grund für diesen theoretischen Ansatz ist einfach: Python besitzt bereits eine Library, die das erledigt.  \n",
+    "Wenn Sie aus der Library `collections` die Klasse `Counter` importieren, haben Sie ein umfangreiches Werkzeug für diese Aufgabe.\n",
+    "\n",
+    "Übergeben Sie Counter einfach ihre Liste an Wörtern mit:\n",
+    "\n",
+    "```python\n",
+    "word_count = Counter(words)\n",
+    "```\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "86bf9499-5a01-467c-aa86-b7f4a760526b",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.8"
+  },
+  "toc-autonumbering": false
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}