• Textanalyse mit R
  • 1 Einführung
  • 2 Installation
    • 2.1 Grundlegende Programme
    • 2.2 Zusätzliche Programme
    • 2.3 Hilfe
    • 2.4 Andere Werkzeuge
    • 2.5 Cloud-Dienste
    • 2.6 Repositorien und YouTube
  • 3 Showcase
    • 3.1 ggplot mit emojis
    • 3.2 Datenvorbereitung
    • 3.3 Erster Boxplot
    • 3.4 Visuelle Darstellung Ns
    • 3.5 Numerische Darstellung Ns
    • 3.6 Zusammenfassende Statistiken (Mouse-Over)
    • 3.7 Ausreißer markieren
    • 3.8 Individuelle Datenwerte anzeigen
    • 3.9 ggplot Aesthetics verwenden
    • 3.10 Mittelwerte hinzufügen
    • 3.11 Statistische Tests anzeigen
    • 3.12 Gruppendifferenzen
    • 3.13 Bilder als Labels
  • 4 R & RStudio
    • 4.1 Programme
    • 4.2 Textdatei öffnen
    • 4.3 Öffnen mehrerer Texte
    • 4.4 Öffnen von Tabellen
    • 4.5 Öffnen einer Excel-Tabelle
    • 4.6 Datei speichern
    • 4.7 Download von Zip-Dateien
    • 4.8 Verzeichnisse
      • 4.8.1 Existenz eines Verzeichnisses prüfen
      • 4.8.2 Verzeichnis anlegen
      • 4.8.3 Unterverzeichnisse anlegen
      • 4.8.4 Verzeichnis entfernen
    • 4.9 Zip-Dateien entpacken und löschen
    • 4.10 Dateilisten anzeigen
    • 4.11 Mehrere Dateien öffnen
      • 4.11.1 quanteda:
      • 4.11.2 tidyverse:
      • 4.11.3 Base R:
    • 4.12 Zeichensatz konvertieren
    • 4.13 Datensatz vorbereiten
      • 4.13.1 select()
      • 4.13.2 filter()
      • 4.13.3 group_by()
      • 4.13.4 mutate()
      • 4.13.5 count()
      • 4.13.6 summarise()
      • 4.13.7 round()
      • 4.13.8 arrange()
      • 4.13.9 distinct()
      • 4.13.10 str_to_lower()
      • 4.13.11 str_replace()
      • 4.13.12 separate() und unite()
      • 4.13.13 pivot_wider()
      • 4.13.14 pivot_longer()
      • 4.13.15 Datumsfunktionen
    • 4.14 Umwandlung eines R-Skripts
  • 5 Stichprobentests
    • 5.1 Nominalskalierte Größen
      • 5.1.1 Lange und kurze Kommentare
      • 5.1.2 Plural von Kunstwörtern
      • 5.1.3 Modalkonstruktionen
    • 5.2 Intervallskalierte Größen
      • 5.2.1 Äußerungslänge in einer Kurzgeschichte
      • 5.2.2 Wirkung von Unterrichtsmethoden
      • 5.2.3 Höflichkeit und Grundfrequenz
  • 6 Spracherwerbsdaten
    • 6.1 Programme
    • 6.2 Daten lesen
    • 6.3 Verknüpfung der einzelnen Dateien
    • 6.4 1. Häufigkeit insgesamt
    • 6.5 2. Welche d-Form am häufigsten?
    • 6.6 3. Welche Form als erste?
    • 6.7 4. Wann alle d-Formen vertreten?
    • 6.8 5. Bevorzugtes d-Wort von MOT
    • 6.9 6. Welche Formen hört Rahel nie / kaum?
  • 7 Deutsche Zungenbrecher
    • 7.1 Programme laden
    • 7.2 Tabelle laden
    • 7.3 EDA
  • 8 Buchstaben in Romanen
    • 8.1 Packages
    • 8.2 Datensatz lesen
    • 8.3 Buchstaben extrahieren
      • 8.3.1 aus Liste
      • 8.3.2 aus Datensatz
    • 8.4 Buchstaben zählen
    • 8.5 Vokale
    • 8.6 Konsonanten
    • 8.7 Vokal-Konsonant-Verhältnis
    • 8.8 Anzahl der Silben
    • 8.9 Mittlere Wortlänge
    • 8.10 Testen von Mittelwertunterschieden
      • 8.10.1 t-Test
      • 8.10.2 Lineare Regression
    • 8.11 Quanteda-Funktionen
    • 8.12 Konsonantenverbindungen
    • 8.13 Datensatz-Variante
  • 9 Vokalformanten im Deutschen als Fremdsprache
    • 9.1 Programme starten
    • 9.2 Daten laden & anpassen
      • 9.2.1 Datensatz 1
      • 9.2.2 Datensatz 2
      • 9.2.3 Datensatz 3
    • 9.3 IPA syms
    • 9.4 Vergleich der Vokalformanten
      • 9.4.1 Datensatz 2
      • 9.4.2 Datensatz 3
    • 9.5 Aggregierter Datensatz
      • 9.5.1 IPA syms
      • 9.5.2 Tabelle
      • 9.5.3 Datensatz 1 mit aggregierten Daten
    • 9.6 Abbildungen mit phonR
  • 10 Suffixe und Stemming
    • 10.1 Packages
    • 10.2 Dateien einlesen
    • 10.3 Lemmatisierung
    • 10.4 Stemming
    • 10.5 Wortbildungsanalyse
      • 10.5.1 Suffix -lich
      • 10.5.2 Mehrere ADJ Suffixe
      • 10.5.3 Nicht verwendete Tabelle
  • 11 Konnektoren
    • 11.1 Pakete
    • 11.2 Text einlesen
    • 11.3 UDPipe laden
    • 11.4 Text annotieren
    • 11.5 Wortklassen und Konnektoren
  • 12 Kurzgeschichten im Vergleich
    • 12.1 Programme laden
    • 12.2 Texte laden
    • 12.3 Textzerlegung und Annotation
    • 12.4 Datensätze vereinen
    • 12.5 Wortklassen zählen
    • 12.6 Nicht-parametrischer Test
    • 12.7 Konnektoren
    • 12.8 Äußerungslänge vergleichen
  • 13 Textzerlegung
    • 13.1 Packages
    • 13.2 Text öffnen
    • 13.3 Zerlegung des Textes
      • 13.3.1 Tabelle
      • 13.3.2 Äußerungen
      • 13.3.3 Wörter
      • 13.3.4 Buchstaben
      • 13.3.5 Ziffern umwandeln
    • 13.4 Tabelle speichern
    • 13.5 Tabelle öffnen
    • 13.6 Zählen
      • 13.6.1 Buchstaben
      • 13.6.2 Worthäufigkeiten
      • 13.6.3 Wortschatzdichte
      • 13.6.4 Äußerungslänge
      • 13.6.5 Vergleich mit quanteda
      • 13.6.6 Vergleich mit Voyant Tools
  • 14 Textvergleich
    • 14.1 Programme installieren
    • 14.2 Programme laden
    • 14.3 Texte öffnen
    • 14.4 Korpus anlegen
    • 14.5 Tokenisierung
    • 14.6 Tokenliste säubern
    • 14.7 Kwic
    • 14.8 Häufigkeit
    • 14.9 Kollokationen
    • 14.10 Lemmatisierung
    • 14.11 Wortwolken
    • 14.12 Position im Text (xray)
    • 14.13 Lexikalische Vielfalt
    • 14.14 Textähnlichkeit
    • 14.15 Schlüsselwörter (keywords)
    • 14.16 Lesbarkeit des Textes
    • 14.17 Kookurrenz-Netzwerk (FCM)
    • 14.18 Grammatische Analyse
      • 14.18.1 Vorbereitung
      • 14.18.2 Vergleich Nomen : Pronomen
      • 14.18.3 Konjunktionen im Vergleich
      • 14.18.4 Lexikalische Einheiten
      • 14.18.5 Wortkorrelationen
    • 14.19 Sentiment
      • 14.19.1 Version 1
      • 14.19.2 Variante 2
      • 14.19.3 Variante 3
  • 15 Komplexe Äußerungen
    • 15.1 Packages
    • 15.2 Texte laden
    • 15.3 Text 1 zerlegen
    • 15.4 Texttabelle erstellen
    • 15.5 Speichern der Tabelle
    • 15.6 Auswahl nach Länge
    • 15.7 Durchschnittslänge
    • 15.8 Auswahl nach Konnektoren
    • 15.9 Welche Konnektoren?
    • 15.10 Text 2 zerlegen
    • 15.11 Texttabelle erstellen
    • 15.12 Speichern der Tabelle
    • 15.13 Auswahl nach Länge
    • 15.14 Durchschnittslänge
    • 15.15 Auswahl nach Konnektoren
    • 15.16 Welche Konnektoren?
    • 15.17 Text 3 zerlegen
    • 15.18 Texttabelle erstellen
    • 15.19 Speichern der Tabelle
    • 15.20 Auswahl nach Länge
    • 15.21 Durchschnittslänge
    • 15.22 Auswahl nach Konnektoren
    • 15.23 Welche Konnektoren?
    • 15.24 Vergleich der Äußerungslängen
  • 16 Lesbarkeitsindices
    • 16.1 Zur theoretischen Begründung
    • 16.2 Programme
    • 16.3 Texte lesen
    • 16.4 Flesch Reading Ease - deutsche Version
    • 16.5 Romane (deutsche oder ins Deutsche übersetzte)
    • 16.6 Zeitungen
    • 16.7 Statistische Tests: News
    • 16.8 Datensätze vereinen
    • 16.9 Zeitungen im Vergleich
    • 16.10 Alle Texte im Vergleich
    • 16.11 Flesch-Kincade Grade Level (USA, GB)
    • 16.12 Wiener Sachtextformel
  • 17 Untertitel
    • 17.1 Programme starten
    • 17.2 Daten laden
    • 17.3 Datensätze vorbereiten
      • 17.3.1 Textspalte vorbereiten
      • 17.3.2 Datensätze verknüpfen
      • 17.3.3 Merkmale hinzufügen
      • 17.3.4 Konkordanzrecherche
      • 17.3.5 Textzerlegung
      • 17.3.6 Zerlegung und Annotation
    • 17.4 Morphologie der Untertitel
      • 17.4.1 XRay Brother
      • 17.4.2 Substantive im Plural
      • 17.4.3 Adjektive im Komparativ
    • 17.5 Syntax: Dependenz
      • 17.5.1 Aktiv und Passiv
      • 17.5.2 Substantive und Pronomen als Satzglieder
      • 17.5.3 Subjekt nominal / pronominal
      • 17.5.4 Objekt nominal / pronominal
      • 17.5.5 Wortklasse von Subjekt / Objekt
      • 17.5.6 Gattungs- und Eigennamen
      • 17.5.7 Konstituentenfolge
      • 17.5.8 Kontexte von Modifizierern
      • 17.5.9 Greenbergs Universalie 25
      • 17.5.10 Subjekt-vor-Objekt-Präferenz
      • 17.5.11 Mehrere Konstituenten
  • 18 Rolling Stones auf Twitter
    • 18.1 Der Tod von Charlie Watts
    • 18.2 Programme
    • 18.3 Datenstrom holen
    • 18.4 Tweets holen
    • 18.5 Datensatz erstellen
    • 18.6 Datensatz speichern
    • 18.7 Datensatz laden
    • 18.8 Verfasser der Tweets
    • 18.9 Timeplot
    • 18.10 User-Informationen
    • 18.11 Geographische Verteilung
    • 18.12 Speichern des erweiterten Datensatzes
    • 18.13 Laden des erweiterten Datensatzes
    • 18.14 Zeitlicher geographischer Verlauf
    • 18.15 Lange Wörter
    • 18.16 Topwörter
    • 18.17 Netzwerke
    • 18.18 Sentiment & Emotion
    • 18.19 Sentiment (Animation)
  • References
  • Published with bookdown

Computergestützte Text- und Korpusanalyse mit R

Computergestützte Text- und Korpusanalyse mit R

Digitale Lernmaterialien für das Studienfach
Computergestütze Text- und Korpusanalyse

E-učno gradivo
za predmet Računalniško podprto delo z jezikovnim gradivom

Teodor Petrič

Oddelek za germanistiko
Filozofska fakulteta
Univerza v Mariboru

Maribor 2022