In Teil II meiner Serie über Pressemitteilungen, die von der Polizeidirektion Leipzig anlässlich der Demonstrationen der fremdenfeindlichen LEGIDA-Bewegung veröffentlicht wurden, zeige ich heute, welche Worte in diesen Berichten am häufigsten verwendet werden.
## Warning in readChar(con, 5L, useBytes = TRUE): kann komprimierte Datei 'C:/ ## ProgrammeNK/GDrive/Projects/R/Polizeiberichte/Legida.RData' nicht öffnen. ## Grund evtl. 'Datei oder Verzeichnis nicht gefunden'
## Error in readChar(con, 5L, useBytes = TRUE): kann Verbindung nicht öffnen
Die Auszählung von Worthäfigkeiten bezieht sich dabei (fast) nur auf bedeutungstragende Worte. Sogenannte Stopwords wurden von der Analyse ausgeschlossen. Die verwendete Stopwords-Liste findet sich unter dem folgenden Link zum Download.
library(ggplot2)
plt.words <- ggplot(df.words, aes(interval, freq, fill = 500 - freq)) +
geom_bar(stat="identity", position="dodge", width = 0.75) +
scale_size_area() +
scale_y_continuous('', limits=c(0, max(df.words$freq)+10), breaks = seq(0, max(df.words$freq)+10, by = 20)) +
scale_x_discrete('') +
theme(legend.position="none") +
coord_flip() +
ggtitle("Häufigste Wortnennungen") +
geom_text(aes(label = paste0(percent, '%'), ymax = 0), size = 3, fontface=2,
hjust = -0.5, vjust = 0.2)
plt.words
Mit dem wordcloud-Paket lässt sich das Ganze auch als Wordcloud darstellen.
colfunc <- colorRampPalette(c("blue", "red"))
set.seed(4)
par(mar = c(0, 0, 0, 0))
wordcloud::wordcloud(txt.wc,
scale=c(3,.3),
min.freq=3,
max.words=150,
random.order=FALSE,
colors = colfunc(200))
Schaut man sich die Auszählung der Worthäufigkeiten an, so ist erkennbar, dass es in den polizeilichen Pressemitteilungen häufig um eine zeitliche und r?umliche Einordnung des Geschehens geht. So werden zum einen sehr oft Uhrzeiten berichtet (vgl.). Zum anderen lässt sich erkennen, dass vor allem der Richard-Wagner-Platz, der Augustusplatz sowie der Leipziger Hauptbahnhof zentrale Örtlichkeiten der LEGIDA-Demonstartionen sind.