Das Beispiel basiert auf einem offenen Datensat von Newsgroup-Nachtrichten und orientiert sich an diesem offiziellen Tutorial von scikit-learn zur Textanalyse.
Wir nutzen Dokumente von mehreren Newsgroups und trainieren damit einen Classifier, der dann eine Zudordnung von neuen Texten auf eine dieser Gruppen durchführen kann. Sprich die Newsgroups stellen die Klassen/Tags dar, mit denen wir neue Texte klassifizieren. Wie nutzen einen einfachen Bag-of-Word-Ansatz in dem wir (normalisierte) Häufigkeit von Wörtern als Features nutzen.
In diesem Fall liegen die Daten noch nicht als Teil von scikit-learn
vor, es wird aber eine Funktion angeboten, mit die Daten bezogen werden
können.
from sklearn.datasets import fetch_20newsgroups
Wir legen vier Newsgroups, die wir nutzen wollen, fest.
selected_categories = ["sci.crypt", "sci.electronics", "sci.med", "sci.space"]
Wir beziehen die Trainingset- und Testsets-Dokumente.
newsgroup_posts_train = fetch_20newsgroups(
data_home="newsgroup_data",
subset='train',
categories=selected_categories,
shuffle=True, random_state=1)
newsgroup_posts_test = fetch_20newsgroups(
data_home="newsgroup_data",
subset='test',
categories=selected_categories,
shuffle=True, random_state=1)
Die Objekte, die wir erhalten, sind scikit-learn
-Bunches …
type(newsgroup_posts_train)
… und haben die üblichen Attribute von Bunches.
dir(newsgroup_posts_train)
U.a. exitiert die übliche Beschreibung des Datensets im Attribute
DESCR
, die wir uns ansehen können.
print(newsgroup_posts_train.DESCR)
Das Attribut data
enthält in diesem Fall keine Matrix, sondern
Newsgroup-Message-Texte. Ein Beispiel schauen wir uns an:
print(newsgroup_posts_train.data[6])
Die Targets sind die Newsgroup-Namen. Diese Klassen sind wie üblich
für scikit-learn
als Zahlen kodiert, die wir mittels target_names
auflösen können.
print(newsgroup_posts_train.target_names)
Für unsere Beispiel-Message:
newsgroup_posts_train.target_names[newsgroup_posts_train.target[6]]
Um die Wörter zu zählen, aber auch um Stopwörte zu entfernen und zu
Tokenisieren nutzen wir ein Objekt der
CountVectorizer-Klasse
bzw. dessen fit
-Methode
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
count_vect.fit(newsgroup_posts_train.data)
Über alle Dokumente bekommen wir die folgende Zusammenstellung der Wörter und ihre Indices (positionen im Array):
len(count_vect.get_feature_names_out())
Wir können uns ein paar Beispiele ansehen …
count_vect.get_feature_names_out()[10000:10050]
… oder sogar das counting-Dictionary mit den Wörtern und ihre Vorkommen-Anzahl betrachten (Achtung: groß!).
print(count_vect.vocabulary_)
Diese Countings müssen wir für den Klassifikator in eine Matrix transformieren:
X_train_counts = count_vect.transform(newsgroup_posts_train.data)
Die Matrix, die wir erhalten, hat folgende Maße:
X_train_counts.shape
Wir normalisieren die Wörtercoutings auf die Anzahl an Wörter im Text (Term Frequency - TF). Dazu nutzen wir eine Objekt der Klasse TfidfTransformer (schalten die idf-Normalisierung (Inverse Document Frequency) dabei ab.)
from sklearn.feature_extraction.text import TfidfTransformer
tf_transformer = TfidfTransformer(use_idf=False)
Die Normalisierung erfolgt mit den Methoden fit
und transform
.
tf_transformer.fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)
Die Matrix, die wir erhalten, hat folgende Maße:
X_train_tf.shape
Jetzt können wir einen Klassifikator erstellen. Wir Nutzen hier eine Random-Forest-Klassifikator, könnten aber auch eine andere Methode wählen.
from sklearn.ensemble import RandomForestClassifier
tf_random_forest_classifier = RandomForestClassifier()
Wie bei allen Supervised-Learning-Verfahren trainieren wir den Klassikator mit der Trainingsmatrix.
tf_random_forest_classifier.fit(X_train_tf, newsgroup_posts_train.target)
Um zu testen wie gut der Klassifikator funktioniert, prozessieren wir das Test-Set mit dem CountVectorizer-Objekt und führen die gleiche TF-Transformation durch.
X_test_counts = count_vect.transform(newsgroup_posts_test.data)
X_test_tf = tf_transformer.transform(X_test_counts)
Ein kurze Blick auf die Maße der Matrix, zeigt uns, dass die Anzahl an Spalten (Features) gleich ist wie bei der Trainingsmatrix.
X_test_counts.shape
Jetzt können wir mit der score
-Methods die Güte des Klassikators auf
dem Test-Set prüfen.
tf_random_forest_classifier.score(X_test_tf, newsgroup_posts_test.target)
Der Klassifikator scheint gut genug zu funktionieren. Wir können jetzt Listen von Dokumenten klassifizieren. Wir nehmen zwei Dokumete aus unserem Test-Set und erstellen zusätzlich ein sehr kleines eigene Dokument, das nur aus einem Satz bestehent.
docs_to_classify = [
newsgroup_posts_test.data[1],
newsgroup_posts_test.data[7],
"The sun send a lot of radiation to the planets including earth"]
Werfen wir einen kurzen Blick auf die zwei Dokumente aus dem Testset.
print(newsgroup_posts_test.data[1])
print(newsgroup_posts_test.data[7])
Auch diese neu zu klassifizierenden Dokumente müssen wir wie die Traininsdokumente in Matrizen transformieren:
X_to_classify_counts = count_vect.transform(docs_to_classify)
X_to_classify_tf = tf_transformer.transform(X_to_classify_counts)
Jetzt können wir mit dieser Matrix die Klassifikation durchführen …
predicted_classes = tf_random_forest_classifier.predict(X_to_classify_tf)
… und uns die Klassen anschauen, mit denen die Dokumente versehen wurden.
for predicted_class in predicted_classes:
print(newsgroup_posts_train.target_names[predicted_class])
Um den Klassifikator zu verbessern, testen wir statt der Term-Frequenz nun die TFIDF (Term Frequency times Inverse Document Frequency) und erstellen damit unsere Matrizen.
tfidf_transformer = TfidfTransformer(use_idf=True).fit(X_train_counts)
Mach mit diesem TFIDF-Ansatz äquivalent zu der Klassifikation mit dem TF-Ansatz weiter. D.h. führe alle nötigen Schritte wie Training, Scoring und Prediction durch. Ist das Ergebnis besser? Gerne kannst Du zusätzlich mit anderen Klassifikator-Typen anstelle von Randeom Forest experiment werden (z.B. SVMs oder neuronale Netzen), um zu testen, ob dies zu einer besseren Klassifikation führt.