Verwendung der StandardScaler()-Funktion zur Standardisierung von Python-Daten
In diesem Artikel konzentrieren wir uns auf die Verwendung einer der wichtigsten Vor-Verarbeitungstechniken in Python – die Standardisierung mit der StandardScaler()-Funktion.
Lassen Sie uns beginnen!
Notwendigkeit der Standardisierung
Bevor wir zur Standardisierung kommen, verstehen wir zuerst das Konzept des Skalierens.
Das Skalieren von Merkmalen ist ein wesentlicher Schritt beim Modellieren von Algorithmen mit Datensätzen. Die Daten, die normalerweise für das Modellieren verwendet werden, werden auf verschiedene Weise gewonnen, wie zum Beispiel:
- Fragebögen
- Umfragen
- Forschung
- Scraping usw.
Die so erhaltenen Daten enthalten Merkmale verschiedener Dimensionen und Skalen. Verschiedene Skalen der Datenmerkmale beeinflussen das Modellieren eines Datensatzes nachteilig.
Dies führt zu einer voreingenommenen Vorhersage in Bezug auf Fehlklassifizierungsfehler und Genauigkeitsraten. Daher ist es notwendig, die Daten vor dem Modellieren zu skalieren.
Das ist der Moment, in dem die Standardisierung ins Spiel kommt.
Standardisierung ist eine Skalierungstechnik, bei der die Daten skalenfrei gemacht werden, indem die statistische Verteilung der Daten in das folgende Format umgewandelt wird:
- Mittelwert – 0 (null)
- Standardabweichung – 1
Standardisierung
Mit dieser Methode werden die gesamten Datensätze auf einen Mittelwert von null und eine Einheitsvarianz skaliert.
Lassen Sie uns nun versuchen, das Konzept der Standardisierung in den nächsten Abschnitten umzusetzen.
Python sklearn StandardScaler()-Funktion
Die Python sklearn-Bibliothek bietet uns die StandardScaler()-Funktion, um die Datenwerte in ein Standardformat zu standardisieren.
Syntax:
object = StandardScaler()
object.fit_transform(data)
Nach der obigen Syntax erstellen wir zunächst ein Objekt der StandardScaler()-Funktion. Anschließend verwenden wir fit_transform() zusammen mit dem zugewiesenen Objekt, um die Daten zu transformieren und zu standardisieren.
Hinweis: Die Standardisierung ist nur auf Datenwerte anwendbar, die einer Normalverteilung folgen.
Standardisierung von Daten mit der StandardScaler()-Funktion
Sehen Sie sich das folgende Beispiel an!
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
dataset = load_iris()
object= StandardScaler()
# Aufteilen der unabhängigen und abhängigen Variablen
i_data = dataset.data
response = dataset.target
# Standardisierung
scale = object.fit_transform(i_data)
print(scale)
Erklärung:
- Importieren Sie die erforderlichen Bibliotheken. Wir haben die Sklearn-Bibliothek importiert, um die Funktion StandardScaler zu verwenden.
- Laden Sie den Datensatz. Hier haben wir den IRIS-Datensatz aus der sklearn.datasets-Bibliothek verwendet.
- Setzen Sie ein Objekt auf die Funktion StandardScaler().
- Trennen Sie die unabhängigen und die Zielvariablen wie oben dargestellt.
- Wenden Sie die Funktion mit der Funktion fit_transform() auf den Datensatz an.
StandardScaler() Funktion für Python-Daten: Wie anwenden?