Verwendung der StandardScaler()-Funktion zur Standardisierung von Python-Daten

In diesem Artikel konzentrieren wir uns auf die Verwendung einer der wichtigsten Vor-Verarbeitungstechniken in Python – die Standardisierung mit der StandardScaler()-Funktion.

Lassen Sie uns beginnen!

Notwendigkeit der Standardisierung

Bevor wir zur Standardisierung kommen, verstehen wir zuerst das Konzept des Skalierens.

Das Skalieren von Merkmalen ist ein wesentlicher Schritt beim Modellieren von Algorithmen mit Datensätzen. Die Daten, die normalerweise für das Modellieren verwendet werden, werden auf verschiedene Weise gewonnen, wie zum Beispiel:

  • Fragebögen
  • Umfragen
  • Forschung
  • Scraping usw.

Die so erhaltenen Daten enthalten Merkmale verschiedener Dimensionen und Skalen. Verschiedene Skalen der Datenmerkmale beeinflussen das Modellieren eines Datensatzes nachteilig.

Dies führt zu einer voreingenommenen Vorhersage in Bezug auf Fehlklassifizierungsfehler und Genauigkeitsraten. Daher ist es notwendig, die Daten vor dem Modellieren zu skalieren.

Das ist der Moment, in dem die Standardisierung ins Spiel kommt.

Standardisierung ist eine Skalierungstechnik, bei der die Daten skalenfrei gemacht werden, indem die statistische Verteilung der Daten in das folgende Format umgewandelt wird:

  • Mittelwert – 0 (null)
  • Standardabweichung – 1

Standardisierung

Mit dieser Methode werden die gesamten Datensätze auf einen Mittelwert von null und eine Einheitsvarianz skaliert.

Lassen Sie uns nun versuchen, das Konzept der Standardisierung in den nächsten Abschnitten umzusetzen.

Python sklearn StandardScaler()-Funktion

Die Python sklearn-Bibliothek bietet uns die StandardScaler()-Funktion, um die Datenwerte in ein Standardformat zu standardisieren.

Syntax:

object = StandardScaler()
object.fit_transform(data)

Nach der obigen Syntax erstellen wir zunächst ein Objekt der StandardScaler()-Funktion. Anschließend verwenden wir fit_transform() zusammen mit dem zugewiesenen Objekt, um die Daten zu transformieren und zu standardisieren.

Hinweis: Die Standardisierung ist nur auf Datenwerte anwendbar, die einer Normalverteilung folgen.

Standardisierung von Daten mit der StandardScaler()-Funktion

Sehen Sie sich das folgende Beispiel an!

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
 
dataset = load_iris()
object= StandardScaler()
 
# Aufteilen der unabhängigen und abhängigen Variablen
i_data = dataset.data
response = dataset.target
 
# Standardisierung 
scale = object.fit_transform(i_data) 
print(scale)

Erklärung:

  1. Importieren Sie die erforderlichen Bibliotheken. Wir haben die Sklearn-Bibliothek importiert, um die Funktion StandardScaler zu verwenden.
  2. Laden Sie den Datensatz. Hier haben wir den IRIS-Datensatz aus der sklearn.datasets-Bibliothek verwendet.
  3. Setzen Sie ein Objekt auf die Funktion StandardScaler().
  4. Trennen Sie die unabhängigen und die Zielvariablen wie oben dargestellt.
  5. Wenden Sie die Funktion mit der Funktion fit_transform() auf den Datensatz an.

StandardScaler() Funktion für Python-Daten: Wie anwenden?

Kostenlosen Account erstellen

Registrieren Sie sich jetzt und erhalten Sie Zugang zu unseren Cloud Produkten.

Das könnte Sie auch interessieren:

centron Managed Cloud Hosting in Deutschland

Dimensionsreduktion – IsoMap

Python
Dimensionsreduktion – IsoMap Content1 Einführung2 Voraussetzungen für die Dimensionsreduktion3 Warum geodätische Distanzen für Dimensionsreduktion besser sind4 Dimensionsreduktion: Schritte des IsoMap-Algorithmus5 Landmark IsoMap6 Schwächen von Isomap7 Fazit zur Dimensionsreduktion Einführung Isomap…
centron Managed Cloud Hosting in Deutschland

Was jeder ML/AI-Entwickler über ONNX wissen sollte

Python
Was jeder ML/AI-Entwickler über ONNX wissen sollte Content1 Einleitung2 ONNX Überblick3 Voraussetzungen für ML/AI-Entwickler4 ONNX in der Praxis5 Fazit für ML/AI-Entwickler Einleitung Das Open Neural Network Exchange Format (ONNX) ist…