Die 10 besten Algorithmen im Data Mining

Entscheidungsbäume

Die Entscheidungsbaumalgorithmen bestehen aus der Organisation der Daten in konkurrierenden Wahlen, die nach einer anfänglichen Entscheidung Einflusszweige bilden. Der Baumstamm stellt die ursprüngliche Entscheidung dar und beginnt mit einer Ja- oder Nein-Frage, wie man frühstückt oder nicht. Frühstücken und nicht frühstücken würden die zwei divergierenden Zweige des Baumes sein, und jede nachfolgende Auswahl hätte ihre eigenen divergierenden Zweige, die zu einem Endpunkt führen würden.

Der K-Mittel-Algorithmus

Der K-Mittelwert-Algorithmus basiert auf der Gruppenanalyse. Versuchen Sie, die gesammelten Daten in separate "Blöcke" (Cluster) zu unterteilen, die nach gemeinsamen Merkmalen gruppiert sind.

Support-Vektor-Maschinen

Unterstützte Vektormaschinenalgorithmen nehmen Eingabedaten auf und sagen voraus, welche der beiden möglichen Kategorien die Eingabedaten enthält. Ein Beispiel wäre, die Postleitzahlen einer Gruppe von Wählern zu sammeln und vorherzusagen, ob ein Wähler ein Demokrat oder ein Republikaner ist.

Der Apriori-Algorithmus

Der Apriori-Algorithmus steuert normalerweise die Transaktionsdaten. In einem Bekleidungsgeschäft könnte der Algorithmus beispielsweise steuern, welche Hemden Kunden normalerweise zusammen kaufen.

EM-Algorithmus

Dieser Algorithmus definiert Parameter durch Analyse der Daten und sagt die Möglichkeit eines zukünftigen Ausgangs oder zufälligen Ereignisses innerhalb der Datenparameter voraus. Zum Beispiel könnte der EM-Algorithmus versuchen, den Zeitpunkt eines nächsten Ausbruchs eines Geysirs basierend auf den Zeitdaten vergangener Ausbrüche vorherzusagen.

PageRank-Algorithmus

Der PageRank-Algorithmus ist ein Basisalgorithmus für Suchmaschinen. Bewerten und schätzen Sie die Relevanz eines bestimmten Datenelements innerhalb eines großen Satzes als einzelne Website innerhalb eines größeren Satzes aller Internet-Websites.

AdaBoost-Algorithmus

Der AdaBoost-Algorithmus funktioniert innerhalb anderer Lernalgorithmen, die ein Verhalten gemäß den beobachteten Daten vorwegnehmen, so dass sie für statistische Extreme empfindlich sind. Obwohl der EM-Algorithmus aufgrund eines Geysirs, der in weniger als einer Minute zwei Ausbrüche aufweist, verzerrt werden kann, wenn er normalerweise einmal am Tag ausbricht, würde der AdaBoost-Algorithmus die Ausgabe des EM-Algorithmus durch Analysieren der Relevanz des Endes ändern.

Algorithmus für den nächsten Nachbarn k

Dieser Algorithmus erkennt Muster an der Position der Daten und ordnet sie den Daten mit einer größeren Kennung zu. Wenn Sie beispielsweise jedem geografischen Standort des Hauses ein Postamt zuweisen möchten und über einen Datensatz für jeden geografischen Standort des Hauses verfügen, weist der Algorithmus des nächsten Nachbarn k die Häuser dem nächstgelegenen Postamt entsprechend ihrer Nähe zu.

Naive Baye

Der Naive Baye-Algorithmus sagt die Ausgabe einer Identität basierend auf den Daten bekannter Beobachtungen voraus. Wenn eine Person beispielsweise 6 Fuß 6 Zoll (1, 97 m) groß ist und eine Schuhgröße von 14 trägt, könnte der Naive Baye-Algorithmus mit einer bestimmten Wahrscheinlichkeit vorhersagen, dass die Person ein Mann ist.

CART-Algorithmus

"CART" ist eine Abkürzung in englischer Sprache, die Regressions- und Klassifikationsbaumanalyse bedeutet. Wie Entscheidungsbaumanalysen ordnet es Daten nach konkurrierenden Optionen, als hätte eine Person ein Erdbeben überstanden. Im Gegensatz zu den Entscheidungsbaumalgorithmen, die nur eine Ausgabe oder eine numerische Ausgabe basierend auf der Regression klassifizieren können, kann der CART-Algorithmus beide verwenden, um die Wahrscheinlichkeit eines Ereignisses vorherzusagen.

Interessante Artikel