KDD vs. tiedonlouhinta
KDD (Knowledge Discovery in Databases) on tietojenkäsittelytieteiden ala, joka sisältää työkalut ja teoriat, joiden avulla ihmiset voivat poimia hyödyllistä ja aiemmin tuntematonta tietoa (eli tietoa) suurista kokoelmista digitalisoituja tietoja. KDD koostuu useista vaiheista, ja tiedonlouhinta on yksi niistä. Data Mining on tietyn algoritmin soveltaminen kuvioiden poimimiseksi tiedoista. Siitä huolimatta KDD: tä ja tiedonlouhintaa käytetään keskenään.
Mikä on KDD?
Kuten edellä mainittiin, KDD on tietojenkäsittelytieteiden ala, joka käsittelee aiemmin tuntemattomien ja mielenkiintoisten tietojen poimimista raakatiedoista. KDD on koko prosessi, jolla yritetään ymmärtää tietoja kehittämällä sopivia menetelmiä tai tekniikoita. Tämä prosessi käsittelee matalan tason tietojen kartoittamista muihin muotoihin, jotka ovat kompaktimpia, abstraktimpia ja hyödyllisempiä. Tämä saavutetaan luomalla lyhyitä raportteja, mallintamalla tietojen tuottamisprosessia ja kehittämällä ennakoivia malleja, jotka voivat ennakoida tulevia tapauksia. Tietojen räjähdysmäisen kasvun takia, erityisesti liiketoiminnan kaltaisilla aloilla, KDD: stä on tullut erittäin tärkeä prosessi muuntaa tämä suuri joukko tietoja liiketoimintatiedoksi, koska kuvioiden manuaalinen poiminta on tullut näennäisen mahdottomaksi viime vuosikymmenien aikana. Esimerkiksi,Sitä käytetään tällä hetkellä erilaisiin sovelluksiin, kuten sosiaalisten verkostojen analyysiin, petosten havaitsemiseen, tieteeseen, investointeihin, valmistukseen, televiestintään, datanpuhdistukseen, urheiluun, tiedonhakuun ja pääosin markkinointiin. KDD: tä käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka saattavat auttaa saamaan suurta voittoa ensi vuonna Wal-Martissa. Tässä prosessissa on useita vaiheita. Se alkaa kehittämällä ymmärrystä sovellusalueesta ja tavoitteesta ja luomalla sitten kohdetiedosto. Tätä seuraa tietojen puhdistus, esikäsittely, pienentäminen ja projisointi. Seuraava vaihe on tiedonlouhinnan käyttäminen (selitetty alla) mallin tunnistamiseksi. Lopuksi löydetty tieto konsolidoituu visualisoimalla ja / tai tulkitsemalla.urheilu, tiedonhaku ja suurelta osin markkinointi. KDD: tä käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka saattavat auttaa saamaan suurta voittoa ensi vuonna Wal-Martissa. Tässä prosessissa on useita vaiheita. Se alkaa kehittämällä ymmärrystä sovellusalueesta ja tavoitteesta ja luomalla sitten kohdetiedosto. Tätä seuraa tietojen puhdistus, esikäsittely, pienentäminen ja projisointi. Seuraava vaihe on tiedonlouhinnan käyttäminen (selitetty alla) mallin tunnistamiseksi. Lopuksi löydetty tieto konsolidoituu visualisoimalla ja / tai tulkitsemalla.urheilu, tiedonhaku ja suurelta osin markkinointi. KDD: tä käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka voivat auttaa saamaan suurta voittoa ensi vuonna Wal-Martissa ?. Tässä prosessissa on useita vaiheita. Se alkaa kehittämällä ymmärrystä sovellusalueesta ja tavoitteesta ja luomalla sitten kohdetiedosto. Tätä seuraa tietojen puhdistus, esikäsittely, pienentäminen ja projisointi. Seuraava vaihe on käyttää tiedonlouhintaa (selitetty alla) mallin tunnistamiseksi. Lopuksi löydetty tieto konsolidoituu visualisoimalla ja / tai tulkitsemalla. Se alkaa kehittämällä ymmärrystä sovellusalueesta ja tavoitteesta ja luomalla sitten kohdetiedosto. Tätä seuraa tietojen puhdistus, esikäsittely, pienentäminen ja projisointi. Seuraava vaihe on käyttää tiedonlouhintaa (selitetty alla) mallin tunnistamiseksi. Lopuksi löydetty tieto konsolidoituu visualisoimalla ja / tai tulkitsemalla. Se alkaa kehittämällä ymmärrystä sovellusalueesta ja tavoitteesta ja luomalla sitten kohdetiedosto. Tätä seuraa tietojen puhdistus, esikäsittely, pienentäminen ja projisointi. Seuraava vaihe on tiedonlouhinnan käyttäminen (selitetty alla) mallin tunnistamiseksi. Lopuksi löydetty tieto konsolidoituu visualisoimalla ja / tai tulkitsemalla.
Mikä on tiedonlouhinta?
Kuten edellä mainittiin, tiedonlouhinta on vain askel KDD-prosessissa. On olemassa kaksi suurta tiedonlouhintatavoitetta, jotka on määritelty sovelluksen tavoitteessa, ja ne ovat nimittäin todentamista tai löytämistä. Verifiointi varmistaa käyttäjän hypoteesin tiedoista, kun taas löytö löytää automaattisesti mielenkiintoisia malleja. Tiedonlouhintatehtäviä on neljä: ryhmittely, luokittelu, regressio ja assosiaatio (yhteenveto). Klusterointi tunnistaa samanlaiset ryhmät strukturoimattomasta tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen dataan. Regressio on toimintojen etsiminen mahdollisimman pienellä virheellä mallin tiedoissa. Ja yhdistys etsii suhteita muuttujien välillä. Sitten on valittava erityinen tiedonlouhinnan algoritmi. Tavoitteesta riippuen eri algoritmit, kuten lineaarinen regressio, logistinen regressio,päätöksentekopuut ja Naiviset Bayes voidaan valita. Sitten etsitään kiinnostavia malleja yhdessä tai useammassa esitysmuodossa. Lopuksi malleja arvioidaan joko käyttämällä ennakoivaa tarkkuutta tai ymmärrettävyyttä.
Mitä eroa on KDD: llä ja tiedonlouhinnalla?
Vaikka kahta termiä KDD ja tiedonlouhinta käytetään voimakkaasti keskenään, ne viittaavat kahteen toisiinsa liittyvään, mutta hieman erilaiseen käsitteeseen. KDD on yleinen prosessi tiedon keräämiseksi datasta, kun taas tiedonlouhinta on askel KDD-prosessissa, joka käsittelee datamallien tunnistamista. Toisin sanoen tiedonlouhinta on vain tietyn algoritmin soveltaminen, joka perustuu KDD-prosessin kokonaistavoitteeseen.