Mineria de maga dato

El mineria de maga dato es el proceso de extraccion y descubrimiento de maga patron na maga gran conjunto de maga dato que ta involucra con maga metodo al interseccion del automatico aprendizaje, el estadistica y el maga sistema de maga base de maga dato. El mineria de maga dato es un interdisciplinario subcampo del ciencia del computacion y el estadistica con el general objetivo de extrae con informacion (con maga inteligente metodo) de un conjunto de maga dato y transforma con el informacion na un comprensible estructura para posterior uso. El mineria de maga dato es el paso de analisis del proceso de "descubrimiento de conocimiento na maga base de maga dato" (KDD, English: knowledge discovery in databases) Ademas del paso del crudo analisis, tambien ta involucra ele con maga aspecto del gestion de maga base de dato y del maga dato mismo, el preprocesamiento de maga dato, maga consideracion de maga probabilistico modelo e inferencial estadistica, maga metrico de interes, maga consideracion de complejidad, el posprocesamiento del maga estructura ansina descubierto, el visualizacion y el actualizacion na linea.

El termino "mineria de maga dato" es un equivocao nombre, kay el meta es el extraccion de maga patron y conocimiento a partir de maga gran cantidad de maga dato, hinde el extraccion (mineria) de maga dato mismo. Tambien ele un palabra de moda y frecuentemente aplicao a cualquier forma de procesamiento de maga dato a gran escala o de informacion (recopilacion, extraccion, almacenamiento, analisis y estadistica) ansina como cualquier aplicacion de un sistema de soporte a maga decision, incluio el artificial inteligencia (p.ej. el automatico aprendizaje) y el empresarial inteligencia. Na manada situacion, mas apropriao el maga mas general termino analisis de maga dato y analisis (a gran escala) — o, al referi al maga metodo mismo, artificial inteligencia y automatico aprendizaje.

Con el maga preliminar resuelto, el tarea del mineria de maga dato, propiamente dicho, es el semiautomatico o automatico analisis de maga grand cantidad de maga dato para extrae con maga interesante y previamente desconocio patron, como maga grupo de maga registro de maga dato (analisis de maga grupo), maga atipico registro (deteccion de maga anomalia) y maga acoplamiento (maga regla de asociacion, mineria de maga secuencia). Usualmente ta involucra esto con maga tecnica de maga base de maga dato, como el maga espacial indice. Entonces considerable este maga patron como un especie de resumen del maga dato de entrada, y usable para mas analisis o, por ejemplo, na el automatico aprendizaje y el predictivo analisis. Por ejemplo, puede el etapa del mineria de maga dato identifica con multiple grupo na el maga dato, entonces utilizable para obtene con maga mas preciso resultao de prediccion mediante un sistema de soporte a maga decision. Ni el recopilacion ni el preparacion de maga dato, ni el interpretacion y presentacion de maga informe de maga resultao, son parte del etapa de mineria de maga dato, masquen gayot ellos parte del general proceso de KDD como maga adicional paso.

El diferencia entre el analisis de maga dato y el mineria de maga dato es que usao el analisis de maga dato para proba con maga modelo y maga hipotesis na el conjunto de maga dato, p.ej., analiza con el efectividad de un campaña de mercadotecnia, independientemente del cantidad de maga dato. Por el contrario, ta utiliza el mineria de datos con el automatico aprendizaje y el maga probabilistico modelo para descubri con maga clandestino u oculto patron na un gran volumen de maga dato.

Na cuanto al maga relacionao termino dragado de maga dato, pesca de maga dato y fisgoneo de maga dato (maga sinonimo el tres maga termino), ta referi este maga termino al uso (o posible abuso) de maga metodo de mineria de maga dato para muestrea con un chico parte de un mas grande poblacion, cuyo muestreo puede demasiao chico para permiti con maga confiable estadistico inferencia sobre el validez de cualquier patron descubierto. Usable gayot, sin embargo, este maga metodo para el creacion de maga nuevo hipotesis para proba contra el mas grande poblacion de maga dato (con un muestreo de apropriao tamaño).

Etimologia

revisa

Na el decada de 1960, ya usa el maga estadistico y maga economista con tal maga termino como pesca de maga dato o dragado de maga dato para referi a lo que ya considera como el mal practica de analiza con maga dato sin un hipotesis a priori. Ya usa el economista si Michael C. Lovell con el termino "mineria de maga dato" de un igualmente critico modo na un articulo publicao na The Review of Economic Studies na 1983. Ya indica si Lovell que "Enmascarao [el practica] bajo un variedad de maga alias, desde 'experimentacion' (positivo) hasta 'pesca' o 'fisgoneo' (negativo)." (English: [the practice] masquerades under a variety of aliases, ranging from "experimentation" (positive) to "fishing" or "snooping" (negative).)

Ya aparece el termino mineria de maga dato alrededor de 1990 na el comunidad de maga base de maga dato, por lo general con maga positivo conotacion. Brevemente na el decada de 1980, ya usa ellos con el termino "mineria de maga base de dato" (Error de Lua en Módulo:Unicode_data en la línea 468: attempt to index field 'scripts' (a boolean value).), pero debio a que fue un registrao marca de HNC, un compañia basao na San Diego, para promociona con el de suyo Database Mining Workstation, consiguientemente ya cambia el maga investigador a "mineria de maga dato" (English: data mining). Entre otro maga termino usao hay arqueologia de maga dato (data archaeology), cosecha de informacion (information harvesting), descubrimiento de informacion (information discovery), extraccion de conocimiento (knowledge extraction), etc. Ya acuña si Gregory Piatetsky-Shapiro con el termino descubrimiento de conocimiento na maga base de maga dato (knowledge discovery in databases) para el primer seminario sobre el mismo tema (KDD-1989) y ya queda mas popular este termino na el maga comunidad de AI y AA. Sin embargo, ya queda mas popular el termino mineria de maga dato entre el maga empresarial y periodistico comunidad. Actualmente, usao intercambiablemente el maga termino mineria de maga dato y descubrimiento de conocimiento.

Durante mucho siglo ya ocurri el manual extraccion de maga patron de maga dato. Entre el maga primero metodo para identifica con maga patron na maga dato, hay el teorema de si Bayes (aca-18 siglo) y el analisis del regresion (aca-19 siglo). Gracias al proliferacion, ubicuidad y creciente poder del informatico tecnologia, ya aumenta dramaticamente el capacidad de recopilacion, almacenamiento y manipulacion de maga dato.

Debio a que cada vez mas grande y complejo el maga conjunto de maga dato, cada vez mas hay que aumenta con el directo, practico analisis de maga dato mediante el indirecto y automatizado procesamiento de maga datos, al de suyo vez ayudao por otro maga descubrimiento na el maga ciencia del computacion, especialmente na el campo del automatico aprendizaje, como el maga artificial neuronal red, el analisis de maga grupo y el maga genetico algoritmo (decada de 1950), el aprendizaje basado na maga pono de decision y maga regla de decision (decada de 1960), y el maga maquina de maga vector de soporte (decada de 1990).

El mineria de maga dato es el proceso de aplicacion de este maga metodo con el intencion de descubri con maga oculto patron na maga gran conjunto de maga dato. Ta cerra ele con el brecha —desde el aplicao estadistica y el artificial inteligencia (que usualmente ta proporciona con el maga matematico antecedente) hasta el gestion de maga base de maga dato— Explotando con el forma na el que almacenao e indexao el maga los datos (na maga base de maga dato) para ejecuta mas eficazmente con el maga algoritmo mismo de aprendizaje y descubrimiento, cosa permite con el aplicacion de maga dicho metodo a maga cada vez mas grande conjunto de maga dato.

Proceso

revisa

Comunmente definio el proceso KDD (descubrimiento de conocimiento na maga base de maga dato, English: knowledge discovery in databases) na cinco maga etapa:

  1. Seleccion
  2. Preprocesamiento
  3. Transformacion
  4. Mineria de maga dato
  5. Interpretacion / Evaluacion

Ta existi, sin embargo, manada variacion na este tema, como el proceso CRISP-DM, que ta defini con seis maga fase:

  1. Entendimiento del empresa
  2. Entendimiento del maga dato
  3. Preparacion del maga dato
  4. Modelao
  5. Evaluacion
  6. Implantacion

o un simplificao proceso como (1) Preprocesamiento, (2) Minerai de maga dato y (3) Validacion del maga Resultao.

Ta mostra cuanto encuesta (na 2002, 2004, 2007 and 2014) que el metodologia CRISP-DM es el metodologia lider usao por maga minero de maga dato.

El unico otro estandar de mineria de maga dato nombrao na este maga encuesta fue SEMMA. Sin embargo, ya informa de 3 a 4 maga vez mas gente con el uso de CRISP-DM. Ya publica cuanto equipo de maga investigador con maga revision de maga modelo de maga proceso de mineria de maga datos, y ya realiza si Azevedo y si Santos con un comparacion de CRISP-DM y SEMMA na 2008.

Preprocesamiento

revisa

Antes de usa con maga algoritmo de mineria de maga dato, hay que asamblea con un conjunto de maga dato de destino. Debio a que puede el mineria de maga dato descubri lang con maga patron realmente presente na el maga dato, debe queda el conjunto de maga dato de destino bastante grande para contene con este maga patron, masquen bastante conciso para permiti un extraccion dentro de un aceptable limite de tiempo. Un comun fuente para maga dato es un data mart o un almacen de maga dato. Esencial el preprocesamiento para analiza con el maga multivariante conjunto de maga dato, antes del mineria de este maga. Entonces limpiao el conjunto de maga dato de destino. Ta remove el limpieza de maga dato con el maga observacion que ta contene con estadistico ruido o con maga faltante valor.

Mineria de maga dato

revisa

Ta involucra el mineria de maga dato con seis maga comun clase de maga tarea:

  • Deteccion de maga anomalia – El identificacion de maga registro de maga inusual dato, baka interesante, o maga error de maga dato que ta requeri con un mas profundo investigacion kay ele fuera del estandar rango.
  • Maga regla de asociacion – Ta busca ele con maga relacion entre maga variable. Por ejemplo, puede un supermercado recopila con maga dato sobre el maga habito de compra del maga cliente. Mediante maga regla de asociacion, puede el supermercado determina cual maga producto comprao junto con frecuencia y utiliza con este informacion con maga fin de mercadotecnia.
  • Analisis de maga grupo – El descubrimiento de maga grupo y maga estructura na el maga dato que son de un forma u otro "similar", sin utiliza con maga conocio estructura na el maga dato.
  • Estadistico clasificacion – El generalizacion de maga conocio estructura a maga nuevo dato. Por ejemplo, puede un programa de electronico correo intenta clasifica con un electronico correo como "legitimo" o como "spam".
  • Analisis del regresion – Ta busca ele con un funcion que ta modela con el maga dato con el menor error posible, es deci, un funcion que ta estima con el maga relacion entre maga dato o maga conjunto de maga dato.
  • Automatico resumen – Ta provee ele con un mas compacto representacion del conjunto de maga dato, incluio el visualizacion y el generacion de maga informe.

Validacion de maga resultao

revisa
 
Un ejemplo de maga dato producio por el dragado de maga dato mediante un bot operao por el estadistico si Tyler Vigen, que parece mostra con un estrecho vinculo entre (a) el mejor palabra que ta gana con un concurso de ortografia y (b) el numero de maga persona na el maga Estados Unidos matao por maga venenoso araña.

Puede involuntariamente abusao el mineria de maga dato, produciendo con maga resultao que ta parece significativo, pero que na realidad hinde ta predeci con el futuro comportamiento, y que hinde reproducible na un nuevo muestra de maga dato, ansina que ta tene con poco utilidad. Tiene vez el causa es el investigacion de demasiao hipotesis sin realiza con un adecuao contraste de hipotesis. Un simple version de este problema na el automatico aprendizaje es el sobreajuste, masquen puede el mismo problema surgi a maga diferente fase del proceso, ansina que puede un division entre el entrenamiento y el prueba —si aplicable na absoluto— insuficiente para evita con tal ocurrencia.

El paso final del descubrimiento de conocimiento a partir del maga dato es verifica que ta ocurri gayot el maga patron, producio por un algoritmo de mineria de maga dato, na el mas amplio conjunto de maga dato. Hinde necesariamente valido el maga patron incuntrao por el algoritmo. Llamao tal problema sobreajuste. Para supera con esto, ta usa el evaluacion con un conjunto de prueba na el que hinde entrenao el algoritmo. Aplicao el maga aprendio patron a este conjunto de prueba, y comparao el resultante salida al deseao salida. Por ejemplo, para un algoritmo de mineria de maga dato tratando de distingui entre maga "spam" y "legitimo" electronico correo, proporcionao a este un conjunto de entrenamiento de maga e-correo de muestra. Una vez entrenao el algoritmo, aplicao el maga aprendio patron al conjunto de prueba de maga e-correo para que hinde entrenao el algoritmo. Entonces medible el precision del maga patron, na funcion del cantidad de maga e-correo clasificao correctamente. Utilizable cuanto estadistico metodo para evalua con el algoritmo, como maga curva ROC.

Si hinde ta cumpli el maga aprendio patron con el maga deseao estandar, hay que volve a evalua y cambia con el maga paso de preprocesamiento y mineria de maga dato. Si ta cumpli gayot el maga aprendio patron con el maga deseao estandar, entonces el ultimo paso es interpreta con el maga aprendio patron y converti con ellos na conocimiento.

Mira tambien

revisa
Maga metodo
Maga dominio de aplicacion
Maga ejemplo de aplicacion
Maga relacionao tema

Para mas informacion sobre el extraccion de informacion del maga dato (na lugar del analisis del maga dato), mira:

Otro maga recurso