数据挖掘(Data mining),又称数据探勘或信息挖掘,也就是所谓的KDD(knowledge-discovery in databases)从数据库中发现新的知识。通常利用统计,模式识别等手法,从大量数据中自动搜索分析,挖掘出潜在有价值的信息。
数据挖掘是由于计算机处理能力的提高,数据存储费用降低,数据量飞速增长而诞生的新的研究手法。过去的统计分析,由于数据费用昂贵,人们只能用少量的数据去 分析推测事物整体的特征。如今大量信息泛滥的时代,数据挖掘犹如沙里淘金,可以有效的从海量的数据中挖掘出过去未知的有价值的信息,因此被各个领域广泛应 用。
数据挖掘常用于市场分析,例如:亚马逊网站分析顾客购买商品的纪录,可得知购买某一书籍的顾客同时购买何种书籍,然后把此信息推荐给 新的顾客,达到促销的目的。大型超市分析顾客购买商品的纪录,可得知顾客经常同时购买何种商品,以此依据摆放商品,可方便顾客购买。对于企业分析大量的顾 客来信,可掌握顾客的潜在需要,开发新的产品。在网络领域,通过对关键词的分析,可得知最近的热门话题,人气产品,时事人物,为掌握时代的潮流提供依据。
然而,数据挖掘并不是万能的,例如:分析大量的股市信息,从结果看上去两种因素似乎有相关性,但并不代表有因果关系。单纯的分析数据而脱离了实际意义,利用偶然的巧合或毫无价值的关联性来说明问题,不能称作有效的数据挖掘。只能称作“数据挖泥”或“沙里淘沙”。