数据是指对客观事件进行记录并可以鉴别的符号,是信息的表现形式和载体。据所指代的并不仅是狭义上的数字,还可以包括符号、文字、语音、图形和视频等。
在计算机科学中数据是指所有能输入到计算机中并被计算机程序处理的符号和介质的总称。数据经过加工后就成为信息。
1.按照数据性质分类
2.按照数据产生方式分类
3.按照数据表现形式分类
4.按照数据的内容分类
5.按照数据的内容分类
数据的属性:
数据的属性是指数据在某方面的特征,我们根据属性的性质将属性分为四种类型:
数据集:
数据集是待处理的数据对象的集合,在数据挖掘领域,数据集有三个重要的特性:维度、稀疏性和分辨率:
数据质量问题:现实世界的数据一般是含噪声的、不完整的、不一致的,是“肮脏的”。
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
意义:
数据清洗(Data cleaning),就是按照一定的规则把“脏数据”“洗掉”,即填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。
通过对数据进行重新审查和校验的过程,发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值,删除重复信息、纠正存在的错误,并提供数据一致性等。
目的是提高数据质量。
数据清理一般是由计算机而不是人工完成。
业界对数据清洗的认识:数据清洗是数据仓库构建中最重要的问题。
数据清洗任务:数据清洗任务:1)空缺值处理 2)属性选择与处理 3)噪声数据处理
一、空缺值处理
二、属性选择与处理
属性的选择与处理包括统一属性编码、去除重复属性和不相关属性、合理选择关键字段等工作。去除与数据挖掘目的无关的属性值,可以大大减少数据挖掘的时间,同时保证数据挖掘的结果。
三、噪声数据处理
噪声:噪声:一个测量变量中的随机错误或偏差。噪声数据本身含有偏差和孤立点,可能会导致错误的数据分析结果。
分箱(binning):通过考察周围的值来平滑存储数据的值,存储的值被分布到一些“桶”或箱中。
分箱目的是对各个箱子中的数据进行处理,完成了分箱之后,就需要采用一种方法对数据进行平滑,使得箱中的数据更接近,目前通常使用的平滑方法有按平均值平滑、按边界值平滑和按中值平滑。
回归:
通过让数据适合一个函数(回归函数)来平滑数据。
一元线性回归:找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个,形如Y=aX+b。
多线性回归:是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面,Z=aX+bY+c。
聚类:
通过聚类分析检测离群点,消除噪声(离群点)
数据集成数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中。这些数据源可以包括多个数据库、数据立方体或一般文件。
由于开发部门或开发时间的不同,相关系统的数据源彼此独立、相互封闭,在将多数据库中的异构数据进行集成的过程中可能出现多种问题:在两个不同的数据库中,同一个字段可能有不同的命名、不同的字段有相同的命名、在两个不同的数据库中一个教师收入单位为千元,一个为元的单位不一致情况、在不同的数据库中数据类型不同、无关数据冗余等情况。
模式匹配
模式匹配模式匹配即整合不同数据源中的元数据。在模式匹配过程中涉及实体识别问题。
数据值冲突
不同数据源中,表示同一实体的属性值可能存在不同,可能表现在单位不统一、数值类型不统一等方面。比如在一个数据表中学生性别用“男”、“女”来表示,而在另外一张数据表中则用“F”、“M”来表示;也可能由于数据类型不统一带来的冲突。
数据冗余
冗余是指重复存在的消息,在数据挖掘领域中,也指无用的信息。一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。
有些数据冗余比较隐蔽,可以使用相关性分析方法来分析两属性之间的相似度。两属性相关性越高,则通过一个属性能映射到另外一个属性的可能性就越大,就可以选择只保留其中一个属性
其中卡方检验适用于定性数据,相关系数适用于数值属性。
数据变换是数据变换是将数据转换成适合挖掘的形式(原始数据表并不适合直接用于数据挖掘,需变换之后才能使用),主要有:
据归约数据归约的本质就是缩小数据的范围,是指在不破坏数据完整性的前提下,获得比原始数据小得多的挖掘数据集,该数据集可以得到和原始数据集相同的挖掘结果,进而减少数据挖掘所需要的时间。
数据立方体聚集
数据立方体数据立方体是数据的多维模型,由维和事实组成。维度就是数据的属性,事实是具体的数据内容。平常的认知中立方体都是三维结构,在数据挖掘领域,数据立方体可以是多维的,甚至是n维的。
维规约
维归约维归约就是对维度,即属性进行归约,去掉不相关或者相关性较低的属性,减少数据量。
通过删除不相干的属性或维,减少数据集。
属性子集选择(特征选择)找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性得到的原分布。减少出现在发现模式上的属性数目,使得模式更易于理解。
属性子集选择方法
逐步向前选择
逐步向后删除
向前选择和向后删除相结合
决策树归约
数据压缩
数据压缩数据压缩是指应用数据编码或变换,以便得到原数据的归约或“压缩”表示。
无损数据压缩技术:原数据可以由压缩数据重新构造而不丢失任何信息,所采用的压缩技术,是基于熵的编码方法。(哈夫曼编码、香农编码)
有损数据压缩技术:只能重新构造原数据的近似表示,所采用的数据压缩技术。两种流行的有效的有损数据压缩方法:(小波变换、主成分分析)
数值规约
数值归约技术数值归约技术就是用较少的数据来代替原始数据,减小数据量。
有参方法:使用一个参数模型估计数据,最后只要存储参数即可,如线性回归方法和非线性回归
无参方法:直方图、聚类、抽样
离散化与概念分层
离散化:
通过将属性域划分为区间,减少给定连续属性值的个数
区间的标号可以代替实际的数据值
离散化可以在一个属性上递归的进行
概念分层:
通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高
文章浏览阅读3.5k次。Kubernetes简介、优势、架构优势、用途、核心概念、术语、快速部署_kubernetes的优势有哪些
文章浏览阅读705次。本文简要讨论了DO-178B及DO-178C中MC/DC的定义。简而言之,DO-178B仅允许唯一原因MC/DC,DO-178C扩展了屏蔽MC/DC及短路MC/DC,大大增强了对存在耦合条件情况的适用性。_do-178c
文章浏览阅读1.1k次。给定两个均不超过9的正整数a和n,要求编写程序求a+aa+aaa++⋯+aa⋯a(n个a)之和。输入格式:输入在一行中给出不超过9的正整数a和n。输出格式:在一行中按照“s = 对应的和”的格式输出。输入样例:2 3输出样例:s = 246思路:列表解析式构建列表,再求和a,n=list(map(int, input().split())) s = sum([int(s..._pta7-4求累加和
文章浏览阅读2.8k次,点赞2次,收藏2次。Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\metya\Anaconda3\lib\site-packages\apex\__init__.py", line 4, in <module> from . import parallel File "D:\metya\Anaconda3\lib\site-packages\apex\par._module 'torch.distributed' has no attribute 'reduceop
文章浏览阅读2.4k次。oracle中单列索引和复合索引的选择以及导致索引失效一些常见情况(包含对最佳左前缀和全表扫描的描述)_oracle索引的使用和优化
文章浏览阅读458次,点赞8次,收藏11次。脚本命令恢复、备份达梦DM数据库_docker 达梦数据库 备份恢复
文章浏览阅读4k次。网络工程师、多媒体应用设计师、嵌入式系统设计师、计算机辅助设计师、电子商务设计师、信息系统监理师、数据库系统工程师、系统集成项目管理工程师、信息系统管理工程师、信息安全工程师、计算机硬件工程师、信息技术支持工程师、软件评测师、软件设计师、软件过程能力评估师。记住十大知识领域的各个过程输入输出,另一个重要原因就是,不管考试考哪一个过程,你只要记住了那个过程的流程,在读案例的时候就根据标准的流程去检查,这样能准确的知道案例的问题在哪里。(1)熟悉信息化知识和信息化技术,了解我国信息化建设的有关政策和发展规划;_软考哪个容易通过
文章浏览阅读1w次,点赞5次,收藏2次。当我们写完应用程序,先测试一下,其他的什么都没有做的时候,发现怎么都运行不了,而且还出现 Error while Launching activity这个错误,其实这个错误非常好解决,只需要在build中选择clean就可以。是不是很神奇呢!本人菜鸟一个,有什么不对的地方希望大家指出评论,大神勿喷,希望大家一起学习进步!_androidstudio运行一直显示在lanching app
文章浏览阅读1.3k次。原标题:华为nova7se乐活版和nova8se的详细对比参数对比华为nova7se乐活版和nova8se作为性价比还不错的中端机型,不少小伙伴们不知道该如何选择?那么华为nova7se乐活版和nova8se相比哪款更值得大家入手?小编为大家带来关于华为nova7se乐活版和nova8se的详细对比,欢迎查看。1、主要参数对比参数配置华为nova7SE乐活版华为nova8SE屏幕尺寸6.5英寸6...._华为nova7se可以正常使用华为钱包
文章浏览阅读95次。前言最近项目中需要用到录音的功能,借鉴了外国一位哥们的项目github.com/dkim0419/So…,搞定需求之后,花了些时间封装成一个录音的工具包,分享给大家,需要源码的 点击这里先贴个效果图给大家看一下,看看这个录音包的功能一、实现录音的 Service这个类可以说是这个包的核心了,如果理解了这个 Service,录音这一块基本就没什么问题了。录音主要是利用 MediaRecod..._mrecorder.setaudioencodingbitrate
文章浏览阅读229次。系统采用Java语言开发,数据库使用MySql,后端框架采用SSM系统一共分为3个角色,分别是游客、会员、系统管理员。游客端功能:注册、二手商品信息搜索、二手商品信息浏览、求购信息浏览、评论信息浏览。管理员端功能:登录、二手商品审核、二手商品类型管理、用户管理。_二手商城毕设
文章浏览阅读470次。原文地址:一位大牛整理的Python 资源 作者:helloworld0820zz:一位大牛整理的Python资源(2009-10-10 13:12:40)标签:杂谈 分类:Python来自http://blog.sina.com.cn/s/blog_5d236e060100ep4y.html~type=v5_one&label=rela_n_pqr插件 wow