请输入您要查询的百科知识:

 

词条 数据分析
释义

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。

概念

数据分析(Data Analysis

数据是事实,也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。

步骤

数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:

1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。

3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

数据分析的方法

1 列表法

将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。

2 作图法

作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。

过程实施

数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。

识别信息需求

识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

收集数据

有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:

①将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;

②明确由谁在何时何处,通过何种渠道和方法收集数据;

③记录表应便于使用;④采取有效措施,防止数据丢失和虚假数据对系统的干扰。

分析数据

分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有:

老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图;

新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图;

数据分析过程的改进

数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性:

①提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题;

②信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致,是否在产品实现过程中有效运用数据分析;

③收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;

④数据分析方法是否合理,是否将风险控制在可接受的范围;

⑤数据分析所需资源是否得到保障。

功能

数据分析主要包含下面几个功能:

1. 简单数学运算(Simple Math

2. 统计(Statistics

3. 快速傅里叶变换(FFT

4. 平滑和滤波(Smoothing and Filtering

5.基线和峰值分析(Baseline and Peak Analysis)

类型

在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。

探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。

意义

数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。

对网络营销的意义

在中国,尽管网络营销的概念很火,但网络营销的效率低于一些发达国家也是事实。无论是门户广告、搜索引擎广告,还是广告联盟,从行业平均转化率上看,都要低于国外较为成熟国家的水平。据估计,国内的Bounce rate(蹦失率,即用户只浏览第一页即离开的比例)介于90%~99%之间,而欧美的Bounce rate则是70%左右。

诚然,国内的网络营销环境处于发展之中,环境不那么尽如人意,但中国互联网络信息中心分析师孙秀秀认为,出现这种情况的很多责任在投放广告的企业方,在于对营销背后的数据分析工作的不重视,没有精确定位有效的客户群,导致大量的展示给了不相关的网民。

通常,广告投放前的数据分析可以分为两步走。第一步:描述目标群体。比如,目标群体是18~25岁,上网购物的年轻女性。第二步:描述此群体的网络活动轨迹。

也就是说,知道目标客户群上什么网站、做什么事、在什么时间地点能够找到他非常重要。实际上,论覆盖面,网络营销还远远赶不上传统媒体。2009年底中国的互联网普及率为28.9%,而同期中国电视的普及率却已经超过80%,但是,仍旧有很多有远见的企业选择网络营销。其中的一个重要原因是,网络营销的全过程都可以被追踪到,通过数据分析可以随时调整投放方式。

数据分析不仅可以在网络广告前期发挥巨大作用,在投放后期同样是调整广告方向的重要工具。比如,通过数据可以看到用户从哪里来、如何组织产品页面可以实现很好的转化率、投放广告的效率如何等等问题。基于数据分析的每一点点改变,都可以使赚钱的能力提高一点点。所以,只有称数据分析为网络营销的灵魂才能凸显数据分析的重要性。现在,是重视数据分析的时候了。

图书信息

书 名: 数据分析作 者:范金城

出版社: 科学出版社

出版时间: 2010年02月

ISBN: 9787030263728

开本: 16开

定价: 38.00 元

内容简介

《数据分析(第2版)》介绍了数据分析的基本内容与方法,其特点是既重视数据分析的基本理论与方法的介绍,又强调应用计算机软件SAS进行实际分析和计算能力的培养。主要内容有:数据描述性分析、非参数秩方法、回归分析、主成分分析与因子分析、判别分析、聚类分析,时间序列分析以及常用数据分析方法的SAS过程简介。《数据分析(第2版)》每章末附有大量实用、丰富的习题,并要求学生独立上机完成。

《数据分析(第2版)》可作为高等院校信息科学及数理统计专业的本科生教材,也可供有关专业的研究生及工程技术人员参考。

图书目录

第1章 数据描述性分析

1.1 数据的数字特征

1.1.1 均值、方差等数字特征

1.1.2 中位数、分位数、三均值与极差

1.2 数据的分布

1.2.1 直方图、经验分布函数与QQ图

1.2.2 茎叶图、箱线图及五数总括

1.2.3 正态性检验与分布拟合检验

1.3 多元数据的数字特征与相关分析

1.3.1 二元数据的数字特征及相关系数

1.3.2 多元数据的数字特征及相关矩阵

1.3.3 总体的数字特征及相关矩阵

习题

第2章 非参数秩方法

2.1 两种处理方法比较的秩检验

2.1.1 两种处理方法比较的随机化模型及秩的零分布

2.1.2 Wilcoxon秩和检验

2.1.3 总体模型的Wilcoxon秩和检验

2.1.4 Smimov检验

2.2 成对分组设计下两种处理方法的比较

2.2.1 符号检验

2.2.2 Wilcoxon符号秩检验

2.2.3 分组设计下两处理方法比较的总体模型

2.3 多种处理方法比较的Kruskal-Wallis检验

2.3.1 多种处理方法比较中秩的定义及Kruskal-Wallis统计量

2.3.2 KruskaLWallis统计量的零分布

2.4 分组设计下多种处理方法的比较

2.4.1 分组设计下秩的定义及其零分布

2.4.2Friedmsn检验

2.4.3 改进的Friedman检验

习题

第3章 回归分析

3.1 线性回归模型

3.1.1 线性回归模型及其矩阵表示

3.1.2 饧绑2的估计

3.1.3 有关的统计推断

3.2 逐步回归法

3.3 Logistic回归模型

3.3.1 线性Logistic回归模型

3.3.2 参数的最大似然估计与Newton-Raphson迭代解法

3.3.3 Logistic模型的统计推断

习题

第4章 主成分分析与因子分析

4.1 主成分分析

4.1.1 引言

4.1.2 总体主成分

4.1.3 样本主成分

4.2 因子分析

4.2.1 引言

4.2.2 正交因子模型

4.2.3 参数估计方法

4.2.4 主成分估计法的具体步骤

4.2.5 方差最大的正交旋转

4.2.6 因子得分

习题

第5章 判别分析

5.1 距离判别

5.1.1 判别分析的基本思想及意义

5.1.2 两个总体的距离判别

5.1.3 判别准则的评价

5.1.4 多个总体的距离判别

5.2 Bayes判别

5.2.1 Bayes判别的基本思想

5.2.2 两个总体的Bayes判别

5.2.3 多个总体的Bayes判别

5.2.4 逐步判别简介

习题

第6章 聚类分析

6.1 距离与相似系数

6.1.1 聚类分析的基本思想及意义

6.1.2 样品间的相似性度量——距离

6.1.3 变量间的相似性度量——相似系数

6.2 谱系聚类法

6.2.1 类间距离

6.2.2 类间距离的递推公式

6.2.3 谱系聚类法的步骤

6.2.4 变量聚类

6.3 快速聚类法

6.3.1 快速聚类法的步骤

6.3.2 用Lm距离进行快速聚类

习题

第7章 时间序列分析

7.1 平稳时间序列

7.1.1 时间序列分析及其意义

7.1.2 随机过程概念及其数字特征

7.1.3 平稳时间序列与平稳随机过程

7.1.4 平稳性检验及自协方差函数、自相关函数的估计

7.2 ARMA时间序列及其特性

7.2.1 ARMA时间序列的定义

7.2.2 ARMA序列的平稳性与可逆性

7.2.3 ARMA序列的相关特性

7.3 ARMA时间序列的建模与预报

7.3.1 ARMA序列参数的矩估计

7.3.2 ARMA序列参数的精估计

7.3.3 ARMA模型的定阶与考核

7.3.4 平稳线性最小均方预报

7.3.5 ARMA序列的预报

7.4 ARIMA序列与季节性序列

7.4.1 ARIMA序列及其预报

7.4.2 季节性序列及其预报

习题

第8章 常用数据分析方法的SAS过程简介

8.1 SAS系统简介

8.1.1 建立SAS数据集

8.1.2 利用已有的SAS数据集建立新的SAS数据集

8.1.3 SAS系统的数学运算符号及常用的SAS函数

8.1.4 逻辑语句与循环语句

8.2 常用数据分析方法的SAS过程

8.2.1 几种描述性统计分析的SAS过程

8.2.2 非参数秩方法的SAS过程

8.2.3 回归分析的SAS过程

8.2.4 主成分分析与因子分析的SAS过程

8.2.5 判别分析的SAS过程

8.2.6 聚类分析的SAS过程

8.2.7 时间序列分析的SAS过程——PROCARIMA过程

8.2.8 SAS系统的矩阵运算——PROC IML过程简介

主要参考文献

……

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/1/9 17:27:23