词条 | SAS统计分析与数据挖掘 |
释义 | 1. 基本信息作者:谢龙汉(作者) 出版社:电子工业出版社; 第1版 (2012年1月1日) 丛书名:工程设计与分析系列 页数:468页 ISBN:9787121148880 2. 内容简介本书基于SAS 9.2版本编写,从SAS编程出发,用案例形式介绍SAS数据挖掘在各领域的广泛应用,全书分为SAS基础篇、提高篇及应用篇,每章均给出大量分析案例。具体内容为SAS软件与数据挖掘简介,SAS编程基础,图形与报表制作,描述性分析,假设检验,回归分析,方差分析与因子分析,相关分析与对应分析,判别分析,聚类分析,生存分析,时间序列分析,以及SAS在具体数据挖掘项目中的应用等。 本书最大特点是抛弃了其他同类书籍中只说理论、缺少案例分析的弊病,全书给出大量数据挖掘分析案例,为读者展示SAS在数据整合、数据挖掘、商业智能、金融数据分析、金融风险管理等项目中的强大应用技术。 配套光盘中有实例的操作视频以及相关源程序文件。 3. 图书特色(1)实例丰富,经典实用。本书作者为某跨国金融分析公司分析员,具有丰富的统计分析、数据挖掘方面研究经验。 (2)本书实例全部配有操作视频,详细的讲解,此乃比同类SAS图书一大优点,帮助读者提高学习效率和工作效率。 4. 目 录第1章 数据挖掘概述 1 1.1 数据挖掘简介 1 1.1.1 数据挖掘的含义 1 1.1.2 数据挖掘的起源 2 1.1.3 统计学与数据挖掘 2 1.1.4 数据挖掘相关的一些问题 5 1.2 数据挖掘用途 10 1.3 数据挖掘过程 11 1.3.1 数据挖掘用户 11 1.3.2 数据挖掘工具 14 1.3.3 数据挖掘步骤 14 1.4 SAS——数据挖掘领域的领导者 15 1.5 SAS在各种商业解决方案中的应用 16 1.5.1 SAS数据挖掘技术的实现 17 1.5.2 SAS在商业领域中的应用 18 第2章 SAS模块概述 20 2.1 SAS简介 20 2.1.1 SAS的设计思想 21 2.1.2 SAS的功能 21 2.1.3 SAS的特点 22 2.2 SAS软件安装、启动与退出 22 2.2.1 SAS软件的安装 22 2.2.2 SAS软件的启动 22 2.2.3 SAS软件的退出 23 2.3 SAS界面 24 2.3.1 Explorer窗口 25 2.3.2 Editor窗口 25 2.3.3 Results窗口 26 2.3.4 Log窗口 27 2.3.5 Output窗口 27 2.4 SAS模块介绍 28 2.4.1 SAS/BASE模块 30 2.4.2 SAS/ANALYSIS模块 31 2.4.3 SAS/ASSIST模块 32 2.4.4 SAS/INSIGHT模块 34 2.4.5 SAS/EM模块 36 第3章 SAS程序设计基础 38 3.1 SAS编程基础 38 3.1.1 SAS语言基础 39 3.1.2 SAS语言构成 43 3.1.3 SAS结构化编程语句 46 3.1.4 SAS程序编写规则 48 3.2 SAS程序的数据步 49 3.2.1 DATA语句 49 3.2.2 INPUT语句 50 3.2.3 CARDS与CARDS4语句 50 3.2.4 INFILE语句 51 3.2.5 SET语句 52 3.2.6 MERGE语句 53 3.3 SAS数据步循环与转移控制 54 3.3.1 IF语句 54 3.3.2 SELECT语句 55 3.3.3 DO语句 56 3.3.4 GO TO语句 58 3.3.5 RETURN语句 59 3.3.6 CONTINUE语句与LEAVE 语句 59 3.3.7 如何跳出选择结构和循环体 59 3.4 SAS程序的过程步 60 3.4.1 SAS过程步用法 60 3.4.2 VAR与MODLE语句 60 3.4.3 ID与WHERE语句 61 3.4.4 BY与CLASS语句 61 3.4.5 OUTPUT语句 62 3.4.6 FERQ与WEIGHT语句 62 3.4.7 LABEL与FORMAT语句 62 3.5 SAS函数 63 3.5.1 数学函数 63 3.5.2 数组函数 64 3.5.3 日期时间函数 64 3.5.4 概率分布函数 65 3.5.5 分位数函数 66 3.5.6 样本统计函数 66 3.5.7 随机函数 67 第4章 数据预处理 69 4.1 数据输入 69 4.1.1 原始数据的读取 70 4.1.2 数据导入 71 4.2 数据整理 73 4.2.1 数据集选项 73 4.2.2 整理数据集 74 4.2.3 缺失值处理 84 4.2.4 UPDATE语句更新数据集 86 4.2.5 数据清洗 87 4.3 数据步变量控制 92 4.3.1 ARRAY语句 92 4.3.2 INFORMAT语句与FORMAT 语句 93 4.3.3 LABEL语句 94 4.3.4 ATTRIB语句 96 4.3.5 DROP语句与KEEP语句 97 4.3.6 RENAME语句与RETAIN 语句 97 4.4 数据修改与选择 98 4.4.1 赋值语句 98 4.4.2 累加语句 98 4.4.3 DELETE语句与LOSTCARD 语句 99 4.4.4 STOP语句与ABORT语句 100 4.4.5 WHERE语句 101 4.4.6 REMOVE语句与REPLACE 语句 101 4.4.7 MISSING语句 102 第5章 数据汇总与报表制作 103 5.1 使用过程PRINT制作报表 103 5.1.1 基本用法 104 实例5-1 PROC PRINT操作 实例 104 5.1.2 使用中文列标题 106 实例5-2 修改标题实例 107 5.1.3 标题和脚注 107 实例5-3 修改标题实例 107 5.1.4 用BY语句分组处理 108 5.2 使用过程TABULATE制作汇 总报表 109 实例5-4 汇总报表实例 110 实例5-5 绘制统计量表格 112 第6章 SAS绘图 114 6.1 GPLOT过程 114 实例6-1 GPLOT过程绘制图形 编程操作 115 6.2 GCHART过程 115 实例6-2 GCHART过程绘制 条形图 116 实例6-3 GCHART过程绘制GDP 数据的BLOCK图形 117 6.3 G3D过程 118 实例6-4 绘制二维正态分布曲面 图形 118 实例6-5 绘制 函数的三维图形 120 第7章 数据描述 123 7.1 统计图 124 7.1.1 直方图 124 实例7-1 GCHART过程绘制 直方图 124 7.1.2 条形图 126 实例7-2 GCHART过程绘制 条形图 126 7.1.3 散点图 127 实例7-3 GPLOT过程绘制散点图 128 7.1.4 饼图 129 实例7-4 GCHART过程绘制饼图 129 7.1.5 盒形图 130 实例7-5 BOXPLOT过程绘制 盒形图 131 7.1.6 茎叶图 132 实例7-6 UNIVARIATE过程绘制 茎叶图 132 7.1.7 时间序列图 133 实例7-7 TIMEPLOT过程绘制 时间序列图 133 7.2 统计量 135 7.2.1 集中趋势 135 实例7-8 利用MEAN函数求 平均数 136 7.2.2 离散程度 137 实例7-9 利用函数VAR和STD 求方差和标准差 139 7.2.3 分布状态 141 实例7-10 利用SKEWNESS 和 KURTOSIS函数求偏度 和峰度 142 7.3 数据分布 143 实例7-11 SAS中的部分概率分布 函数的应用 144 第8章 描述性统计分析 146 8.1 SAS编程进行统计分析 146 8.1.1 基本概念 147 8.1.2 FREQ过程 149 实例8-1 频数表的生成实例 151 实例8-2 绘制实验数据表格 153 8.1.3 MEANS过程 154 实例8-3 求平均增长率 156 实例8-4 利用MEANS过程求各种 统计量 156 8.1.4 UNIVARIATE过程 159 实例8-5 利用UNIVARIATE过程 求各种统计量 160 实例8-6 求样本的极差、上四分位 数和下四分位数 161 8.1.5 TABULATE过程 162 实例8-7 制作数据表格 162 8.2 其他描述性统计过程 165 8.2.1 产生描述性统计值的输出 文件:PROC SUMMARY 165 实例8-8 SUMMARY语句实例 165 8.2.2 统计值的图形表示:PROC CHART 166 实例8-9 绘制数据分布图形 168 实例8-10 利用CHART过程的 VBAR及HBAR命令 绘制条形图 169 8.2.3 一般制图:PROC PLOT 171 实例8-11 PLOT过程绘制图形 172 第9章 ANALYST模块 173 9.1 ANALYST模块概述 173 9.1.1 ANALYST模块简介 173 9.1.2 ANALYST菜单介绍 177 9.2 数据集的窗口操作 177 9.2.1 数据集输入 177 9.2.2 数据表修改 178 9.2.3 数据保存 180 9.3 绘制统计图 180 9.3.1 条形图 180 9.3.2 饼图 181 9.3.3 散点图 183 9.4 统计分析 184 第10章 参数估计与假设检验 187 10.1 参数估计和假设检验概述 187 10.1.1 参数估计 187 10.1.2 假设检验 189 10.2 假设检验的SAS过程 190 10.2.1 UNIVARIATE过程 190 10.2.2 MEANS过程 191 10.2.3 TTEST过程 192 10.3 不同类型的均值和方差的检验 192 10.3.1 单变量均值t检验 192 实例10-1 TTEST过程的实例数据 分析 193 实例10-2 总体均值检验 194 10.3.2 样本均数与总体均数差异的 t检验 194 实例10-3 均值的显著性差别 检验 195 10.3.3 配对资料的t检验 195 实例10-4 乳酸饮料实验数据的 配对t检验 195 实例10-5 均值有无差异的检验 197 10.3.4 两样本均数比较的t检验 198 实例10-6 均数差别的显著性 检验 198 实例10-7 数据比例的显著性 检验 198 10.4 正态性检验 200 实例10-8 样本数据的正态性检验 实例1 200 实例10-9 样本数据的正态性检验 实例2 201 第11章 方差分析与协方差分析 204 11.1 方差分析的基本原理 204 11.1.1 自由度与平方和分解 206 11.1.2 F检验 207 11.2 单因素方差分析 208 11.2.1 单因素方差分析步骤 208 11.2.2 判断与结论 210 11.2.3 ANOVA过程 210 实例11-1 分析饲料营养效果是否 有明显差异 211 实例11-2 分析不同实验室试制的 纸张光滑度有无差异 212 实例11-3 研究6种棉花种子包衣剂 对棉花生长的影响 214 11.3 双因素方差分析 216 11.3.1 只考虑主效应的多因素 方差分析 217 11.3.2 存在交互效应的多因素 方差分析 219 实例11-4 某药物对某癌细胞株增殖 影响的研究 221 11.4 协方差分析 222 实例11-5 分析三种饲料的营养价值 之间有无显著性差别 225 第12章 回归分析 230 12.1 线性回归 230 12.1.1 线性回归模型 231 12.1.2 回归方程的显著性检验 231 12.1.3 预测问题 233 12.2 REG过程 234 实例12-1 分析我国内地可支配 收入和消费性支出之间 的关系 237 实例12-2 利用多元线性回归分析 学生肺活量及有关变量 的关系 240 12.3 多项式回归 243 12.3.1 曲线回归的基本原理 243 12.3.2 RSREG过程 243 实例12-3 确定最佳经济用肥量的 多项式回归模型 244 12.4 逐步回归 246 实例12-4 人体血糖、胰岛素及生 长素的多元线性回归 关系 246 12.5 LOGISTIC回归 248 12.5.1 逻辑回归模型概述 249 12.5.2 LOGISTIC过程 250 实例12-5 对照研究单因素两暴露 水平及多暴露水平资料 的统计分析 251 12.6 非线性回归 255 12.6.1 非线性回归分析的基本 原理 255 12.6.2 NLIN过程 256 实例12-6 酵母种群增长的拟合 生长模型 257 实例12-7 最佳生长模型的LOGISTIC 拟合 259 第13章 主成分分析与因子分析 262 13.1 主成分分析 262 13.1.1 主成分分析的数学原理 263 13.1.2 用PRINCOMP过程进行 主成分分析 264 实例13-1 我国2006年经济发展 情况的主成分分析 265 13.2 因子分析 270 13.2.1 因子分析的基本原理 271 13.2.2 因子分析的基本步骤和 过程 273 13.2.3 利用FACTOR过程进行 因子分析 274 实例13-2 中国房地产经济区的 研究分析 276 13.3 主成分分析和因子分析的区别 282 第14章 相关分析和对应分析 284 14.1 相关分析 284 14.1.1 相关关系 285 14.1.2 相关图形和相关系数 286 14.1.3 简单相关分析的CORR 过程 287 实例14-1 简单相关系数的计算 288 14.2 典型相关分析 290 14.2.1 典型相关分析的基本原理 290 14.2.2 典型相关分析的CANCORR 过程 291 实例14-2 城市竞争力与基础设施的 典型相关分析 292 实例14-3 城镇居民收入和支出的 典型相关分析 298 14.3 对应分析 305 14.3.1 对应分析的基本原理 306 14.3.2 对应分析的CORRESP 过程 307 实例14-4 对应分析在市场细分中 的应用 308 第15章 判别分析 313 15.1 判别分析的基本原理 313 15.1.1 判别分析的含义 314 15.1.2 判别分析的数学模型与判别 方法 315 15.2 判别分析的SAS过程 317 15.2.1 DISCRIM过程 317 15.2.2 CANDISC过程 319 15.2.3 STEPDISC过程 319 15.3 综合实例 321 实例15-1 国内各省市农民家庭 收支情况的研究 321 实例15-2 基于判别分析法的上市 公司财务分析研究 328 第16章 聚类分析 337 16.1 聚类分析的基本原理 337 16.1.1 聚类的数学原理 338 16.1.2 SAS中的聚类过程 344 16.2 聚类分析的步骤和过程 345 16.2.1 CLUSTER过程(系统聚类 过程) 345 实例16-1 中国城镇居民消费结构的 聚类分析 346 16.2.2 FASTCLUS过程(快速聚类 过程) 351 实例16-2 聚类分析在客户定位中 的应用研究 352 16.2.3 VARCLUS过程(变量聚类 过程) 355 实例16-3 变量聚类在多指标系统 评价中的应用 357 16.2.4 TREE过程(画树状图 过程) 360 实例16-4 对全球各国信息设施的 发展情况进行聚类分析 研究 362 第17章 生存分析 365 17.1 生存分析基本概述 365 17.1.1 生存分析的基本概念 365 17.1.2 生存资料的特点 367 17.1.3 生存分析方法 368 17.2 生存分析的LIFETEST过程 369 实例17-1 生存分析在医学课题研 究中的应用 370 17.3 COX模型回归分析 373 17.3.1 COX回归模型 373 17.3.2 PHREG过程 375 实例17-2 COX模型的分析应用 376 第18章 时间序列分析 380 18.1 时间序列概述 380 18.1.1 时间序列的组成部分 381 18.1.2 时间序列的数学模型 381 18.1.3 时间序列的因素分析 382 18.1.4 随机时间序列分析 386 18.1.5 时间序列的分析步骤 388 18.2 SAS的ARIMA过程 388 18.3 综合实例 389 实例18-1 化工生产数据的时间 序列分析 389 实例18-2 国内金融及保险业每人 每月平均薪资趋势 分析 394 实例18-3 运用ARIMA过程对上证 指数日线数据进行拟合 分析 406 第19章 SAS数据挖掘应用 410 19.1 SAS数据挖掘 410 19.2 SAS数据挖掘方法论—— SEMMA 414 19.2.1 数据取样 414 19.2.2 数据探索 414 19.2.3 问题明确化、数据调整和 技术选择 415 19.2.4 模型研发 416 19.2.5 模型评估 416 19.3 数据挖掘套件SAS/EM 417 实例19-1 SAS/EM聚类分析 418 实例19-2 购物篮问题分析 423 第20章 SAS在数据预测中的应用 427 20.1 数据预测简介 427 20.1.1 数据预测 427 20.1.2 SAS中的预测分析模块 430 20.2 数据预测案例分析 430 实例20-1 国民生产总值的预测 430 实例20-2 SAS/Time Series Forecasting System 模块应用 435 第21章 SAS在金融数据分析中的 应用 439 21.1 现金流贴现分析 439 实例21-1 现金流贴现的计算 440 实例21-2 企业现金流的贴现 计算 441 实例21-3 利用金融函数compound 计算复利率 442 21.2 股票分类 442 实例21-4 利用CLUSTER过程对 股票进行聚类分析 443 21.3 资本资产定价模型(CAPM 模型) 448 实例21-5 CAPM模型实例研究 449 21.4 B-S模型期权定价 454 实例21-6 B-S期权定价的SAS 程序实现 457 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。