A 数据说明
A.1 费宇教材数据列表
- eg1.1.txt, 转为“居民收入支出.txt”。存为cityIncomeConsume数据框。
31个省的城镇居民收入与支出数据。变量:
- 地区:省
- 可支配收入
- 消费性支出
- glycemia: P.21表2-2原为eg2.1.csv,转为“血糖数据.csv”。
27个糖尿病人数据,变量:
- 病人编号
- 胆固醇: 血清总胆固醇
- 甘油
- 胰岛素:空腹胰岛素
- 血红蛋白:糖化血红蛋白
- 血糖:空腹血糖
- ceoSalary数据框: P.24 表2-5数据ex2.4.csv转为“高管年薪.csv”。
美国50家贸易公司的CEO的年薪及其他变量。变量:
- 序号
- 总年薪(千美元)
- 在职年数:在目前职位的年数
- 股票涨幅:前一年股票价格变化的百分数(单位%)
- 销售涨幅:前一年公司销售额的变化的百分数(单位%)
- MBA: 是否有MBA学位,1有0无
- carIncome数据框:
P.29 表3-1数据eg3.1.csv转为“汽车与收入.csv”。
某地区45个家庭是否拥有私家车与年收入的调查数据。变量:
- 家庭年收入:单位万元
- 拥有汽车:1有0无
- wineScore数据框: 教材P.41例4.1的数据。 10种葡萄酒有6个评分, 可做聚类分析。
- provConsume数据框: 教材P.43例4.2的数据。 2011年全国31个省级行政区的城镇居民家庭人均消费性支出的8个主要指标的数据。 可做聚类分析。
- nationHuman数据框: 教材P.45节4.4的数据。 联合国开发计划署《人文发展报告2011》给出了世界146个国家和地区的人文发展水平的8个指标。 可做聚类分析。
A.2 用到的R中数据集
- boot::cd4数据集:cd4测量值代表免疫能力,低于200是AIDS指征。 本数据集包含了20个病人基线cd4测量值(baseline)和治疗一年后的cd4值(oneyear), 单位100.
- MASS::quakes数据集:包含Fiji附近1964年来1000个震级MB>4.0的观测,变量为:
- lat, long: 纬度,经度
- depth: 震中深度
- mag: 震级
- stations: 报告此次地震的台站数
- iris数据集:Fisher著名的鸢尾花数据集,有三个种类,每种50个样品的测量值。变量:
- Sepal.Length: 花萼长度;
- Sepal.Width:花萼宽度;
- Petal.Length:花瓣长度;
- Petal.Width:花瓣宽度;
- Species:品种,取setosa, versicolor, virginica三种。
- state.x77数据集,美国50个州在1970年代的基本情况数据。变量:
- Population: 人口
- Illiteracy: 文盲比例
- Life Exp: 期望寿命
- Murder: 每十万人杀人犯罪数
- HS Grad: 高中毕业生比例
- Frost: 日最低温度在结霜点以下平均天数
- Area: 面积,平方英里
- datasets::swiss数据集,1888年瑞士的47个法语省份的人口学数据,变量:
- Fertiliy:生育力指标
- Agriculture: 男性中农业人口比例(单位:%)
- Examination: 征兵中最高分的比例(单位:%)
- Education: 征兵中primary school以上比例(单位:%)
- Catholic: 天主教比例(单位:%)
- Infant.Mortality: 出生后存活时间少于一年的比例(单位:%)
- ICSNP::LASERI数据集,223个芬兰健康受试者的32个测量指标。
其中受试者仰卧和坐起两种姿势的几种指标的差别的变量:
- HRT1T4 平均心律变化
- COT1T4 心脏输出变化
- SVRIT1T4 平均系统心血管阻力指数变化
- PWVT1T4 平均脉搏波速率变化
A.3 Zelterman(2015)教材数据列表
- JanTemp: 美国61个城市的一月最高气温。变量:
- T: 一月份最高气温(华氏度)
- Lat: 北纬度数
- Long: 西经度数
- Alt: 海拔(英尺)
- Name: 城市名
- candy数据集,38种著名糖果品牌营养数据,变量:
- Name: 品牌名
- Calories
- Fat
- Satfat
- Carbs
- Sugar
- Sodium
A.4 Härdle and Simar(2015)教材数据列表
bostonHouse: Boston房价数据。Boston的506个都市地区的观测值。 变量:
- crime: 人均犯罪率
- large: 大型住宅项目用地比例
- business: 非零售业的商业区面积
- river: 是否靠Charles River河,1有0无
- NO: 氮氧化物浓度
- rooms: 每座住宅平均房间数
- old: 1940年前建造的房主自住房比例
- employ: 到波士顿五个工作中心的加权距离
- trans: 到辐射轻轨的方便程度指数
- tax: 每万美元的财产税完全税率
- stratio: 学生老师数比
- nonblack: 设B为黑人比例,变换为 \(1000*(B-0.63)^2*I(B < 0.63)\), 代表了非黑人的比例
- low: 贫困人口百分比(单位%)
- price: 私人住宅的房价中位数(单位:千美元)
bankNotes: 瑞士银行钞票数据。
100张真钞、100张伪钞,瑞士旧1000 fran钞票的数据。 前100个记录为真钞,后100个位假钞。 各列为:
- length: 钞票长度
- left: 左侧宽度
- right: 右侧宽度
- bottom: 内侧框到下边界距离
- top: 内侧框到上边界距离
- diag: 左下到右上的对角线长
carOil: 74种汽车的油耗相关数据。13个变量:
- Price: 价钱
- Mileage: 每加仑行驶英里数
- R78:1978年检查车况,1-5级,高级车况好
- R77: 1977年检查车况
- Headroom: 头部空间(单位:英寸)
- Rear:后排座椅到前排靠背距离
- Trunk: 行李箱容积(单位:立方英寸)
- Weight: 重量(单位:磅)
- Length:长度(单位:英寸)
- Turn:转弯直径(掉头需要的空间,单位英尺)
- Displace: 排量(单位:立方英寸)
- Gear:高挡位齿轮比
- Company:厂家总部国家,1美国,2日本,3欧洲
ageIncome: 2946份调查答卷数据,变量:
- Age: 年龄
- Income: 纯收入
- TVMinutes: 每天看电视分钟数
- WorkHours: 每周工作小时数
- ComputerHours: 每周使用计算机小时数
- IllDays: 每年生病天数
- LiveArea: 居住面积平米数
- Size
- Weight