A 数据说明

A.1 费宇教材数据列表

  • eg1.1.txt, 转为“居民收入支出.txt”。存为cityIncomeConsume数据框。 31个省的城镇居民收入与支出数据。变量:
    • 地区:省
    • 可支配收入
    • 消费性支出
  • glycemia: P.21表2-2原为eg2.1.csv,转为“血糖数据.csv”。 27个糖尿病人数据,变量:
    • 病人编号
    • 胆固醇: 血清总胆固醇
    • 甘油
    • 胰岛素:空腹胰岛素
    • 血红蛋白:糖化血红蛋白
    • 血糖:空腹血糖
  • ceoSalary数据框: P.24 表2-5数据ex2.4.csv转为“高管年薪.csv”。 美国50家贸易公司的CEO的年薪及其他变量。变量:
    • 序号
    • 总年薪(千美元)
    • 在职年数:在目前职位的年数
    • 股票涨幅:前一年股票价格变化的百分数(单位%)
    • 销售涨幅:前一年公司销售额的变化的百分数(单位%)
    • MBA: 是否有MBA学位,1有0无
  • carIncome数据框: P.29 表3-1数据eg3.1.csv转为“汽车与收入.csv”。 某地区45个家庭是否拥有私家车与年收入的调查数据。变量:
    • 家庭年收入:单位万元
    • 拥有汽车:1有0无
  • wineScore数据框: 教材P.41例4.1的数据。 10种葡萄酒有6个评分, 可做聚类分析。
  • provConsume数据框: 教材P.43例4.2的数据。 2011年全国31个省级行政区的城镇居民家庭人均消费性支出的8个主要指标的数据。 可做聚类分析。
  • nationHuman数据框: 教材P.45节4.4的数据。 联合国开发计划署《人文发展报告2011》给出了世界146个国家和地区的人文发展水平的8个指标。 可做聚类分析。

A.2 用到的R中数据集

  • boot::cd4数据集:cd4测量值代表免疫能力,低于200是AIDS指征。 本数据集包含了20个病人基线cd4测量值(baseline)和治疗一年后的cd4值(oneyear), 单位100.
  • MASS::quakes数据集:包含Fiji附近1964年来1000个震级MB>4.0的观测,变量为:
    • lat, long: 纬度,经度
    • depth: 震中深度
    • mag: 震级
    • stations: 报告此次地震的台站数
  • iris数据集:Fisher著名的鸢尾花数据集,有三个种类,每种50个样品的测量值。变量:
    • Sepal.Length: 花萼长度;
    • Sepal.Width:花萼宽度;
    • Petal.Length:花瓣长度;
    • Petal.Width:花瓣宽度;
    • Species:品种,取setosa, versicolor, virginica三种。
  • state.x77数据集,美国50个州在1970年代的基本情况数据。变量:
    • Population: 人口
    • Illiteracy: 文盲比例
    • Life Exp: 期望寿命
    • Murder: 每十万人杀人犯罪数
    • HS Grad: 高中毕业生比例
    • Frost: 日最低温度在结霜点以下平均天数
    • Area: 面积,平方英里
  • datasets::swiss数据集,1888年瑞士的47个法语省份的人口学数据,变量:
    • Fertiliy:生育力指标
    • Agriculture: 男性中农业人口比例(单位:%)
    • Examination: 征兵中最高分的比例(单位:%)
    • Education: 征兵中primary school以上比例(单位:%)
    • Catholic: 天主教比例(单位:%)
    • Infant.Mortality: 出生后存活时间少于一年的比例(单位:%)
  • ICSNP::LASERI数据集,223个芬兰健康受试者的32个测量指标。 其中受试者仰卧和坐起两种姿势的几种指标的差别的变量:
    • HRT1T4 平均心律变化
    • COT1T4 心脏输出变化
    • SVRIT1T4 平均系统心血管阻力指数变化
    • PWVT1T4 平均脉搏波速率变化

A.3 Zelterman(2015)教材数据列表

  • JanTemp: 美国61个城市的一月最高气温。变量:
    • T: 一月份最高气温(华氏度)
    • Lat: 北纬度数
    • Long: 西经度数
    • Alt: 海拔(英尺)
    • Name: 城市名
  • candy数据集,38种著名糖果品牌营养数据,变量:
    • Name: 品牌名
    • Calories
    • Fat
    • Satfat
    • Carbs
    • Sugar
    • Sodium

A.4 Härdle and Simar(2015)教材数据列表

  • bostonHouse: Boston房价数据。Boston的506个都市地区的观测值。 变量:

    • crime: 人均犯罪率
    • large: 大型住宅项目用地比例
    • business: 非零售业的商业区面积
    • river: 是否靠Charles River河,1有0无
    • NO: 氮氧化物浓度
    • rooms: 每座住宅平均房间数
    • old: 1940年前建造的房主自住房比例
    • employ: 到波士顿五个工作中心的加权距离
    • trans: 到辐射轻轨的方便程度指数
    • tax: 每万美元的财产税完全税率
    • stratio: 学生老师数比
    • nonblack: 设B为黑人比例,变换为 \(1000*(B-0.63)^2*I(B < 0.63)\), 代表了非黑人的比例
    • low: 贫困人口百分比(单位%)
    • price: 私人住宅的房价中位数(单位:千美元)
  • bankNotes: 瑞士银行钞票数据。

    100张真钞、100张伪钞,瑞士旧1000 fran钞票的数据。 前100个记录为真钞,后100个位假钞。 各列为:

    • length: 钞票长度
    • left: 左侧宽度
    • right: 右侧宽度
    • bottom: 内侧框到下边界距离
    • top: 内侧框到上边界距离
    • diag: 左下到右上的对角线长
  • carOil: 74种汽车的油耗相关数据。13个变量:

    • Price: 价钱
    • Mileage: 每加仑行驶英里数
    • R78:1978年检查车况,1-5级,高级车况好
    • R77: 1977年检查车况
    • Headroom: 头部空间(单位:英寸)
    • Rear:后排座椅到前排靠背距离
    • Trunk: 行李箱容积(单位:立方英寸)
    • Weight: 重量(单位:磅)
    • Length:长度(单位:英寸)
    • Turn:转弯直径(掉头需要的空间,单位英尺)
    • Displace: 排量(单位:立方英寸)
    • Gear:高挡位齿轮比
    • Company:厂家总部国家,1美国,2日本,3欧洲
  • ageIncome: 2946份调查答卷数据,变量:

    • Age: 年龄
    • Income: 纯收入
    • TVMinutes: 每天看电视分钟数
    • WorkHours: 每周工作小时数
    • ComputerHours: 每周使用计算机小时数
    • IllDays: 每年生病天数
    • LiveArea: 居住面积平米数
    • Size
    • Weight

A.5 其它数据

  • cancer: 31为肺癌患者的放疗数据。变量:
    • id: 病人编号
    • age: 年龄
    • sex: 性别,F或M
    • type: 病理类型,腺癌或鳞癌
    • v0, v1: 放疗前和放疗后的肿瘤体积(立方厘米)