内容简介
本书基于经典统计学的知识体系,结合数据科学的应用经验,使用历史经典故事、网络热点事件、行业真实案例等素材进行介绍,聚焦于科学思维的训练,并对应到具体的理论和技术点,能够帮助读者轻松掌握各种分析方法的背景和思想,并能快速地将相关知识应用到实际的工作中去。本书深入浅出,所举例子通俗有趣,有助于读者理解人工智能时代的思维模式,应对这迅速变化的世界。
目 录
第1 章 统计与科学1
1.1 随机的世界 2
1.1.1 打台球的物理学家,确定、不确定与随机2
1.1.2 上帝掷骰子吗,决定论与随机性4
1.1.3 连环杀手的归案,随机与均匀 6
1.1.4 扔硬币的数学家们,大数定律9
1.2 认识概率 11
1.2.1 游戏奖金的分配,概率论的发展 11
1.2.2 6 连号和14 连号,概率的计算 13
1.2.3 主持人背后的山羊,条件概率 16
1.2.4 寻找失踪的核潜艇,贝叶斯概率18
1.3 统计思想和模型 20
1.3.1 女士品茶,假设检验 20
1.3.2 “渣男”去死,最大似然 23
1.3.3 六西格玛的奇迹,小概率 25
1.3.4 牛顿的苹果,模型拟合27
1.4 统计与科学 29
1.4.1 智多星与神机军师,统计预测29
1.4.2 深蓝与阿尔法狗,归纳和演绎 31
1.4.3 中药与西药,临床试验33
1.4.4 所有模型都是错的,科学和否定 36
第2 章 数据与数学38
2.1 数据与空间 39
2.1.1 多维世界的虫子,坐标和向量 39
2.1.2 黑客帝国和变形金刚,矩阵简介 42
2.1.3 九章算术与线性方程,线性方程组 45
2.1.4 二十八宿与黄道十二宫,线性变换 48
2.2 随机变量和分布 51
2.2.1 伯努利的硬币,随机分布 51
2.2.2 相亲多少次与神奇的37,离散型分布 54
2.2.3 棣莫弗的正态,连续型分布 56
2.2.4 醉鬼的步伐,随机过程 58
2.3 认识数据 59
2.3.1 忒修斯之船,数据、测量与变量 59
2.3.2 从性别到体重,数据的尺度 61
2.3.3 周岁与虚岁,连续变量与离散变量 63
2.3.4 一份体检记录,数据分析的基本数据结构 65
2.4 数理统计基础 66
2.4.1 管中窥豹与一叶知秋,总体和样本 66
2.4.2 恶赌鬼的诡计,数字特征 68
2.4.3 被平均的工资,统计量 70
2.4.4 小李飞刀与孔雀翎,参数估计 72
第3 章 数据可视化76
3.1 历史上的统计图形 77
3.1.1 河图与洛书,可视化简介 77
3.1.2 伦敦霍乱的防治,空间可视化 78
3.1.3 南丁格尔的玫瑰,玫瑰花瓣图 79
3.1.4 拿破仑远征,自定义统计图形 81
3.2 数据与可视化 83
3.2.1 女王的裙子,数据可视化83
3.2.2 画布与宣纸,图形设备 84
3.2.3 深水王子与针眼画师,绘图语言的变迁 86
3.2.4 “挑战者”号航天飞机,直观的可视化 88
3.3 基础统计图形 90
3.3.1 老忠实喷泉的秘密,分布图 90
3.3.2 统计图形的奠基人,条形图和饼图 91
3.3.3 古老国度的诗云,坐标变换 93
3.3.4 飞翔的动态气泡图,动态可视化 95
3.4 数据之间的关系 97
3.4.1 东上相的轨道,散点图 97
3.4.2 五十州的最高峰,箱线图 99
3.4.3 泰坦尼克号的幸存者,马赛克图 100
3.4.4 切尔诺夫的笑脸,样本关系的可视化 102
第4 章 模型与方法104
4.1 常用统计模型 105
4.1.1 穿杨与射雕,回归模型 105
4.1.2 降维攻击,主成分分析 108
4.1.3 顾客就是上帝,路径模型110
4.1.4 股票的走势,时间序列114
4.2 机器学习 116
4.2.1 啤酒和尿布的传说,关联规则 116
4.2.2 寻找“白富美” ,聚类分析118
4.2.3 宁可错杀与绝不放过,分类效果评估121
4.2.4 树木与森林,常用分类算法124
4.3 人工智能 128
4.3.1 人工智能的三起两落,AI 发展史128
4.3.2 深度学习的前生今世,深度学习简史 130
4.3.3 神秘的神经,神经网络简介 132
4.3.4 美丽的滤镜,卷积神经网络与深度学习135
4.4 其他分析方法 139
4.4.1 茶、酒与百事可乐,随机试验方法 139
4.4.2 蒙特卡罗和原子弹,蒙特卡罗方法142
4.4.3 医生的笔迹,文本分析 143
4.4.4 沙漠里的飞碟,最优化方法 146
第5 章 大数据时代 149
5.1 技术的变迁 150
5.1.1 统计学的滥觞统计学简介150
5.1.2 信息时代的来临计算机科学简介151
5.1.3 数据挖掘和商业智能,商业智能简介153
5.1.4 大数据时代新纪元,大数据简介154
5.2 分析工具 156
5.2.1 谁说菜鸟不会数据分析Excel 简介156
5.2.2 群雄逐鹿的分析软件统计软件和BI 系统158
5.2.3 全栈工程师的最爱,Python 简介160
5.2.4 本书作者最爱的R ,R语言简介162
5.3 计算框架 164
5.3.1 冰箱里的大象,可扩容的数据分析164
5.3.2 将兵与将将,并行计算 165
5.3.3 电老虎和电蚂蚁,大型机和云计算 167
5.3.4 摩尔定律的未来GPU ,计算框架170
5.4 大数据行业应用 172
5.4.1 互联网的兴起,互联网概览 172
5.4.2 流量的起点,搜索引擎173
5.4.3 收入的来源,精准广告 175
5.4.4 猜你喜欢和投其所好,推荐系统 177
第6 章 数据的陷阱180
6.1 一叶障目 181
6.1.1 神奇的天蝎座,规律的背后 181
6.1.2 赢家的诅咒,悖论与分布182
6.1.3 打飞机的油价,选择性关注184
6.1.4 和女神的缘分,频率与巧合 185
6.2 相关与因果 187
6.2.1 芳华与热饮,遗漏的关键变量187
6.2.2 热帖的秘密,不存在的相关 188
6.2.3 雪与火的城市,地理决定的因果 189
6.2.4 名字很重要吗,背后的关键因素 190
6.3 样本和调查192
6.3.1 测不准的美国大选,选择性抽样 192
6.3.2 不对称的杜蕾斯,数据无反应偏差194
6.3.3 幸运儿的传奇,幸存者偏差195
6.3.4 哈佛校长的辞职,样本方差的影响197
6.4 图形的误导 198
6.4.1 收入的变化,被掩盖的数据 198
6.4.2 收费站与汽车站,视觉的误区200
6.4.3 东莞的逃亡,隐含信息的误导201
6.4.4 有毒的拟合,图形与模型203
参考文献207
索引211