|
|
|
|
组合商品(把光标放在图片上可查看产品名称) |
|
|
|
|
商品简介 |
|
编辑推荐
深刻剖析Kaggle、阿里天池、腾讯广告算法大赛等算法竞赛内容,结合多个领域模块进行实战讲解;
《计算广告》作者刘鹏、《深度学习推荐系统》作者王喆等倾力推荐!
1.多年实战经验汇集
作者在众多竞赛平台多次获得好成绩,本书汇集了他们在竞赛圈多年的实战经验。
2.基本理论与竞赛技巧结合
本书系统的介绍了算法竞赛,包括算法竞赛的基本理论知识以及竞赛中的上分思路和技巧。
3.众多竞赛选手参与
结合国内多名竞赛选手建议,对本书结构进行细致编排,结合多个领域模块进行实战讲解,剖析竞赛本质的内容。
4.提供完整数据与代码
本书将会开源大量的获奖竞赛完整数据与代码,供读者快速上手掌握常见的实践方法与竞赛技巧。
内容简介
本书是算法竞赛领域一本系统介绍竞赛的图书,书中不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。全书分为五部分:部分以算法竞赛的通用流程为主,介绍竞赛中各个部分的核心内容和具体工作;第二部分介绍了用户画像相关的问题;第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析天池平台的全球城市计算AI 挑战赛和 Kaggle 平台的Corporación Favorita Grocery Sales Forecasting;第四部分主要介绍计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价,其中两个实战案例是2018 腾讯广告算法大赛——相似人群拓展和Kaggle 平台的TalkingData AdTracking Fraud Detection Challenge;第五部分基于自然语言处理相关的内容进行讲解,其中实战案例是Kaggle 平台上的经典竞赛Quora Question Pairs。
本书适合从事机器学习、数据挖掘和人工智能相关算法岗位的人阅读。
作者简介
王贺(鱼遇雨欲语与余)
毕业于武汉大学计算机学院,硕士学位,研究方向为图数据挖掘,现任职于小米商业算法部,从事应用商店广告推荐的研究和开发。是2019年和2020年腾讯广告算法大赛的冠军,从2018年至2020年多次参加国内外算法竞赛,共获得五次冠军和五次亚军。
刘鹏
2016年本科毕业于武汉大学数学基地班,保研至中国科学技术大学自动化系,硕士期间研究方向为复杂网络与机器学习,2018年起多次获得机器学习相关竞赛奖项,2019年至今就职于华为技术有限公司,任算法工程师。
钱乾
本科就读于美国佐治亚理工大学,研究方向包括机器学习、深度学习、自然语言处理等,现就职于数程科技,工作方向为物流领域的智能算法应用,任大数据技术负责人。
目 录
目 录
第 1 章 初见竞赛 1
1.1 竞赛平台 2
1.1.1 Kaggle 2
1.1.2 天池 6
1.1.3 DF 7
1.1.4 DC 7
1.1.5 Kesci 7
1.1.6 JDATA 8
1.1.7 企业网站 8
1.2 竞赛流程 8
……
8.4.2 LightGBM 121
8.4.3 XGBoost 124
8.5 模型融合 127
8.5.1 加权融合 127
8.5.2 Stacking 融合 127
8.6 高效提分 128
8.6.1 特征优化 128
8.6.2 融合技巧 130
8.7 赛题总结 134
8.7.1 更多方案 134
8.7.2 知识点梳理 135
8.7.3 延伸学习 135
第9 章 时间序列分析 138
9.1 介绍时间序列分析 138
9.1.1 简单定义 138
9.1.2 常见问题 139
9.1.3 交叉验证 140
9.1.4 基本规则方法 141
9.2 时间序列模式 142
9.2.1 趋势性 142
9.2.2 周期性 143
9.2.3 相关性 144
9.2.4 随机性 144
9.3 特征提取方式 144
9.3.1 历史平移 145
9.3.2 窗口统计 145
9.3.3 序列熵特征 145
9.3.4 其他特征 146
9.4 模型的多样性 146
9.4.1 传统的时序模型 147
9.4.2 树模型 147
9.4.3 深度学习模型 148
9.5 练习 150
第 10 章 实战案例:全球城市计算AI挑战赛 151
10.1 赛题理解 151
10.1.1 背景介绍 152
10.1.2 赛题数据 152
10.1.3 评价指标 153
10.1.4 赛题FAQ 153
10.1.5 baseline 方案 153
10.2 探索性数据分析 157
10.2.1 数据初探 157
10.2.2 模式分析 159
10.3 特征工程 162
10.3.1 数据预处理 162
10.3.2 强相关性特征 163
10.3.3 趋势性特征 165
10.3.4 站点相关特征 165
10.3.5 特征强化 166
10.4 模型选择 166
10.4.1 LightGBM 模型 167
10.4.2 时序模型 168
10.5 强化学习 170
10.5.1 时序stacking 170
10.5.2 Top 方案解析 171
10.5.3 相关赛题推荐 172
第 11 章 实战案例-Corporación Favorita Grocery Sales Forecasting 174
11.1 赛题理解 174
11.1.1 背景介绍 174
11.1.2 赛题数据 175
11.1.3 评价指标 175
11.1.4 赛题FAQ 176
11.1.5 baseline 方案 176
11.2 探索性数据分析 181
11.2.1 数据初探 181
11.2.2 单变量分析 184
11.2.3 多变量分析 188
11.3 特征工程 190
11.3.1 历史平移特征 191
11.3.2 窗口统计特征 192
11.3.3 构造粒度多样性 193
11.3.4 高效特征选择 194
11.4 模型选择 195
11.4.1 LightGBM 模型 196
11.4.2 LSTM 模型 196
11.4.3 Wavenet 模型 198
11.4.4 模型融合 199
11.5 赛题总结 200
11.5.1 更多方案 200
11.5.2 知识点梳理 201
11.5.2 延伸学习 202
第 12 章 计算广告 204
12.1 什么是计算广告 204
12.1.1 主要问题 205
12.1.2 计算广告系统架构 205
12.2 广告类型 207
12.2.1 合约广告 207
12.2.2 竞价广告 207
12.2.3 程序化交易广告 208
12.3 广告召回 208
12.3.1 广告召回模块 208
12.3.2 DSSM 语义召回 210
12.4 广告排序 211
12.4.1 点击率预估 211
12.4.2 特征处理 212
12.4.3 常见模型 214
12.5 广告竞价 219
12.6 小结 221
12.7 思考练习 221
第 13 章 实战案例:2018 腾讯广告算法大赛——相似人群拓展 222
13.1 赛题理解 222
13.1.1 赛题背景 223
13.1.2 赛题数据 224
13.1.3 赛题任务 226
13.1.4 评价指标 226
13.1.5 赛题FAQ 227
13.2 探索性数据分析 227
13.2.1 竞赛的公开数据集 227
13.2.2 训练集与测试集 227
13.2.3 广告属性 229
13.2.4 用户信息 229
13.2.5 数据集特征拼接 230
13.2.6 基本建模思路 232
13.3 特征工程 232
13.3.1 经典特征 232
13.3.2 业务特征 234
13.3.3 文本特征 235
13.3.4 特征降维 237
13.3.5 特征存储 238
13.4 模型训练 238
13.4.1 LightGBM 238
13.4.2 CatBoost 238
13.4.3 XGBoost 239
13.5 模型融合 239
13.5.1 加权融合 239
13.5.2 Stacking 融合 239
13.6 赛题总结 240
13.6.1 更多方案 240
13.6.2 知识点梳理 241
13.6.3 延伸学习 241
第 14 章 实战案例-TalkingData AdTracking Fraud DetectionChallenge 243
14.1 赛题理解 243
14.1.1 背景介绍 243
14.1.2 赛题数据 244
14.1.3 评价指标 244
14.1.4 赛题FAQ 244
14.1.5 baseline 方案 245
14.2 探索性数据分析 247
14.2.1 数据初探 247
14.2.2 单变量分析 249
14.2.3 多变量分析 254
14.2.4 数据分布 255
14.3 特征工程 256
14.3.1 统计特征 256
14.3.2 时间差特征 257
14.3.3 排序特征 258
14.3.4 目标编码特征 258
14.4 模型选择 259
14.4.1 LR 模型 259
14.4.2 CatBoost 模型 259
14.4.3 LightGBM 模型 260
14.4.4 DeepFM 模型 261
14.5 赛题总结 264
14.5.1 更多方案 264
14.5.2 知识点梳理 265
14.5.3 延伸学习 266
第 15 章 自然语言处理 268
15.1 自然语言处理的发展历程 268
15.2 自然语言处理的常见场景 269
15.2.1 分类、回归任务 269
15.2.2 信息检索、文本匹配等任务 269
15.2.3 序列对序列、序列标注 269
15.2.4 机器阅读 270
15.3 自然语言处理的常见技术 270
15.3.1 基于词袋模型、TF-IDF.的特征提取 270
15.3.2 N-Gram 模型 271
15.3.3 词嵌入模型 271
15.3.5 上下文相关预训练模型 272
15.3.6 常用的深度学习模型结构 274
15.4 练习 276
第 16 章 实战案例:Quora QuestionPairs 277
16.1 赛题理解 277
16.1.1 赛题背景 277
16.1.2 赛题数据 278
16.1.3 赛题任务 278
16.1.4 评价指标 278
16.1.5 赛题FAQ 278
16.2 探索性数据分析 279
16.2.1 字段类别含义 279
16.2.2 数据集基本量 279
16.2.3 文本的分布 280
16.2.4 词的数量与词云分析 282
16.2.5 基于传统手段的文本数据预处理 284
16.2.6 基于深度学习模型的文本数据预处理 284
16.3 特征工程 285
16.3.1 通用文本特征 285
16.3.2 相似度特征 287
16.3.3 词向量的进一步应用——独有词匹配 290
16.3.4 词向量的进一步应用——词与词的两两匹配 290
16.3.5 其他相似度计算方式 291
16.4 机器学习模型和模型的训练 291
16.4.1 TextCNN 模型 291
16.4.2 TextLSTM 模型 292
16.4.3 TextLSTM with Attention 模型 293
16.4.4 Self-Attention 层 295
16.4.5 Transformer 和BERT 类模型 296
16.4.6 基于 representation 和基于 interaction 的深度学习模型的差异 298
16.4.7 一种特殊的基于 interaction 的深度学习模型 303
16.4.8 深度学习文本数据的翻译增强 303
16.4.9 深度学习文本数据的预处理 304
16.4.10 BERT 模型的训练 306
16.5 模型融合 310
16.6 赛题总结 310
16.6.1 更多方案 310
16.6.2 知识点梳理 310
16.6.3 延伸学习 311
|
|
|
购买该商品的会员还购买过以下商品 |
|
暂无购买信息!
|
|
|
相似商品 |
|
|
|