图书介绍
命令行中的数据科学【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

- (荷)詹森斯著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115391681
- 出版时间:2015
- 标注页数:170页
- 文件大小:17MB
- 文件页数:188页
- 主题词:数据处理
PDF下载
下载说明
命令行中的数据科学PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 简介1
1.1 概述1
1.2 数据科学就是OSEMN2
1.2.1 数据获取2
1.2.2 数据清洗2
1.2.3 数据探索3
1.2.4 数据建模3
1.2.5 数据解释3
1.3 插入的几章4
1.4 什么是命令行4
1.5 为什么用命令行做数据科学工作6
1.5.1 命令行的灵活性6
1.5.2 命令行可增强6
1.5.3 命令行可扩展7
1.5.4 命令行可扩充7
1.5.5 命令行无处不在7
1.6 一个现实用例8
1.7 延伸阅读11
第2章 入门指南13
2.1 概述13
2.2 设置数据科学工具箱13
2.2.1 步骤1:下载和安装VirtualBox14
2.2.2 步骤2:下载和安装Vagrant14
2.2.3 步骤3:下载并启动数据科学工具箱14
2.2.4 步骤4:登录(Linux和Mac OS X)16
2.2.5 步骤4:登录(微软Windows)16
2.2.6 步骤5:关闭或重启16
2.3 必要的概念和工具17
2.3.1 环境17
2.3.2 运行命令行工具18
2.3.3 五类命令行工具19
2.3.4 命令行工具的组合21
2.3.5 输入和输出重定向22
2.3.6 处理文件23
2.3.7 寻求帮助24
2.4 延伸阅读26
第3章 数据获取27
3.1 概述27
3.2 将本地文件复制到数据科学工具箱28
3.2.1 本地数据科学工具箱28
3.2.2 远程数据科学工具箱28
3.3 解压缩文件29
3.4 微软Excel电子表格的转换30
3.5 查询关系数据库32
3.6 从互联网下载33
3.7 调用Web API35
3.8 延伸阅读36
第4章 创建可重用的命令行工具37
4.1 概述38
4.2 将单行转变为shell脚本38
4.2.1 步骤1:复制和粘贴39
4.2.2 步骤2:添加执行权限40
4.2.3 步骤3:定义shebang41
4.2.4 步骤4:删除固定的输入42
4.2.5 步骤5:参数化42
4.2.6 步骤6:扩展PATH43
4.3 用Python和R创建命令行工具44
4.3.1 移植shell脚本45
4.3.2 处理来自标准输入的流数据46
4.4 延伸阅读47
第5章 数据清洗49
5.1 概述50
5.2 纯文本的常见清洗操作50
5.2.1 行过滤50
5.2.2 值提取54
5.2.3 值替换和删除55
5.3 处理CSV56
5.3.1 主体、头部和列56
5.3.2 对CSV执行SQL查询60
5.4 处理HTML/XML和JSON61
5.5 CSV的常见清洗操作65
5.5.1 列的提取和重排序65
5.5.2 行过滤66
5.5.3 列合并67
5.5.4 多个CSV文件的合并70
5.6 延伸阅读73
第6章 管理数据工作流75
6.1 概述76
6.2 Drake简介76
6.3 Drake的安装76
6.4 获取古腾堡计划中下载最多的电子书78
6.5 所有工作流都从单个步骤开始79
6.6 具体情况具体对待81
6.7 重新构建具体目标82
6.8 讨论83
6.9 延伸阅读83
第7章 数据探索85
7.1 概述85
7.2 检查数据及其属性86
7.2.1 确定有无数据头86
7.2.2 检查所有数据86
7.2.3 特征名称和数据类型87
7.2.4 唯一标识、连续变量和因子89
7.3 计算描述性统计信息90
7.3.1 使用csvstat90
7.3.2 在命令行中通过Rio使用R92
7.4 生成可视化图形95
7.4.1 介绍Gunplot和feedgnuplot95
7.4.2 介绍ggplot297
7.4.3 直方图99
7.4.4 条形图101
7.4.5 密度图102
7.4.6 箱线图103
7.4.7 散点图103
7.4.8 折线图105
7.4.9 总结106
7.5 延伸阅读106
第8章 并行管道107
8.1 概述108
8.2 串行处理108
8.2.1 对数字进行遍历108
8.2.2 对行进行遍历109
8.2.3 对文件进行遍历110
8.3 并行处理111
8.3.1 GNU Parallel介绍112
8.3.2 指定输入113
8.3.3 控制并发任务的个数114
8.3.4 记录日志和输出115
8.3.5 创建并行工具116
8.4 分布式处理117
8.4.1 获得运行中的AWS EC2实例列表117
8.4.2 在远程机器上运行命令118
8.4.3 在远程机器间分发本地数据119
8.4.4 在远程机器上处理文件120
8.5 讨论123
8.6 延伸阅读123
第9章 数据建模125
9.1 概述126
9.2 更多的酒,来吧!126
9.3 用Tapkee降维129
9.3.1 介绍Tapkee130
9.3.2 安装Tapkee130
9.3.3 线性和非线性映射130
9.4 用Weka聚类132
9.4.1 介绍Weka132
9.4.2 在命令行里改进Weka132
9.4.3 在CSV和ARFF格式之间转换136
9.4.4 比较三种聚类算法136
9.5 通过SciK it-Learn Laboratory进行回归139
9.5.1 准备数据139
9.5.2 运行实验139
9.5.3 解析结果140
9.6 用BigML分类141
9.6.1 生成均衡的训练和测试数据集141
9.6.2 调用API143
9.6.3 检查结果143
9.6.4 小结144
9.7 延伸阅读144
第10章 总结145
10.1 让我们回顾一下145
10.2 三条建议146
10.2.1 有耐心146
10.2.2 有所创新146
10.2.3 肯于实践147
10.3 接下来做什么147
10.3.1 API147
10.3.2 shell编程147
10.3.3 Python、R和SQL147
10.3.4 数据解释148
10.4 联系方式148
附录A命令行工具列表149
附录B参考文献167
作者介绍169
封面介绍169
热门推荐
- 2983830.html
- 90667.html
- 3530991.html
- 1377068.html
- 230003.html
- 2503438.html
- 3511574.html
- 2717523.html
- 3710592.html
- 2232228.html
- http://www.ickdjs.cc/book_3818168.html
- http://www.ickdjs.cc/book_2727599.html
- http://www.ickdjs.cc/book_405832.html
- http://www.ickdjs.cc/book_3850040.html
- http://www.ickdjs.cc/book_3498398.html
- http://www.ickdjs.cc/book_1323701.html
- http://www.ickdjs.cc/book_1658880.html
- http://www.ickdjs.cc/book_3092736.html
- http://www.ickdjs.cc/book_961504.html
- http://www.ickdjs.cc/book_3624098.html