大数据分析课程教与学（教学大纲和教案）-矿山系统工程研究所

科研文库

当前位置: 首页 >> 科研文库 >> 智能感知 >> 正文

大数据分析课程教与学（教学大纲和教案）

大数据分析课程教学大纲

【课程名称】大数据分析

【课程类型】专业必修课

【授课对象】大数据技术与应用、云计算技术与应用专业

【学时学分】周学时6，理论+上机共72学时，3学分

【课程概况】

《大数据分析》课程是大数据技术与应用、云计算技术与应用专业必修课，是计算机基础理论与应用实践相结合的课程，也是大数据专业的高核心课程，它担负着系统、全面地理解大数据，提高大数据应用技能的重任。

本课程的先修课为《Python程序设计》、《大数据导论》、《数据库设计》和《计算机网络基础》课程，要求学生掌握计算机软件范围的算法结构设计和程序设计的方法，大数据体系结构和网络技术的基本使用方法。

【课程目标】

通过本课程的学习，让学生接触并了解大数据分析的工作原理和使用方法，使学生具有Python大数据分析、设计和可视化开发的能力，具备Kettle大数据清洗和存储的基本技能，并具有较强的分析问题和解决问题的能力，为将来从事大数据相关领域的工作打下坚实的基础。

【课程内容及学时分布】

教学周	教学内容	学时
第一周	主要介绍大数据的基本原理、发展历程和大数据的特征。	2
第一周	主要介绍大数据的意义、我国的大数据市场预测和大数据的产业链分析。	2
第一周	上机实验一：大数据的环境安装与大数据的数据认识。	2
第二周	主要介绍爬虫基本概念、爬虫的地位与作用。	2
第二周	主要介绍使用Python开发的技巧1。	2
第二周	主要介绍使用Python开发的技巧2。	2
第三周	主要介绍网页结构与爬虫基本库。	2
第三周	主要介绍爬虫爬取网页的过程与实现方法。	2
第三周	上机实验二：爬虫库的使用方法并爬取图片。	2
第四周	主要介绍Scrapy爬虫的原理与工作过程。	2
第四周	主要介绍Scrapy爬虫的架构与方法。	2
第四周	上机实验三：Scrapy爬虫爬取网页内容。	2
第五周	主要介绍数据库设计原理与基本方法、MySql的基本使用方式。	2
第五周	主要介绍Python连接MySql并操作数据库。	2
第五周	上机实验四：Python操作MySql数据库。	2
第六周	主要介绍数据可视化的概念与工具	2
第六周	主要介绍数据可视化中matplotlib的基础知识	2
第六周	上机实验五：matplotlib数据可视化基础与实现	2
第七周	主要介绍存matplotlib绘制各种图形。	2
第七周	上机实验六：matplotlib可视化应用。	2
第七周	主要介绍pyecharts可视化。	2
第八周	上机实验七：pyecharts可视化应用	2
第八周	主要介绍数据存储的基础概念。	2
第八周	主要介绍数据清洗的基本概念与主要工具，数据标准化技术与实现。	2
第九周	上机实验八：数据清洗应用。	2
第九周	主要介绍数据格式与编码技术。	2
第九周	主要介绍Kettle数据清洗与转换工具的使用。	2
第十、十一周	主要介绍Kettle数据清洗与转换的使用	6
第十一、十二周	主要介绍Kettle数据抽取与数据采集的使用	4
第十二周	主要介绍pandas 数据分析与清洗	6
第十二周	综合训练：要求学生根据本课程所学的内容进行综合设计：（1）数据清洗与采集（2）数据可视化	2

【课程要求与成绩评定】

评定项目	要求	百分比
平时成绩	课堂表现、出勤、作业	60%
期末考试	上机考试	40%

【使用教材及教学参考书】

扫码，京东优惠购书

提供PPT课件，源码，大纲，教案，答案，试卷，视频

在全书中介绍了大数据概述、爬虫与大数据相关技术、Scrapy 爬虫、数据库连接与查询、数据可视化、数据存储与清洗概述、数据格式与编码技术介绍、数据抽取与采集、pandas 数据清洗。每个阶段都重点强化实训，实现了理论与实践的结合。教材中应用案例来展开知识点的讲解，对重要的、核心的知识点加大练习的比例，以达到熟练运用的目的。

福利
如果你在京东购买了本书，请将订单和评价截图发到邮itbook8@163.com，都可以免费获取额外赠送的大量视频、知识图谱、题库等资源（部分资源如下图）。

教案

课程/项目名称	大数据分析	课程			总学时：72学时理论：36学时实验：36学时
		学分		4
课程	课程类别：专业必修 ■专业必修 □ 公共必修 □公共选修
授课教师	黄源	授课专业	大数据技术与应用
授课班级
教学目的和要求	通过本课程的学习，让学生接触并了解大数据分析的工作原理和使用方法，使学生具有Python大数据分析、设计和可视化开发的能力，具备Kettle大数据清洗和存储的基本技能，并具有较强的分析问题和解决问题的能力，为将来从事大数据相关领域的工作打下坚实的基础。
教学重点、难点	教学重点：了解大数据的基本原理；熟悉Python语言，能够自行安装和使用Python扩展库；掌握Python连接MySQL、能熟练利用游标操纵数据库；掌握可视化的基本图表，能够设计可视化图表；掌握数据存储的基本概念；掌握数据清洗的基本概念；掌握数据标准化的基本概念；掌握数据编码的基本概念；掌握数据清洗的基本概念能够使用Pandas进行数据分析与清洗。教学难点：如何对Python爬虫技术进行较好的应用；能熟练利用Kettle进行数据采集、抽取与转换；掌握可视化的处理步骤；熟练掌握Pandas数据分析的方法；认识并掌握其它大数据开源工具。
教学资源	多媒体课件习题答案
	其他教学资源：《大数据分析》黄源等主编，清华大学出版社
教学环境	多媒体教学，课堂教学与学生上机实践相结合

《大数据分析》课程教案

第 1 次课 2 学时

授课内容

认识大数据

教学目的

与要求

介绍大数据的定义与特征。

通过本课的学习，学生应该掌握如下知识：

1） 大数据的定义

2） 大数据的基本原理

3） 大数据的特征

4） 大数据的历程

重点

难点

1）大数据的特征

教学进程

安排

教学导入：

介绍介绍大数据发展与特征，举例说明大数据的重要作用，逐步引入到课程的介绍内容中来。

授课内容：

一、《大数据分析》课程介绍

介绍本门课程的学科地位、考核方式、学习内容安排、可以参考的学习资料。

二、讲授大数据的定义、原理与发展

1）讲授大数据的定义

2）讲授大数据的原理

3）讲授大数据的发展历程

4讲授大数据的特征

课后学习

任务布置

尝试在自己的电脑中，自己动手查找大数据的资料

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 2 次课 2 学时

授课内容

大数据的意义

教学目的

与要求

介绍大数据的定义与特征。

通过本课的学习，学生应该掌握如下知识：

1）大数据的战略

2）大数据战略的国家层面

3）大数据战略的企业层面

重点

难点

1）大数据的战略意义

教学进程

安排

授课内容：

一、讲授大数据的战略意义

1）讲授国家层面的意义

2）讲授企业层面的意义

3）讲授个人层面的意义

二、讲授大数据的产业链

课后学习

任务布置

尝试了解大数据的产业链。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 3 次课 2 学时

授课内容

上机实验（一）

教学目的

与要求

旨在介绍大数据的安装环境，学生能够实际上机动手安装。

通过本课的学习，学生应该掌握如下知识：

1）了解大数据的安装

2）掌握数据的分类

重点

难点

1）掌握在Windows中通过安装虚拟机安装Linux系统的方法。

2）能够识别不同的数据类型。

教学进程

安排

实验内容

1）确定数据的不同类型。小明所在公司要对存储的各种类型的数据进行分类，请你帮助小明对下列数据集分类，指出其中的结构化数据，非机构化数据和半结构化数据。

2）编写XML与JSON程序并了解程序的不同。

3）为了更好的应用大数据技术，小明公司要安装Linux操作系统，请你帮助小明按照以下步骤帮他安装Linux系统。

课后学习

任务布置

课后自行在机器中安装虚拟机及装Linux系统。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第4次课 2 学时

授课内容

爬虫基础（一）

教学目的

与要求

介绍爬虫基本概念、爬虫的地位与作用：

1）掌握爬虫的基本概念。

2）掌握爬虫的作用。

3）了解爬虫的运行机制。

4）掌握Python的安装与开发环境

重点

难点

1）爬虫的原理

2）Python的安装与开发环境

教学进程

安排

授课内容：

一、认识爬虫

二、爬虫的地位与作用

三、Python3介绍

四、Python3的安装与使用

五、Python3的开发环境

课后学习

任务布置

在机器上安装Python3，熟悉开发环境

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 5 次课 2 学时

授课内容

爬虫基础（二）

教学目的

与要求

旨在介绍Python3的书写与运行。

通过本课的学习，学生应该掌握如下知识：

1）书写Python3程序

2）掌握Python3的书写风格

重点

难点

1）熟练书写并运行Python3程序

教学进程

安排

知识回顾：

如何安装Python3？以Python3为例，采用边讲授边练习的方法，开展以下内容的授课。

授课内容：

一、如何书写并运行Python3程序

二、Python3程序的风格

Python的语句很特别，它没有像其他很多语言那样把要执行的语句用成对的{}花括号包起来，而是把语句向右边缩进了，这就是 Python的风格，它是靠缩进语句来表示要执行的语句的。

三、Python3程序的注释

四、Python3程序的调试

课后学习

任务布置

书写并运行Python3

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第6次课 2 学时

授课内容

爬虫基础（三）

教学目的

与要求

旨在介绍Python3的各种数据类型及转换方式。

要求学生应该熟练掌握如下知识的运用：

1）掌握Python3中的各种数据类型

2）掌握Python3中的各种数据类型的转换

重点

难点

1）各种数据类型的掌握

2）各种数据类型的相互转换

教学进程

安排

知识回顾：

回顾上节课讲授的Python3中的程序书写。

授课内容：

一、介绍一些 Python常用的数据类型，包含整型、浮点型、布尔类型、字符串类型、列表类型、元组类型等各种不同的数据类型，同时介绍与数据类型相关的知识。

二、介绍几个跟数据类型紧密相关的函数：int()、float()和str()。int()的作用是将一个字符串或浮点数转换为一个整数。float()的作用是将一个字符串或整数转换成一个浮点数，也即是转换为小数。str()的作用是将一个数或任何其他类型转换成一个字符串。

课后学习

任务布置

书写实例将Python3中的各种数据类型进行转换，使用int()、float()和str()

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 7 次课 2 学时

授课内容

爬虫基础（四）

教学目的

与要求

爬虫主要是与网页打交道的，因此了解一些Python、Web前端与爬虫的相关知识是非常有必要的。

通过本课的学习，学生应该掌握如下知识：

1） 掌握网页结构

2） 掌握爬虫的实现方法

3）掌握Python3中爬虫模块

重点

难点

1）urllib模块的应用

2）Requests的应用

教学进程

安排

知识回顾：

如何Python3程序？以Python3为例，采用边讲授边练习的方法，开展以下内容的授课。

授课内容：

一、了解网页结构

无论我们通过浏览器打开网站、访问网页，还是通过脚本对URL网址进行访问，本质上都是对HTTP服务器的请求，浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。

二、掌握爬虫实现

三、掌握Python3中爬虫模块

urllib是URL和lib两个单词共同构成的，URL就是网页的地址，lib是library(库)的缩写。

Requests 是用Python语言编写，基于urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约开发者大量的工作，完全满足 HTTP 测试需求。

课后学习

任务布置

安装Requests库，并使用Requests库爬取网页内容

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第8次课 2 学时

授课内容

爬虫基础（五）

教学目的

与要求

旨在介绍Python3的爬虫爬取网页内容。

要求学生应该熟练掌握如下知识的运用：

1）掌握爬虫的运行原理

2）掌握网页结构

3）掌握代码的书写与调试

重点

难点

1）网页结构

2）代码的实现

教学进程

安排

知识回顾：

回顾上节课讲授的爬虫库的内容。

授课内容：

一、根据学生-课程数据库中的数据，完成下列查询：

实现对酷狗音乐网页内容的爬取

1）分析网页结构

2）分析要抓取的内容

3）抓取过程分析

4）获取页面内容

代码见书

课后学习

任务布置

复习和巩固爬虫爬取网页内容的各种方法

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 9 次课 2 学时

授课内容

上机实验（二）

教学目的

与要求

旨在通过本实验考查学生对网络爬虫的掌握情况。要求学生应该熟练掌握如下知识的运用：

1）使用Requests库来编写爬虫。

2）使用爬虫程序爬取网页壁纸

重点

难点

1） PL/SQL的有效字符集的类型

2） PL/SQL程序块的组成

教学进程

安排

实验：

（1）使用Requests库来编写爬虫爬取百度网页的数据，代码如下：

>>>import requests

>>> r=requests.get("http://www.baidu.com")

>>> r.status_code

200

>>> r.encoding='utf-8'

>>> r.text

二、分析爬虫目标，本实训目标网址是http://www.netbian.com/weimei/index.htm，目的是通过用Python语言编写爬虫下载该网站所有的壁纸图片

爬取出的图片将保存在该Python程序所存储保存的文件包中。

课后学习

任务布置

爬取网站上的页面内容并保存。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 10次课 2 学时

授课内容

Scrapy爬虫（一）

教学目的

与要求

旨在简要主要介绍Scrapy爬虫的原理与工作过程，要求学生应该掌握如下知识：

1）了解Scrapy爬虫

2）掌握Scrapy爬虫的安装

3）掌握Scrapy爬虫的架构

4）掌握Scrapy爬虫的工作过程

重点

难点

1） Scrapy爬虫的安装

2） Scrapy爬虫的架构

教学进程

安排

知识回顾：

回顾上节课讲授的Python3中的爬虫应用。

本节课进行以下内容的授课。

授课内容：

一、讲授Scrapy爬虫

Scrapy是一个使用Python语言编写的开源网络爬虫框架，是一个高级的Python爬虫框架。

二、讲授在Windows7中安装Scrapy框架

在安装Scrapy框架之前，必须依次安装twiste包、whl包、lxml包、zope.interface包、pywin32包和pyOpenSSL包。并在上述包全部安装完成后，运行命令：pip install scrapy来安装Scrapy框架。

三、讲授Scrapy框架原理

Scrapy框架由Scrapy Engine、Scheduler、Downloader、Spiders、Item Pipeline、Downloader middlewares以及Spider middlewares等几部分组成

四、讲授Scrapy框架的工作流程

课后学习

任务布置

在本机上安装Scrapy框架。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 11 次课 2 学时

授课内容

Scrapy爬虫（二）

教学目的

与要求

旨在简要介绍Scrapy爬虫的对象与Spider开发流程，要求学生应该掌握如下知识：

1）掌握Request对象

2）掌握Response对象

3）掌握Select对象

3）掌握Spider开发流程

重点

难点

1） Scrapy爬虫的对象的应用

2） Spider的开发流程

教学进程

安排

知识回顾：

回顾上节课讲授的Scrapy爬虫的基础

本节课进行以下内容的授课。

授课内容：

一、讲授Request对象和Response对象

Scrapy中的Request对象和Response对象通常用于爬取网站，通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该对象返回到发出请求的爬虫程序。

二、讲授Select对象

Scrapy的数组组织结构是Selector，它使用xpath选择器在Response中提取数据。在使用Selector对象的时候要先使用xpath或者css选择器选中页面中要提取的数据，然后进行提取。

3） 三、讲授Spider开发流程

对于大多数用户来讲，Spider是Scrapy框架中最核心的组件，Scrapy爬虫开发时通常是紧紧围绕Spider而展开的。

课后学习

任务布置

打开并查看Scrapy爬虫源代码，了解Spider的开发流程。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第12次课 2 学时

授课内容

上机实验（三）

教学目的

与要求

旨在通过本实验考查学生对Scrapy爬虫框架的掌握情况。要求学生应该熟练掌握如下知识的运用：

1）掌握Scrapy爬虫的基本框架与工作过程。

2）掌握Scrapy爬虫的运用与代码的书写。

重点

难点

1）Scrapy爬虫的运用与代码的书写

教学进程

安排

知识回顾：

回顾上节课讲授的Scrapy爬虫的基本基本知识。

本节课引导学生进行以下内容的实验练习。

实验内容：

一、创建Scrapy项目并查看结构

二、创建一个最简单的Spider爬虫

三、编写代码并运行爬虫

四、使用Scrapy框架编写爬虫访问网页

代码见书

课后学习

任务布置

应用Scrapy爬虫爬取网页，通过修改代码来运行

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 13次课2 学时

授课内容

数据库分析（一）

教学目的

与要求

主要介绍数据库设计原理与基本方法、MySql的基本使用方式。要求学生应该掌握如下知识：

1 掌握数据库模型

2）掌握MySql的安装

3）掌握MySql的基本操作

重点

难点

1）MySql的基本操作

教学进程

安排

本节课进行以下内容的授课。

授课内容：

一、讲授数据库基本概念

二、讲授数据库结构模型

数据库系统在总体结构上一般都体现为三级模式，分别是：模式、外模式和内模式。

三、讲授MySql的安装与使用

MySql数据库的基本操作主要分为操作MySql数据库和操作MySql数据表

（1）创建数据库：create database 数据库名

（2）查看数据库： show databases

（3）选择指定数据库：use数据库名

（4）删除数据库：drop database 数据库名

MySql数据表的基本操作主要有以下几种：

（1）创建数据表：create table 数据表名

（2）查看数据表：show tables

（3）查看数据表结构：describe数据表名

（4）往数据表中添加记录：insert into 数据表名 values

（5）修改数据表中记录：update数据表名

课后学习

任务布置

创建数据库、创建数据表并往表中插入记录。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第14次课 2 学时

授课内容

数据库分析（二）

教学目的

与要求

旨在简要介绍Python中想要连接与操作MySql数据库，要求学生应该掌握如下知识：

1）Python中连接MySql数据库的基本原理。

2）Python中连接与操作MySql数据库的基本方法。

重点

难点

1）Python中操作MySql数据库的基本方法

教学进程

安排

知识回顾：

回顾之前讲授的MySql数据库的基本操作方式。

本节课引导学生进行以下内容的实验练习。

授课内容：：

一.如何使用Python连接MySql数据库

在Python中想要连接MySql数据库需要一个驱动，用于和数据库的交互。在Python3中可以使用pymysql库来实现这一功能。pymysql库是一个纯Python库，可以直接安装使用

二.Python操作MySql数据库：

1）创建MySql数据库和创建数据表并使用Python查询表中记录

想要使用Python连接MySql，可在命令 import pymysql后输入以下命令：

db=pymysql.connect(host=" ",user=" ",passwd="",db=" ",charset="")

在该命令中db代表数据库，pymysql.connect 表示使用pymysql库来连接MySql数据库

（1）建立连接

（2）获取游标

（3）查询记录

（4）返回结果

（5）打印数据

课后学习

任务布置

使用Python往user数据表中插入新的记录

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第15次课 2 学时

授课内容

上机实验（四）

教学目的

与要求

旨在通过本实验考查学生对Python中连接操作MySql数据库的掌握情况。要求学生应该熟练掌握如下知识的运用：

1）Python连接MySql数据库。

2）Python操作MySql数据库。

3）查询语句的书写与应用。

重点

难点

1）Python连接MySql数据库，建立数据表并查询结果

教学进程

安排

知识回顾：

回顾上节课讲授Python中想要连接与操作MySql数据库的基本知识。

本节课引导学生进行以下内容的实验练习。

实验内容：

一、新建school数据库

二、新建student数据表

三、查看student数据表信息

四、使用Scrapy框架编写爬虫访问网页

五、查看student数据表结构

六、往student数据表中添加多条数据

七、将表中score的每个数据值加10

八、输出并显示修改后的数据表数据值

代码见书

课后学习

任务布置

新建数据库，并建立数据表，使用Python进行数据库管理。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第16次课 2 学时

授课内容

数据可视化（一）

教学目的

与要求

旨在简要介绍数据可视化的基本概念与方法的使用方法，要求学生应该掌握如下知识：

1）掌握数据可视化的概念

2）了解数据可视化的发展

3）了解数据可视的方法与应用

4）了解数据可视化的图表

重点

难点

1）数据可视化的方法

2）数据可视化的应用

教学进程

安排

授课内容：

一、讲授数据可视化的概念

1） 数据可视化系统并不是为了展示用户的已知的数据之间的规律，而是为了帮助用户通过认知数据，有新的发现，发现这些数据所反映的实质。

课堂练习题：

二、讲授数据可视化的发展

三、讲授数据可视化的方法与应用

1） 数据可视化技术包含的概念

2） 数据可视化的组成

3） 数据可视化的标准

4） 数据可视化的应用

四、数据可视化的各种图表介绍

课后学习

任务布置

了解数据可视化的作品，了解数据可视化的发展历程

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第17次课 2 学时

授课内容

数据可视化（二）

教学目的

与要求

旨在简要介绍数据可视化的实现，要求学生应该掌握如下知识：

1）认识numpy基础

2）认识matplotlib库

3）掌握matplotlib库的实现

重点

难点

1）numpy中的数学基础

2）matplotlib库的实现

教学进程

安排

知识回顾：

回顾之前讲授的数据可视化的基本概念。

本节课引导学生进行以下内容的实验练习。

授课内容：

一、讲授数据可视化的numpy库

1、numpy是Python做数据处理的底层库，是高性能科学计算和数据分析的基础，比如著名的Python机器学习库SKlearn就需要numPy的支持。掌握numPy的基础数据处理能力是利用Python做数据运算及机器学习的基础。

2、在Windows中进入cmd命令后，直接运行pip install numpy即可完成，安装完成后输入import numpy，如果没报错则表示成功。

二、讲授数据可视化的matplotlib库

1、 matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形

2、matplotlib库装与运行。在Windows中进入cmd后，直接输入命令python -m pip install --user matplotlib-2.1.0-cp36-cp36m-win32.whl来执行matplotlib程序的安装。

课后学习

任务布置

安装numPy库和matplotlib库

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 18 次课 2 学时

授课内容

上机实验（五）

教学目的

与要求

旨在通过上机实验练习 matplotlib中的可视化应用，通过本课的学习，学生应该掌握如下知识：

1）掌握matplotlib库的导入

2）掌握matplotlib库的可视化方法

3）掌握matplotlib库的可视化实现

重点

难点

1）matplotlib库的可视化方法

教学进程

安排

知识回顾：

回顾上一节课的主要内容，包括matplotlib基础

实验内容：

一、使用matpotlib.pyplot绘图

二掌握matpotlib.pyplot绘图函数

三、用numpy库和matplotlib库绘制图形

代码见书

课后学习

任务布置

1、用numpy库和matplotlib库绘制图形

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 19 次课 2 学时

授课内容

数据可视化（三）

教学目的

与要求

旨在简要介绍数据可视化的实现，要求学生应该掌握如下知识：

1）认识numpy基础

2）认识matplotlib库

3）掌握matplotlib库的实现

重点

难点

1）使用matplotlib库可以绘制各种图形

教学进程

安排

授课内容：

一、讲授数据可视化使用matplotlib库可以绘制各种图形

1、使用matplotlib库可以绘制各种图形，其中最基本的是线性图形，主要由线条组成。

2、柱状图也叫作条形图，是一种以长方形的长度为变量的表达图形的统计报告图，由一系列高度不等的纵向条纹表示数据分布的情况，用来比较两个或以上的数值。

3、直方图又称质量分布图，是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况。

4、散点图在回归分析中使用较多，它将序列显示为一组点。值由点在图表中的位置表示，类别由图表中的不同标记表示，因此散点图通常用于比较跨类别的聚合数据。

5、极坐标图是指在平面内由极坐标系描述的曲线方程图。极坐标是指在平面内由极点、极轴和极径组成的坐标系。极坐标图用于对多维数组进行直接的对比，多用在企业的可视化数据模型的对比与分析中。

6、饼图用于表示不同分类的占比情况，通过弧度大小来对比各种分类，饼图通过将一个圆饼按照分类的占比划分成多个区块，整个圆饼代表数据的总量，每个区块（圆弧）表示该分类占总体的比例大小。

二、讲授代码实现

代码见书

课后学习

任务布置

进一步练习使用matplotlib库可以绘制各种图形

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 20 次课 2 学时

授课内容

上机实验（六）

教学目的

与要求

旨在通过上机实验练习 matplotlib中的可视化应用，通过本课的学习，学生应该掌握如下知识：

1）掌握matplotlib库的导入

2）掌握matplotlib库的可视化方法

3）掌握matplotlib库的各种图形的可视化实现

重点

难点

1）使用Python绘制各种图形

教学进程

安排

知识回顾：

回顾上一节课的主要内容，包括matplotlib基础

实验内容：

一、使用matpotlib绘制线性图形

二、使用matpotlib绘制柱状图形

三、使用matpotlib绘制条形图形

四、使用matpotlib绘制散点图形

五、使用matpotlib绘制极坐标图形

代码见书

课后学习

任务布置

1、练习绘制各种绘制图形。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 21 次课 2 学时

授课内容

数据可视化（四）

教学目的

与要求

旨在简要介绍数据可视化的实现，要求学生应该掌握如下知识：

1）认识pyecharts基础

2）使用 pyecharts绘制图形

通过本课的学习，学生应该掌握如下知识：pyecharts可视化的安装与实现

重点

难点

1）pyecharts的安装

2）pyecharts的实现

教学进程

安排

知识回顾：

回顾数据可视化的定义和使用。

授课内容：

一、讲授数据可视化pyecharts介绍

1、pyecharts 是一个用于生成 Echarts 图表的类库，而Echarts是一个开源的数据可视化JS库，同时也是商业级数据图表，一个纯Javascript的图表库，可以流畅的运行在PC和移动设备上。使用pyecharts可以让开发者轻松的实现大数据的可视化。

2、pyecharts的安装

在使用pyecharts之前，首先要安装它。使用以下命令来执行安装过程：

pip install pyecharts

3、使用 pyecharts绘制图形的基本语法

二、讲授代码实现

代码见书

课后学习

任务布置

使用 pyecharts绘制图形

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 22 次课 2 学时

授课内容

上机实验（七）

教学目的

与要求

旨在通过上机实验练习 matplotlib中的可视化应用，通过本课的学习，学生应该掌握如下知识：

1）掌握pyecharts的安装

2）掌握pyecharts的可视化方法

重点

难点

1）pyecharts的安装

2）pyecharts的可视化实现

教学进程

安排

知识回顾：

回顾上一节课的主要内容，包括pyecharts基础

实验内容：

一、使用pyecharts绘制条形图

二、使用pyecharts绘制仪表图

三、使使用pyecharts绘制3D图

四、使用pyecharts绘制地图

代码见书

课后学习

任务布置

综合练习，使用pyecharts绘制图形。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 23 次课 2 学时

授课内容

数据存储

教学目的

与要求

旨在介绍数据存储的基本概念，通过本课的学习，学生应该掌握如下知识：数据存储的基础概念

重点

难点

1）数据存储的类型

2）数据存储的方式

3）数据存储的核心技术

教学进程

安排

知识回顾：

回顾大数据的定义和应用。

授课内容：

一、讲授数据存储的概念

1、大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。在进行大数据分析之前，首先的步骤就是要将海量的数据存储起来，以便今后的使用。因此，大数据的存储是数据分析与应用的前提。

二、讲授数据存储的类型

大数据存储的类型主要有以下三种：块存储、文件存储和对象存储。

三、讲述数据存储的方式

大数据的存储方式主要有分布式存储、NoSQL数据库、NewSQL数据库以及云数据库四种。

四、讲述数据存储中的核心技术

大数据存储中的核心技术主要有基于MPP架构的新型数据库集群、基于Hadoop的技术扩展以及大数据一体机等。

课后学习

任务布置

理解数据存储

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 24 次课 2 学时

授课内容

数据清洗（一）

教学目的

与要求

旨在介绍数据清洗，学生应该掌握如下知识：

1）了解数据清洗的基本概念

2）了解数据清洗主要工具。

3）了解数据标准化技术与实现

重点

难点

1）数据清洗的工具

教学进程

安排

知识回顾：

回顾上一章数据存储，本节课将开展以下内容的讲授。

授课内容：

一、数据清洗概念

数据清洗就是指把“脏数据”彻底洗掉，包括检查数据一致性，处理无效值和缺失值等，从而提高数据质量。在实际的工作中，数据清洗通常占开发过程的50%-70%左右的时间。

二、数据清洗原理

数据清洗的原理是利用有关技术如数据仓库、数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。

三、数据清洗工具

1）OpenRefine

2）Kettle

四、数据标准化

课后学习

任务布置

1、下载并安装OpenRefine与Kettle。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 25 次课 2 学时

授课内容

上机实验（八）

教学目的

与要求

旨在介绍数据清洗的用法，学生应该掌握如下知识：

1）掌握openRefine的使用

2）掌握Kettle的使用

3）掌握Excel的使用

重点

难点

1）掌握OpenRefine的流程

2) 掌握Excel的使用

教学进程

安排

知识回顾：

回顾上一节数据清洗的原理，本节课将开展以下内容的讲授。

实验内容：

一、运行OpenRefine数据清洗软件，对数据进行查看、清洗并导出数据

二、使用Excel进行数据有效性分析

三、使用Excel进行数据有效性分析，并清除重复的数据

代码见书

课后学习

任务布置

1、用Excel进行数据有效性分析，并清除重复的数据。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 26 次课 2 学时

授课内容

数据格式与编码技术

教学目的

与要求

旨在介绍安文件格式的基本概念和用法，学生应该掌握如下知识：

1） 掌握文件格式

2） 掌握数据类型

3） 掌握字符编码

重点

难点

1）字符编码

教学进程

安排

知识回顾：

回顾上一节数据清洗的用法；

授课内容：

一、文件格式

文件格式是指在计算机中为了存储信息而使用的对信息的特殊编码方式，是用于识别内部储存的资料。如文本文件、视频文件、图像文件等。在这些文件中它们功能不同，有的文件用于存储文字信息，有的文件用于存储视频信息，有的文件用于存储图像信息等。此外，在不同的操作系统中文件格式也有所区别。

二、数据类型

数据类型是指是一个值的集合和定义在这个值集上的一组操作的总称。它的出现是为了把数据分成所需内存大小不同的数据，以便于程序的运行。通常可以根据数据类型的特点将数据划分为不同的类型，如原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。

三、字符编码

字符编码也叫作字集码，把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。

课后学习

任务布置

理字符编码的各种用法。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 27 次课 2 学时

授课内容

Kettle数据清洗与转换（一）

教学目的

与要求

旨在介绍Kettle数据清洗与转换工具的使用，学生应该掌握如下知识：

1）掌握Kettle的工作流程

2）掌握Kettle的应用

重点

难点

1）Kettle的各种用法

教学进程

安排

授课内容：

知识回顾：

回顾上一节触发器的基本的用法，本节课要求学生掌握以下内容：

1） Kettle的配置

2） Kettle的应用

3） 角色管理的用法

创建角色

修改角色

授予角色权限和收回权限

删除角色

课后学习

任务布置

练习Kettle数据清洗与转换的用法。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 28、29、30 次课 6学时

授课内容

Kettle数据清洗与转换（二）

教学目的

与要求

旨在介绍数Kettle数据清洗与转换，学生应该掌握如下知识：

1）了解Kettle的原理

2）掌握Kettle方法

重点

难点

Kettle如何在生成记录中增加新的一列字段

教学进程

安排

知识回顾：

回顾上一节实现Kettle的各种用法，本节课要求学生掌握以下内容：

1） Kettle的字段的设置

2） Kettle的流程处理

3） Kettle的差错

课后学习

任务布置

练习Kettle的用法。

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 31、32次课 4学时

授课内容

Kettle数据抽取与数据采集的使用

教学目的

与要求

旨在介绍Kettle数据抽取与数据采集的使用，学生应该掌握如下知识：

1） 了解数据抽取定义

2） 数据抽取的方法

3） 了解数据抽取的工具

4） 4）掌握Kettle数据抽取方法。

重点

难点

掌握Kettle数据抽取方法

教学进程

安排

授课内容：

1） 讲述使用Kettle来将文本文件中的数据抽取到Excel文档中。

2） 讲述使用Kettle来将CSV文件中的数据抽取到Excel文档中；

3） 讲述使用Kettle还可以抽取在网络传输中常用的json文件；

4） Kettle抽取网页中的XML数据；

课后学习

任务布置

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第33、34、35次课 6 学时

授课内容

pandas 数据分析与清洗

教学目的

与要求

本章讲述pandas数据分析。通过本章的学习，掌握数据分析的的基本流程与基本方法。

包括：

1） pandas概述

2）pandas的安装

3)pandas的使用

4)pandas的数据分析

重点

难点

1） pandas的使用

2）pandas的数据分析

教学进程

安排

授课内容：

一、pandas介绍

pandas是Python中的一个数据分析与清洗的库，pandas库是基于numpy库构建的。在pandas库中包含了大量的标准数据模型，并提供了高效地操作大型数据集所需的工具，以及大量快速便捷地处理数据的函数和方法，使得以numpy为中心的应用变得十分简单。

二、pandas安装

因为pandas是python的第三方库所以使用前需要安装一下，直接使用命令安装：

pip install pandas

三、pandas使用

要使用pandas，可以直接在Python命令行中输入以下命令：

import pandas as pd

s=pd.Series（）

课后学习

任务布置

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

《大数据分析》课程教案

第 36次课 2学时

授课内容

综合训练

教学目的

与要求

通过一个实际项目的练习，旨在培养学生使用数据清洗与分析库的综合能力，训练的能力包括：

1） 数据库的设计

2） 数据库数据的创建

3） 大数据工具的使用

重点

难点

1） 数据库的设计

2） 如何把所学的知识灵活应用的实际的项目中

教学进程

安排

1、要求学生能够掌握kettle工具中数据转换的应用

2、要求学生能够掌握kettle工具连接多张外部数据表。

3、能够应用kettle和MySql进行数据查询。

课后学习

任务布置

主要

参考资料

《大数据分析》黄源等主编，清华大学出版社

上一条：浅谈数据仓库建设中的数据建模方法
下一条：技术创新，让矿业脱胎换骨——从技术角度看全球矿业发展