数据采集与处理

广东科学技术职业学院 | 商学院 | 商务数据分析与应用专业

数据采集与处理

本课程掌握数据采集的方法和工具，包括网络爬虫、API调用等，以及数据预处理和数据转换技术。通过本课程的学习，学生将能够从各种数据源采集数据，并进行有效的数据预处理。

知识点

数据采集概述

数据采集的概念、重要性、方法和工具，以及数据源的分类和特点。

网络爬虫

网络爬虫的基本原理、常用库和框架，以及爬取策略和反爬措施。

API调用

API的概念、类型、认证方式，以及使用Python进行API调用的方法。

数据预处理

数据预处理的重要性、方法和技术，包括数据清洗、数据集成、数据变换等。

数据转换

数据格式转换、数据类型转换、数据标准化和归一化等技术。

数据质量评估

数据质量的评估指标、方法和工具，以及数据质量改进的策略。

学习内容

第1章：数据采集概述

数据采集的概念和重要性
数据源的分类和特点
数据采集的方法和工具
数据采集的伦理和法律问题

第2章：Requests库

Requests库的安装和基本使用
HTTP请求方法：GET、POST、PUT、DELETE等
请求参数和 headers 设置
响应处理和状态码

第3章：BeautifulSoup库

BeautifulSoup的安装和基本使用
HTML解析和导航
CSS选择器和XPath
数据提取和清洗

第4章：Scrapy框架

Scrapy的安装和项目创建
Spider的编写和运行
Item和Pipeline的使用
中间件和扩展

第5章：API调用

API的概念和类型
RESTful API的设计原则
API认证和授权
使用Python调用API的方法

第6章：数据预处理

数据清洗：缺失值处理、异常值检测、重复值处理
数据集成：数据合并、数据融合
数据变换：数据标准化、数据归一化
特征工程：特征选择、特征提取

第7章：数据转换

数据格式转换：CSV、JSON、XML等
数据类型转换
数据结构转换
数据压缩和存储

阅读材料

Python网络爬虫权威指南

作者：Ryan Mitchell

出版社：人民邮电出版社

查看详情

Web Scraping with Python

作者：Ryan Mitchell

出版社：O'Reilly Media

查看详情

数据采集与预处理

作者：周志华

出版社：清华大学出版社

查看详情

Python爬虫开发与项目实战

作者：范传辉

出版社：人民邮电出版社

查看详情