数据采集与处理

广东科学技术职业学院 | 商学院 | 商务数据分析与应用专业

数据采集与处理

本课程掌握数据采集的方法和工具,包括网络爬虫、API调用等,以及数据预处理和数据转换技术。 通过本课程的学习,学生将能够从各种数据源采集数据,并进行有效的数据预处理。

知识点

数据采集概述

数据采集的概念、重要性、方法和工具,以及数据源的分类和特点。

网络爬虫

网络爬虫的基本原理、常用库和框架,以及爬取策略和反爬措施。

API调用

API的概念、类型、认证方式,以及使用Python进行API调用的方法。

数据预处理

数据预处理的重要性、方法和技术,包括数据清洗、数据集成、数据变换等。

数据转换

数据格式转换、数据类型转换、数据标准化和归一化等技术。

数据质量评估

数据质量的评估指标、方法和工具,以及数据质量改进的策略。

学习内容

第1章:数据采集概述

  • 数据采集的概念和重要性
  • 数据源的分类和特点
  • 数据采集的方法和工具
  • 数据采集的伦理和法律问题

第2章:Requests库

  • Requests库的安装和基本使用
  • HTTP请求方法:GET、POST、PUT、DELETE等
  • 请求参数和 headers 设置
  • 响应处理和状态码

第3章:BeautifulSoup库

  • BeautifulSoup的安装和基本使用
  • HTML解析和导航
  • CSS选择器和XPath
  • 数据提取和清洗

第4章:Scrapy框架

  • Scrapy的安装和项目创建
  • Spider的编写和运行
  • Item和Pipeline的使用
  • 中间件和扩展

第5章:API调用

  • API的概念和类型
  • RESTful API的设计原则
  • API认证和授权
  • 使用Python调用API的方法

第6章:数据预处理

  • 数据清洗:缺失值处理、异常值检测、重复值处理
  • 数据集成:数据合并、数据融合
  • 数据变换:数据标准化、数据归一化
  • 特征工程:特征选择、特征提取

第7章:数据转换

  • 数据格式转换:CSV、JSON、XML等
  • 数据类型转换
  • 数据结构转换
  • 数据压缩和存储

阅读材料

Python网络爬虫权威指南

作者:Ryan Mitchell

出版社:人民邮电出版社

查看详情

Web Scraping with Python

作者:Ryan Mitchell

出版社:O'Reilly Media

查看详情

数据采集与预处理

作者:周志华

出版社:清华大学出版社

查看详情

Python爬虫开发与项目实战

作者:范传辉

出版社:人民邮电出版社

查看详情