Python网络爬虫与信息提取(第9期)

中国大学 MOOC

Python网络爬虫与信息提取(第9期)

教师嵩天

开课时间 20年10月20日 ~ 20年12月1日

学生 4492

中国大学MOOC平台"Python网络爬虫与信息提取"课程的实践和考核对应课程

Python网络爬虫与信息提取

课程概述

"The website is the API." （网页即接口）网络爬虫是获取数据的必备本领，不要犹豫！

本课程是一门在线实践课程，对应：中国大学MOOC平台及其他在线平台的"Python网络爬虫与信息提取"课程。

中国大学MOOC平台"Python网络爬虫与信息提取"课程，地址如下：

本课程学习及实践内容如下：

· Python第三方库Requests，通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法；

· Python第三方库Beautiful Soup，讲解从所爬取HTML页面中解析完整Web信息的方法；

· Python标准库Re，讲解从所爬取HTML页面中提取关键信息的方法；

· Python第三方库Scrapy，介绍通过网络爬虫框架构造专业网络爬虫的基本方法。

· 围绕网络爬虫的工程伦理及其他技术内容。

预备知识

本课程要求具备Python编程基础，需要先修"Python语言程序设计"课程，可参考如下课程：

中国大学MOOC平台 "Python语言程序设计"课程，地址如下：

后续内容

本课程是"Python网络爬虫与数据分析"全套课程内容的上半部分，主要讲解网络爬虫技术，后续可以继续学习如下课程：

中国大学MOOC平台"Python数据分析与展示"课程，地址如下：

参考资料

提供课件作为学习资料。

考试

Python3Turtle