Python网络爬虫与信息提取
课程概述
"The website is the API." (网页即接口)网络爬虫是获取数据的必备本领,不要犹豫!
本课程是一门在线实践课程,对应:中国大学MOOC平台及其他在线平台的"Python网络爬虫与信息提取"课程。
中国大学MOOC平台"Python网络爬虫与信息提取"课程,地址如下:
https://www.icourse163.org/learn/BIT-1001870001
本课程学习及实践内容如下:
· Python第三方库Requests,通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;
· Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;
· Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法;
· Python第三方库Scrapy,介绍通过网络爬虫框架构造专业网络爬虫的基本方法。
· 围绕网络爬虫的工程伦理及其他技术内容。
预备知识
本课程要求具备Python编程基础,需要先修"Python语言程序设计"课程,可参考如下课程:
中国大学MOOC平台 "Python语言程序设计"课程,地址如下:
https://www.icourse163.org/course/BIT-268001
后续内容
本课程是"Python网络爬虫与数据分析"全套课程内容的上半部分,主要讲解网络爬虫技术,后续可以继续学习如下课程:
中国大学MOOC平台"Python数据分析与展示"课程,地址如下:
https://www.icourse163.org/course/BIT-1001870002
参考资料
提供课件作为学习资料。
5
考试
-
测验5:期末测验-分享码创建
测验1: Python网络爬虫之规则 (第1周)
测验2: Python网络爬虫之提取 (第2周)
测验3: Python网络爬虫之实战 (第3周)
测验4: Python网络爬虫之框架 (第4周)