Python爬虫大数据采集与挖掘教与学（教学大纲）

发布时间：2022-12-04 01:30:50 所属栏目：大数据来源：网络

导读：
《Python爬虫大数据采集与挖掘》
课程教学大纲
院系:日期:2019年10月 10日
课程代码
课程名称
Python爬虫大数据采集与挖掘
学分数
2
周学时
2
授课语言
中文
课程性质
√核心课程√通识

《Python爬虫大数据采集与挖掘》

课程教学大纲

院系:日期:2019年10月 10日

课程代码

课程名称

Python爬虫大数据采集与挖掘

学分数

周学时

授课语言

中文

课程性质

√核心课程√通识教育选修□ 大类基础√专业必修√专业选修□ 其他

教学目的

本课程主要针对大数据技术与应用、数据科学、计算机与电子信息等专业2 年级以上本科生，主要讲解互联网大数据采集技术及各种典型爬虫的技术，并结合相关的开源包使用Python 进行实现，以加深学生对所学内容的理解。通过本课程教学，使学生对互联网大数据采集技术有一个全面的了解，掌握基本的信息内容采集、提取和分析方法，并且具备一定的针对具体信息采集需求的实际运用和解决能力。

基本内容简介

互联网大数据采集技术与实现概况；Web 服务器的应用架构以及HTTP 、Robots 、HTML 、页面编码等相关协议和规范；普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web 爬虫、微博信息采集、Web 信息提取以及反爬虫技术等；用于爬虫应用中的典型大数据处理与挖掘技术；以及综合运用各种爬虫及处理技术进行新闻阅读器的分析设计；理解爬虫用于SQL 注入安全检测的方法。

基本要求:

要求理解互联网大数据采集的技术体系、主要技术；掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用；理解对爬虫采集到的Web页面数据的处理方法、文本处理与相关的挖掘方法，并会使用Python进行技术实现。

授课方式:

本课程以讲课为主大数据爬虫，在本课程的教学过程中将运用课堂讲解、课堂讨论等形式为学生提供互动式交流，同时根据教学进度设置若干配套实验。

课内外讨论或练习、实践、体验等环节设计：

课外需认真完成布置的作业，理解和巩固所学的内容。

考核和评价方式（提供学生课程最终成绩的分数组成，体现形成性的评价过程）:

考核包括平时成绩（考勤、项目、实验）以及期末考试，分别占课程总成绩中35%和65%。期末的考核形式为闭卷考试。

《Python 爬虫大数据采集与挖掘》

教学进度表

（建议）

教学内容安排 (按32学时共计16周，具体到每节课内容):

第一周：

第1节课：互联网大数据采集概念、重要性、应用现状等；第2节课：互联网大数据采集的技术体系、法律与技术边界、技术展望。

第二周：

第1节课：HTML语言规范；第2节课：网页编码、正则表达式。

第三周：

第1节课：Web服务器、应用架构、Robots；第2节课：HTTP协议、状态保持技术。

第四周：

第1节课：普通爬虫体系、requests；第2节课：异常处理、链接提取

第五周：

第1节课：爬行策略与实现、PR算法；第2节课：动态页面及采集技术

第六周：

第1节课：动态页面、Ajax、Cookie；第2节课：模拟浏览器技术

第七周：

第1节课：静态页面采集的实验；第2节课：动态页面采集的实验

第八周：

第1节课：Web页面抽取技术与思路介绍；第2节课：基于结构的抽取方法、主要开源包。

第九周：

第1节课：主题爬虫与技术框架、主题表示；第2节课：主题表示、相关度计算、例子。

第十周：

第1节课：Web信息抽取的实验；第2节课：主题爬虫实现的实验。

第十一周：

第1节课：DeepWeb概念、特征与采集要求、技术架构；第2节课：技术架构与实现例子。

第十二周：

第1节课：微博采集方法概述、平台授权、API介绍；第2节课：Python调用API采集、爬虫方式采集。

第十三周：

第1节课：反爬虫概述、反爬虫技术、反反爬虫技术；第2节课：文本分析概述与预处理。

第十四周：

第1节课：向量空间与文本分类；第2节课：主题建模、可视化技术。

第十五周：

第1节课：常见应用模式、新闻阅读器；第2节课：新闻阅读器、SQL注入检测。

第十六周：

综合实验、复习、考试

提供300分钟视频讲解，教学大纲、课件、教案、习题答案、程序源码等配套资源。

配书视频演示

（编辑：成都站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

其实计算机也就只能点	国产外骨骼机器人登场
米兔儿童电话手表4pro	米兔儿童电话手表4pro