Python爬虫大数据采集与挖掘(PPT、代码、视频)
本书实践性强、有丰富的案例、干货多,学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下:
1、教学用的PPT
下载链接(网盘): 提取码: 5c4y (如果链接失效,请转至留言处获得
本书实践性强、有丰富的案例、干货多,学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下: 1、教学用的PPT 下载链接(网盘): 提取码: 5c4y (如果链接失效,请转至留言处获得最新下载方法) 分别对应于书的章节,共有12个PPT。 PPT1:大数据采集的重要性、技术体系、爬虫合规性、应用现状以及技术发展趋势等。 PPT2:相关基础技术和方法,包括HTML语言规范、页面编码体系与规范、以及广泛用于Web页面简单信息提取的正则表达式。 PPT3: Web应用架构技术,包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。 PPT4: 普通爬虫页面采集技术,包括Web服务器连接、爬虫策略、超链接处理及Python的实现。 PPT5: 动态爬虫的相关技术,包括动态页面内容生成、交互、动态页面采集的若干种典型方法和Python实现技术。 PPT6: 从Web页面提取信息所需要的技术,介绍了技术原理和典型的开源技术。 PPT7: 主题爬虫技术及实现方法,涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。 PPT8: 关于DeepWeb的数据采集技术及实现。 PPT9: 微博信息采集方法及实现,包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。 PPT10: 反爬虫的常用技术,同时也介绍了针对这些反爬虫技术的一些主要应对措施。 PPT11: 大数据采集应用对非结构化文本的处理技术,包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。 PPT12: 两个案例(新闻阅读器、SQL注入的爬虫监测) 2、相关Python代码 具体下载地址见书本的附录A,包含了以下例子。 Prog-1-error-handle.py 爬虫的错误处理方法 Prog-2-hyper-link-extraction.py 超链接提取方法 prog-3-robotparser-demo.py Robots协议文件解析 Prog-4-cookie-demo.py 在爬虫中使用Cookie Prog-5-HTMLParser-test.py 使用HTMLParser进行页面解析 Prog-6-lxml-test.py 使用lxml进行页面解析 Prog-7-bs-sinanews.py 使用BeautifulSoup进行新闻页面解析 Prog-8-html5lib-test.py 使用html5lib进行页面解析 Prog-9-pyquery-sinanews.py 使用Pyquery进行新闻页面解析 Prog-10-topic-pages.py 主题爬虫 Prog-11-book-info.py 图书DeepWeb爬虫 Prog-12-weiboUserInfo.py 微博用户信息采集 Prog-13-weiboMsgInfo.py 微博博文信息采集 Prog-14-doc-vectors.py 文档向量空间模型构建 Prog-15-train-classifier.py 训练分类器 Prog-16-classify.py 使用SVM进行分类 Prog-17-LDA-sklearn.py LDA模型的Python实现 Prog-18-LDA-gensim.py LDA模型的Python实现 Prog-19-matplotlib-examples.py matplotlib的使用 Prog-20-wordcloud-example.py wordcloud的使用 Prog-21-sinaNewsSpider.py 新浪新闻采集与提取 Prog-22-KeywordCloud.py 新闻阅读器的关键词输出 Prog-23-LDAnewsTopic.py 新闻主题发现 Prog-24-check.py 使用爬虫进行SQL注入安全监测 crawler-strategy 4.4.2的完整程序,爬虫策略 classify 11.3的例子,包含训练数据、测试数据 app-1 12.2的样例 LDA 11.4的例子 sqlijnect 12.3的例子 3、视频 300分钟的讲课视频大数据爬虫,可以直接手机扫书中的二维码,即可观看。 4、相关拓展阅读 本公众号不定期推送与《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》相关的文章,是作者在相关领域教学科研中的一些资料,可以加深对书中一些问题的理解。部分推送的文章有: 爬虫应用案例 爬虫技术 大数据技术 模型与算法 更多文章可进入本公众号历史消息阅读。 (编辑:成都站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |