python爬虫和数据分析_公开课

培训受众:

1. 软件工程师；
2. 需要了解需要了解爬虫特点，技术难的设计人员或架构师；
3. 即将要从事爬虫相关技术管理的项目人员；

课程收益:

本课程主要针对有一定python编程经验的研发人员，讲解python编写网络爬虫的相关知识，主要内容有爬虫的本质剖析，从页面中爬取数据的三种方法，如何缓存抓取数据以及提取数据，并行爬虫，如何抓取动态页面内容；与表单的交互；处理页面中的验证码；使用Scarpy编写爬虫；网站爬虫封禁的突破策略；抓取到的数据可视化分析；
本课程内容丰富，讲解由浅入深，并始终以一线开发经验贯穿始终。通过本课程的学习，可使得学员对Python爬虫开发有一个很好的掌握和了解。

培训颁发证书:

有证书

课程大纲

时间安排	课程内容
第一天	l 网络爬虫技术入门 n “爬虫”的概念和本质 n 网络爬虫的实用价值 n 网络爬虫的法律约束 n 为什么选择Python做爬虫开发语言 n Python的包管理工具-pip n 编写第一个网络爬虫 Ø robots.txt介绍 Ø 爬虫第一步：网页下载 Ø 【案例】网站地图爬虫 Ø 【案例】遍历Id爬虫 Ø 【案例】链接爬虫 l 网页内容（数据）的抓取 n 网页的分析 Ø FireBug Lite等工具 n 爬虫技术三种网页内容抓取方式 Ø 正则表达式 Ø Beautiful Soup Ø Lxml：CSS选择器抓取 Ø 【讨论】三种抓取方式的优劣对比 Ø 【案例】为第一个爬虫增加抓取功能 l 爬虫下载缓存 n 爬虫添加下载缓存的必要性 n 为链接爬虫添加缓存支持 n 缓存文件 Ø 文件系统限制 Ø 文件缓存实现（包含异常处理） Ø 文件缓存测试的执行 Ø 使用zlib压缩缓存 Ø 清理过期文件缓存数据 Ø 文件缓存缓存缺陷 Ø 【案例】文件缓存实现 n 数据库缓存 Ø 爬虫开发缓存选择NoSQL的理由 Ø 典型的NoSQL-MongoDB技术概述 Ø MongoDB缓存实现 Ø MongoDB数据压缩 Ø MongoDB缓存测试 Ø 【案例】MongoDB缓存实现
第二天	l 100万个网页以上规模的网站数据抓取-并行爬虫 n 常规串行爬虫的特性 n 爬虫线程和进程的工作原理 n 多线程爬虫 n 多进程爬虫 n 性能分析 n 【案例】多线程爬虫 n 【案例】多进程爬虫 l JavaScript动态页面的爬虫技术 n 动态页面示例 n 对动态网页执行逆向工程 Ø 分析页面加载数据的过程 Ø python的Ajax调用 Ø 边界优化 Ø 【案例】动态网页的逆向 n 使用渲染引擎处理动态页面 Ø 渲染引擎处理原理 Ø 包含WebKit的Python库：PyQt Ø 包含WebKit的Python库：PySide Ø 使用WebKit编程执行动态的JavaScript Ø 使用WebKit与网站交互-自定义渲染规则 Ø 浏览器自动化API接口提供者-Selenium Ø 【案例】PySide执行动态的JavaScript Ø 【案例】Selenium运行动态JavaScript l 表单交互 n 登陆表单 Ø GET/POST Ø URLencode/URLdecode Ø header & cookie Ø 如何突破使用cookie阻挡的网站 n 网络机器人实现（网站内容自动更新功能） n 高级Mechanize模块实现自动化表单处理 l 【案例】表单登陆
第三天	l CAPTCHA(登陆验证码)处理 n 注册账号的关键控制环节 Ø 加载验证码图像 n 常规验证码图像处理-OCR（光学字符识别） Ø Tesseract OCR引擎 Ø 阀值化 Ø OCR优化 Ø 【案例】OCR验证码图像处理 n 非常规的复杂验证码图像处理-9KW Ø 复杂验证码图像处理服务概述 Ø 9KW入门 Ø 集成注册功能 Ø 【案例】调用9KW服务进行验证码图像处理 l 网络爬虫框架Scrapy（快速编写spider爬虫） n Scrapy安装 n Scrapy框架的开发与使用 Ø Scrapy框架爬虫spider介绍 Ø 爬虫项目默认结构生成-startproject Ø 爬取内容模型设定 Ø spider爬虫创建 Ø 如何使用shell 命令抓取 Ø spider爬虫的中断与恢复 Ø 【案例】使用Scrapy框架快速编写爬虫 n 基于Scrapy开发的可视化爬虫工具-Portia Ø virtualenv 环境下的-Portia安装过程 Ø Portia的标注 Ø 优化Portia生成的爬虫 Ø 【案例】使用Portia生成可视化爬虫 n 使用Scrapely实现自动化抓取 l 爬虫封禁的突破 n robots.txt剖析 n user agent n referrer n 爬虫封禁的突破技巧 l 【爬虫实战一】Google搜索引擎 l 【爬虫实战二】宝马官网-抓取信息
第四天	l 爬行数据整理和可视化数据分析 n CSV显示 n Matplotlib的图形化显示 Ø iPython和pylad Ø 图型的初级绘制 ° 默认配置的详解 ° 线条的控制 ° 图片边界 ° 记号 ° 移动脊柱 ° 图例添加 ° 注释特殊点 Ø 图像子图坐标轴和记号 Ø 其他类型的图 Ø 散点图／条形图／等高线图 Ø 灰度图／饼状图／量场图 Ø 网格／多重网格 Ø 极轴图／3D图 n JS可视化图表highcharts.js Ø 曲线图 Ø 区域图 Ø 饼图 Ø 散点图 Ø 气泡图 Ø 动态图表 Ø 组合图表 Ø 3D图 Ø 测量图 Ø 热点图 Ø 树状图 l 【爬虫数据可视化显示】某商城商品销售价格信息
总结	l 复习本课程所有的内容 l 总结讨论和完整案例展

培训师介绍

艾彪—移动开发专家，多平台架构设计协同开发倡导者
最早的web App、PhoneGap、Node.js研究者，阿里云计算研究者，为波导手机、中国银行、中南空管局等诸多企、事业制作移动端项目。iOS技术顾问，移动开发专家。精通iOS、Android和 Windows Phone、PHP、Python、微信及 Html5等移动开发技术。多平台架构设计协同开发倡导者，曾先后主持开发大型网络游戏iOS和Android客户端开发、海关移动查巡系统、中国银行移动文档查阅系统等。在 App Store发布多款应用软件，擅长移动平台的应用和移动架构的搭建，Python开发与数据分析，因长期研究手机和互联网前端开发技术，所以在互联网的安全、手机端安全方面也积累了不少实战经验，现为中睿金牌讲师，首席企业移动开发顾问，移动开发、移动安全方向培训满分讲师。
工作经历
12年IT工作经验，8年IT培训教学经验。
授课风格
教师讲课精于教学的技巧，讲解、分析、论证时，思路清晰；合理运用教学方法，对知识重点、难点的有准确把握。提问、讨论、练习时间，针对学生的实际情况而控制进度，对于学生掌握知识而言，是一种追求高效率的教学风格，是许多教师课堂教学所实施和追求的一种境界。
主讲课程
《Android高级应用开发》
《iPhone/iPad移动应用高级开发》
《微信小程序开发实战培训》
《HTML5高级开发与应用实战》
《微信公众平台接口开发》
《移动APP架构建设》
《Python爬虫与数据分析》
《Linux嵌入式开发》
《AngularJS4web开发高阶》
部分项目经历
 XX港企工程管理系统
客户：XX香港知名地产公司。
岗位：移动APP C／S架构设计师，移动开发工程师.负责该项目的C／S架构设计，以及android，iOS 客户端具体的开发。
涉及主要技术：服务器端 SSM，客户端用iOS／Android原生开发。
 移动互联平台
客户：中国银行
岗位：移动APP C／S 架构设计师，研发技术服务顾问。负责该项目的C／S架构设计，负责项目难点实施。技术团队培训。
涉及主要技术：服务器端 SSM，客户端用Cordova跨平台移动开发技术。
部分成功客户
金融行业
 中国建设银行、中国农业银行、广东工商银行、招商银行、瑞士银行、华商银行…
电信通讯行业
 省电信、广东移动、深圳移动、深圳联通、中山移动、佛山移动、东莞联通…
政府事业单位
 广东地税、深圳地税、深圳国税、深圳国土规划局、广州铁路…
企业
 中广核工程集团公司、南方航空、兄弟科技、平安、深圳机场、友邦保险、安利集团、格力集团、步步高集团、蛇口集装箱…

本课程名称： python爬虫和数据分析

查看更多：语言公开课

上一篇：深圳口才培训|阿里汇商学院实战演讲口才培训招商路演

下一篇：承包商安全管理

与 it 数据库 数据分析 python爬虫 相关的最新课程

•ITSS系列《IT服务经理》认...(2024-12-25 北京市)

•ITSS系列《IT服务工程师》...(2024-12-25 北京市)

•人工智能实践项目案例分析与实战...(2024-11-20 北京市)

•AI大模型全栈工程师实战训练营(2024-11-24 北京市)

•软件设计模式与软件重构实战训练...(2024-11-27 北京市)

•IT项目管理与需求分析最佳实践(2024-12-20 北京市)

•数据治理、数据架构设计及数据标...(2024-12-23 北京市)