你的位置: 首页 > 公开课首页 > 互联网/语言 > 课程详情

details

python爬虫和数据分析

推荐

主打课程
暂无评价   
你实际购买的价格
付款时最多可用0淘币抵扣0元现金
购买成功后,系统会给用户帐号返回的现金券
淘课价格
6800
你还可以: 收藏

培训受众:

1. 软件工程师 ;
2. 需要了解 需要了解 爬虫 特点,技术难的设计人员或架构师;
3. 即将要从事 爬虫相关技术 管理的项目人员;

课程收益:

本课程主要针对有一定python编程经验的研发人员,讲解python编写网络爬虫的相关知识,主要内容有爬虫的本质剖析,从页面中爬取数据的三种方法,如何缓存抓取数据以及提取数据,并行爬虫,如何抓取动态页面内容;与表单的交互;处理页面中的验证码;使用Scarpy编写爬虫;网站爬虫封禁的突破策略;抓取到的数据可视化分析;
本课程内容丰富,讲解由浅入深,并始终以一线开发经验贯穿始终。通过本课程的学习,可使得学员对Python爬虫开发有一个很好的掌握和了解。

培训颁发证书:

有证书

课程大纲:

时间安排

课程内容

第一天

l  网络爬虫技术入门

n  “爬虫”的概念和本质

n  网络爬虫的实用价值

n  网络爬虫的法律约束

n  为什么选择Python做爬虫开发语言

n  Python的包管理工具-pip

n  编写第一个网络爬虫

Ø  robots.txt介绍

Ø  爬虫第一步:网页下载

Ø  【案例】网站地图爬虫

Ø  【案例】遍历Id爬虫

Ø  【案例】链接爬虫

l  网页内容(数据)的抓取

n  网页的分析

Ø  FireBug Lite等工具

n  爬虫技术三种网页内容抓取方式

Ø  正则表达式

Ø  Beautiful Soup

Ø  Lxml:CSS选择器抓取

Ø  【讨论】三种抓取方式的优劣对比

Ø  【案例】为第一个爬虫增加抓取功能

l  爬虫下载缓存

n  爬虫添加下载缓存的必要性

n  为链接爬虫添加缓存支持

n  缓存文件

Ø  文件系统限制

Ø  文件缓存实现(包含异常处理)

Ø  文件缓存测试的执行

Ø  使用zlib压缩缓存

Ø  清理过期文件缓存数据

Ø  文件缓存缓存缺陷

Ø  【案例】文件缓存实现

n  数据库缓存

Ø  爬虫开发缓存选择NoSQL的理由

Ø  典型的NoSQL-MongoDB技术概述

Ø  MongoDB缓存实现

Ø  MongoDB数据压缩

Ø  MongoDB缓存测试

Ø  【案例】MongoDB缓存实现

第二天

l  100万个网页以上规模的网站数据抓取-并行爬虫

n  常规串行爬虫的特性

n  爬虫线程和进程的工作原理

n  多线程爬虫

n  多进程爬虫

n  性能分析

【案例】多线程爬虫

【案例】多进程爬虫

l  JavaScript动态页面的爬虫技术

n  动态页面示例

n  对动态网页执行逆向工程

Ø  分析页面加载数据的过程

Ø  python的Ajax调用

Ø  边界优化

Ø  【案例】动态网页的逆向

n  使用渲染引擎处理动态页面

Ø  渲染引擎处理原理

Ø  包含WebKit的Python库:PyQt

Ø  包含WebKit的Python库:PySide

Ø  使用WebKit编程执行动态的JavaScript

Ø  使用WebKit与网站交互-自定义渲染规则

Ø  浏览器自动化API接口提供者-Selenium

Ø  【案例】PySide执行动态的JavaScript

Ø  【案例】Selenium运行动态JavaScript

l  表单交互

n  登陆表单

Ø  GET/POST

Ø  URLencode/URLdecode

Ø  header & cookie

Ø  如何突破使用cookie阻挡的网站

n  网络机器人实现(网站内容自动更新功能)

n  高级Mechanize模块实现自动化表单处理

l  【案例】表单登陆

第三天

l  CAPTCHA(登陆验证码)处理

n  注册账号的关键控制环节

Ø  加载验证码图像

n  常规验证码图像处理-OCR(光学字符识别)

Ø  Tesseract OCR引擎

Ø  阀值化

Ø  OCR优化

Ø  【案例】OCR验证码图像处理

n  非常规的复杂验证码图像处理-9KW

Ø  复杂验证码图像处理服务概述

Ø  9KW入门

Ø  集成注册功能

Ø  【案例】调用9KW服务进行验证码图像处理

l  网络爬虫框架Scrapy(快速编写spider爬虫)

n  Scrapy安装

n  Scrapy框架的开发与使用

Ø  Scrapy框架爬虫spider介绍

Ø  爬虫项目默认结构生成-startproject

Ø  爬取内容模型设定

Ø  spider爬虫创建

Ø  如何使用shell 命令抓取

Ø  spider爬虫的中断与恢复

Ø  【案例】使用Scrapy框架快速编写爬虫

n  基于Scrapy开发的可视化爬虫工具-Portia

Ø  virtualenv 环境下的-Portia安装过程

Ø  Portia的标注

Ø  优化Portia生成的爬虫

Ø  【案例】使用Portia生成可视化爬虫

n  使用Scrapely实现自动化抓取

l  爬虫封禁的突破

n  robots.txt剖析

n  user agent

n  referrer

n  爬虫封禁的突破技巧

l  【爬虫实战一】Google搜索引擎

l  【爬虫实战二】宝马官网-抓取信息

第四天

l  爬行数据整理和可视化数据分析

n  CSV显示

n  Matplotlib的图形化显示

Ø  iPython和pylad

Ø  图型的初级绘制

°  默认配置的详解

°  线条的控制

°  图片边界

°  记号

°  移动脊柱

°  图例添加

°  注释特殊点

Ø  图像子图坐标轴和记号

Ø  其他类型的图

Ø  散点图/条形图/等高线图

Ø  灰度图/饼状图/量场图

Ø  网格/多重网格

Ø  极轴图/3D图

n  JS可视化图表highcharts.js

Ø  曲线图

Ø  区域图

Ø  饼图

Ø  散点图

Ø  气泡图

Ø  动态图表

Ø  组合图表

Ø  3D图

Ø  测量图

Ø  热点图

Ø  树状图

l  【爬虫数据可视化显示】某商城商品销售价格信息

总结

l  复习本课程所有的内容

l  总结 讨论和完整案例展

培训师介绍:

 
艾彪—移动开发专家,多平台架构设计协同开发倡导者
最早的web App、PhoneGap、Node.js研究者,阿里云计算研究者,为波导手机、中国银行、中南空管局等诸多企、事业制作移动端项目。iOS技术顾问,移动开发专家。精通iOS、Android和 Windows Phone、PHP、Python、微信及 Html5等移动开发技术。多平台架构设计协同开发倡导者,曾先后主持开发大型网络游戏iOS和Android客户端开发、海关移动查巡系统、中国银行移动文档查阅系统等。在 App Store发布多款应用软件,擅长移动平台的应用和移动架构的搭建,Python开发与数据分析,因长期研究手机和互联网前端开发技术,所以在互联网的安全、手机端安全方面也积累了不少实战经验,现为中睿金牌讲师,首席企业移动开发顾问,移动开发、移动安全方向培训满分讲师。
工作经历
12年IT工作经验,8年IT培训教学经验。
授课风格
教师讲课精于教学的技巧,讲解、分析、论证时,思路清晰;合理运用教学方法,对知识重点、难点的有准确把握。提问、讨论、练习时间,针对学生的实际情况而控制进度,对于学生掌握知识而言,是一种追求高效率的教学风格,是许多教师课堂教学所实施和追求的一种境界。
主讲课程
《Android高级应用开发》
《iPhone/iPad移动应用高级开发》
《微信小程序开发实战培训》
《HTML5高级开发与应用实战》
《微信公众平台接口开发》
《移动APP架构建设》
《Python爬虫与数据分析》
《Linux嵌入式开发》
《AngularJS4web开发高阶》
部分项目经历
 XX港企工程管理系统
客户:XX香港知名地产公司。
岗位:移动APP C/S架构设计师,移动开发工程师.负责该项目的C/S架构设计,以及android,iOS 客户端 具体的开发。
涉及主要技术:服务器端 SSM,客户端用iOS/Android原生开发。
 移动互联平台
客户:中国银行
岗位:移动APP C/S 架构设计师,研发技术服务顾问。负责该项目的C/S架构设计,负责项目难点实施。技术团队培训。
涉及主要技术:服务器端 SSM,客户端用Cordova跨平台移动开发技术。
部分成功客户
金融行业
 中国建设银行、中国农业银行、广东工商银行、招商银行、瑞士银行、华商银行…
电信通讯行业
 省电信、广东移动、深圳移动、深圳联通、中山移动、佛山移动、东莞联通…
政府事业单位
 广东地税、深圳地税、深圳国税、深圳国土规划局、广州铁路…
企业
 中广核工程集团公司、南方航空、兄弟科技、平安、深圳机场、友邦保险、安利集团、格力集团、步步高集团、蛇口集装箱…

本课程名称: python爬虫和数据分析

查看更多:互联网/语言公开课

it 数据库 数据分析 python爬虫 相关的最新课程
讲师动态评分 与同行相比

授课内容与课纲相符00%

讲师授课水平00%

服务态度00%