走进荣裕 智能产品 LED装配 自动化整线 产品中心 典型案例 公司动态 联系我们
返回首页
当前位置: 首页 > 公司动态

过年回来程序员分享Python爬取网页信息例子涨知识了!

时间:2018-09-27 08:01:37来源:本站 作者: 点击:
  爬虫涉及的技术包括但不限于熟练一门编程语言(这里以 Python 为例) HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识,常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫,还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存,甚至还包括机器学习的应用,大规模的系统背后都是靠很多技术来支撑的

  爬虫涉及的技术包括但不限于熟练一门编程语言(这里以 Python 为例) HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识,常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫,还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存,甚至还包括机器学习的应用,大规模的系统背后都是靠很多技术来支撑的。数据分析、挖掘、甚至是机器学习都离不开数据,而数据很多时候需要通过爬虫来获取,因此,即使把爬虫作为一门专业来学也是有很大前途的。在学习爬虫之前我们先学习下面的需要的知识线路理清楚。

  HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。

  这样就限制了使用HTTP协议,无法实现在客户端没有发起请求的时候,服务器将消息推送给客户端。

  HTTP协议是一个无状态的协议,同一个客户端的这次请求和上次请求是没有对应关系。

  1)首先客户机与服务器需要建立连接。只要单击某个超级链接,HTTP的工作开始。

  2)建立连接后,客户机发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。

  3)服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。

  4)客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。

  如果在以上过程中的某一步出现错误,那么产生错误的信息将返回到客户端,有显示屏输出。对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。

  Python2系列使用的是urllib2,Python3后将其全部整合为urllib;我们所需学习的是几个常用函数。细节可去官网查看。

  Fiddler -- 网页请求监控工具,我们可以使用它来了解用户触发网页请求后发生的详细步骤;

  Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。

  lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。

  lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。

  获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。

  以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。

  返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。

  返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0。

  返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0。

  将匹配到的分组代入template中然后返回。template中可以使用\id或\g、\g引用分组,但不能使用编号0。\id与\g是等价的;但\10将被认为是第10个分组,如果你想表达\1之后是字符’0’,只能使用\g0。

  云计算、大数据分析、人工智能、物联网等领域Python应用无处不在。百度、阿里、腾讯、网易、新浪,搜狐等各公司都在大规模使用Python技术。各公司Python人才急缺,但是精通Python爬虫技术的人才不多。好了,今天的知识点就分享给大家到这里,祝大家早日成为Python大牛,想要获取更多学习资源和教程,请私聊爱编程的南风头条号,私信关键词:学习资料。同时,欢迎大家留言交流如何学习Python爬虫技术。

顶一下
0%
返回首页
0
0%
------分隔线----------------------------
推荐内容