真正开始接触爬虫是七月下旬的开始吧,之前就觉得这东西挺有意思一直没空去学,这个七月中旬刚开始就来了学校,由于老师七月份没有安排太多的事,所以闲来无事就学起来了这个,加上在逛好友的博客时感觉他学了很多,也很激励我。
总的来说感觉还是很有意思的,希望可以坚持下去,以后即使有许多其他事要做也可以抽点时间来看。其实爬虫关于爬取静态网页的所有方法我都有了一个简单的了解,包括scrapy框架,不过框架用的不是很熟。在我目前的认知水平来看没有看出框架的优点,因为我常用的一些东西我都把它写成了函数,只需要复制一下就行了,感觉还挺快,可能这跟爬的都是简单的静态网页有关吧。
一、关于获取网页
其实获取网页有很多种方式,我看过崔庆才的html=requests.get(url,headers=hearders).text
我也看过pyquery库的直接用URL方式获取,但我猜pyquery库里的直接用URL方式打开肯定没有用浏览器代理,崔庆才的用requests.get的打开虽然比urllib.request.urlopen少两行代码,但我还是更习惯用我自己写的这个子函数,也许学的深入了会有所改变。
8月9日补充:requests库牛逼
def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
iplist=['124.235.208.252:443','113.200.56.13:8010','218.60.8.98:3129']
ip=random.choice(iplist)
proxy_support = urllib.request.ProxyHandler({'http':ip})
opener = urllib.request.build_opener(proxy_support)
urllib.request.install_opener(opener)
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
return html
这是我常用的运用代理来访问打开网页的,上述三个代理IP可能不一定一直能用,比较免费的IP可能经常不靠谱,所以我也专门写了一个程序从西刺代理IP上爬取了他首页的所有IP地址,类型,以及是否高匿,由于并没有爬那种十分大的大工程,所以我也没有将二者结合在一个程序,其实因为我的这个ip是我手动输入的三个,所以我并没有加入异常处理,实际上有的IP并不一定能用导致你打不开网页,所以如果需要自己结合自动获取ip还是需要加入异常处理。
二、关于解析网页
在成功爬取网页之后,我们需要获取网页中我们需要的那部分东西,所以我们需要对网页做一个解析得到我们想要的。解析静态网页常用的我知道的有下面四种:正则表达式,Xpath,BeautifulSoup库,PyQuery库。其实并不一定每一个都要会,在我亲身试用了四种方法爬取同一个网页之后,我对此有了一个我的优先级排名:PyQuery库>Xpath=正则表达式>BeautifulSoup库
BeautifulSoup库:使用这个库需要初始化:from bs4 import BeautifulSoup,然后将需要解析的网页传入即可BeautifulSoup(html,’lxml’)这里支持多种解析方式,除了lxml还有’html.parser’,’xml’,’htm5lib’。各有优劣吧
我为什么觉得这个库的优先级排在最后是因为我觉得他本身的运用soup.p(这里soup为解析后赋值的变量)这种选择网页节点的方式在复杂的网页并不实用,其获取文本为soup.p.string,获取节点属性为soup.p[‘name’]。总的来说非常繁琐,这个库里同样也为我们提供了查询方法soup.find_all(name,attrs,recursive,text,**kwargs)。括号里的为参数,并不需要全部输入。对于复杂的网页来说,感觉这种方法也不咋地,尤其是节点嵌套情况比较多,节点名也重复较多的时候。好在这个库还是提供了一个CSS选择器,用起来还是很好的,使用CSS选择器的时候需要调用select方法,eg:soup.select.(‘li’),返回的结果最后会组成一个列表,列表的元素为bs4Tag类型,但是由于PyQuery库也有选择器,所以我就果断放弃了这个库的继续研究与使用。
正则表达式:使用正则表达式只需要import re就行了正则表达式是很神奇的东西,他可以匹配任何字符,所以在仅仅只需获取一些简单的信息的时候,可以考虑使用正则表达式,虽然正则表达式的语法有很多,但我至今基本上都靠一个(.*?)走遍了许多网页,当然关于正则表达式还有一句俗语,当你有一个问题时,使用正则表达式你就有两个问题了,说明要学好正则表达式的匹配关系还是不简单的,不过这些表达式我觉得不需要去死记硬背,用的时候去查查就好了,补充说一下正则表达式语法: re.findall(‘p’,html),p为正则表达式,html为查找范围。
Xpath:使用Xpath来解析网页同样需要初始化一下:from lxml import etree html=etree.HTML(url_open(url))。然后就可以对html进行操作了,一般我们解析网页无非就是找节点的文本或属性。下面就此举两个例子:
获取文本:html.xpath(//section/div/div/a/text()) 这里需要注意的是获取文本一定要定位到文本所属的那个子节点,不然可能返回\n
获取属性:html.xpath(//section/div[@class=”title-and”]/a/@href 获取属性的时候需要使用@字符,如果是前面有相同层级的节点需要选择对应的属性加上中括号[] 总的来说xpath还是非常的好用的
PyQuery库:照常初始化:from pyquery import PyQuery as pq,加个as pq是可以用pq来替代这个函数写起来简便,然后将html传入即可,html=pq(html). PyQuery库同样是使用CSS选择器,并且和find函数搭配使用简单且功能强大。选择器的方法可以点CSS选择器进行跳转,就不再叙述,find函数可以筛选节点的所有子孙节点。find函数的参数也为选择器类型。但对于找到的多个节点来说,pq库的选择结果可能是多个节点但却并没有返回一个列表,所以需要进行遍历用for循环输出,需要调用.items()函数得到一个生成器,如果不调用输出的全是地址,为了方便说明举个例子如下:
res=html(‘li > a’),for each in res.items(): print(each) 最后要说的同样是获取信息,如常用的属性和文本,紧跟上面的程序举例: 获取属性:res.attr.href / res.attr(‘href’) 获取文本:res.text()
最后补充一下审查元素查看网页的时候,选中节点点击右键会有xpath和选择器直接可以copy,有的地方稍作修改一下就行,非常方便。
三、存储信息
关于存储这方面,我看的还不多,用的最多的就是以.txt方式进行存储,以后再来进行补充,下面代码为存储txt文本代码
with open('filename.txt','a',encoding='utf-8') as f:
f.write('\n'.join([a,b,c]))
上述代码中a,b,c为列表中的元素,通过join函数组合在一起写入,然后通过一个循环就可以把你所需要的列表元素全部写入了。