评论文本爬虫

0x00。原因

因为要参加大学生的创新大赛,研究微博的博文所表达的情感,需要大量的微博的博文,而且无论是国内的某个学位,csdn,还是国外的Google,gayhub,codeproject,都找不到想要的程序,只好自己写程序了。

赞美诗我在《攀登联盟》里找到一个类似的程序,不过是在windows下,源码是关闭的。而且爬取保存的文件,用notepad++打开,出现了很多奇怪的问题,我就放弃了。

0x001。基础知识

这个程序是用python写的,所以基本的Python知识是必须的。另外,如果你有一定的计算机网络基础,在前期准备的时候会少走很多弯路。

对于爬行动物,你需要明确以下几点:

1.爬取对象的分类可以分为以下几类:第一类是不需要登录的,比如博主以前练手的时候爬的中国天气网。这类网页很难抓取,建议爬虫新手爬这类网页;二是登录,如豆瓣、新浪微博,难爬;第三种独立于前两种,你想要的信息一般是动态刷新的,比如AJAX或者嵌入式资源。这种爬虫是最难的,博主也没研究过,这里就不细说了(据同学说,淘宝的商品评论就属于这一类)。

2.如果同一个数据源有多种形式(如电脑版、手机版、客户端等。),更“纯粹”的呈现方式更受青睐。比如新浪微博有网页版和手机版,手机版可以通过电脑浏览器访问。这个时候,我更喜欢手机版的新浪微博。

3.爬虫一般是把网页下载到本地,然后通过某种方式提取感兴趣的信息。换句话说,抓取网页只是完成了一半,你需要从下载的html文件中提取你感兴趣的信息。这时候就需要一些xml的知识了。在这个项目中,博客作者使用XPath提取信息,也可以使用XQuery等其他技术。详情请访问w3cschool。

4.爬虫要尽可能模仿人类。现在网站的反抓取机制已经开发出来了。从验证码到IP禁止,爬虫技术和反爬虫技术可谓是连续博弈。

0x02。去

确定爬虫的目标后,首先要访问目标网页,了解目标网页属于以上哪种爬虫。另外,记录下你需要采取的步骤,才能得到你感兴趣的信息,比如是否需要登录,如果需要登录,是否需要验证码;你需要做什么才能得到你想要的信息,是否需要提交一些表格;你想要的信息所在页面的url有什么规则等等。

以下博文以blogger项目为例。该项目抓取特定新浪微博用户自注册以来的所有微博博文,按关键词抓取100页微博博文(约1000篇)。

0x03。收集必要的信息

首先访问目标网页,发现需要登录。进入登录页面如下:新浪微博手机版登录页面。

注意,在url的后半部分有许多像“%xx”这样的转义字符,这将在本文后面讨论。

从这个页面可以看到,登录新浪微博手机版需要填写账号、密码和验证码。

这个验证码只需要最近提供(本文创建于2016.3.11)。如果不需要提供验证码,会有两种登录方式。

第一种方法是进行js模拟,填写账号密码后点击“登录”按钮。博主之前用这个方法写了一个Java爬虫,现在找不到项目了,这里就不赘述了。

第二种需要一定的HTTP基础,提交包含所需信息的HTTP POST请求。我们需要Wireshark工具来捕获我们在登录微博时发送和接收的数据包。如下图所示,我抓取了登录时收发的数据包。Wireshark抢到了1的结果。

在搜索栏中提供搜索条件"/(displayID)?page=(pagenum)" .这将是我们的爬虫拼接url的基础。

接下来看网页的源代码,找到我们想要的信息的位置。打开浏览器开发者工具,直接定位一个微博,就可以找到它的位置,如下图。

xpath

观察html代码,发现所有微博都在< div & gt标签,这个标签中有两个属性,其中class属性是“c”和一个唯一的id属性值。获取这些信息有助于提取所需的信息。

此外,还有一些因素需要特别注意。

*微博分为原创微博和转发微博。

*根据发布时间与当前时间的不同,页面上显示时间的方式有多种,如“MM分钟前”、“今天的HH:MM”、“MM月dd日HH:MM-DD hh: mm: SS”。*手机版新浪微博一页显示约10条微博,注意总量* *。

0x04。编码

1.抓取用户微博

这个项目的开发语言是Python 2.7,项目中使用了一些第三方库,可以通过pip添加。

由于验证码阻挡了自动登录的思路,用户要访问特定用户的微博页面,只能提供cookies。

第一个是Python的请求模块,它提供带有cookies的url请求。

导入请求

打印请求。get (url,cookies = cookies)。内容使用此代码打印带有cookies的URL请求页面结果。

首先,获取用户的微博页面数量。通过检查网页的源代码,找到代表页数的元素,通过XPath等技术提取页数。

页数

该项目使用lxml模块通过XPath提取html。

首先,导入lxml模块,项目中只使用etree,所以从lxml导入etree。

然后用下面的方法返回页码。

def getpagenum(self):

URL = self . geturl(pagenum = 1)

html = requests.get(url,cookies=self.cook)。内容#访问第一页获取页码。

选择器= etree。HTML(html)

pagenum = selector . XPath('//input[@ name = " MP "]/@ value ')[0]

return int(pagenum)

下一步是连续拼接网址->访问网址-& gt;下载网页。

需要注意的是,由于新浪反爬取机制的存在,如果同一个cookies访问页面过于频繁,就会进入类似的“冷静期”,即会返回一个无用的页面。通过分析这个无用的页面,发现这个页面在特定的地方会有特定的信息,这个页面对我们是否有用可以通过XPath技术来判断。

def ispageneeded(html):

选择器= etree。HTML(html)

尝试:

title = selector . XPath('//title ')[0]

除了:

返回False

返回title.text!= '微博广场'和title.text!= '微博'

如果有无用的页面,你只需要再次访问它们。但是通过后来的实验发现,如果长时间频繁访问它们,那么返回的页面都是无用的,程序会陷入死循环。为了防止程序陷入死循环,博主设置了一个trycount阈值,超过阈值后方法会自动返回。

下面的代码片段展示了单线程爬虫的方法。

def startcrawling(self,startpage=1,trycount=20):

尝试= 0

尝试:

OS . mkdir(sys . path[0]+'/Weibo _ raw/'+self . wanted)除了例外,e:

打印字符串(e)

isdone = False

while not isdone并尝试& lt尝试计数:

尝试:

pagenum = self.getpagenum()

isdone = True

除了例外,e:

尝试+= 1

if attempt == trycount:

返回False

i =起始页

而我& lt= pagenum:

尝试= 0

isneeded = False

html = ' '

while not isneeded and attempt & lt尝试计数:

html = self . getpage(self . geturl(I))

isneeded = self . ispageneeded(html)

如果不需要:

尝试+= 1

if attempt == trycount:

返回False

self . save html(sys . path[0]+'/Weibo _ raw/'+self . wanted+'/'+str(I)+'。txt ',html)打印字符串(i) + '/' +字符串(pagenum - 1)

i += 1

返回True

考虑到程序的时间效率,在写了单线程爬虫之后,博主又写了多线程爬虫版本。基本思路是微博页面数除以跟帖数。比如微博中的一个用户有100个微博页面,程序有10个线程,那么每个线程只负责爬取10个页面。其他基本思路和单线程差不多,只有边界值需要小心处理,这里就不赘述了。另外,由于多线程的效率比较高,并发量特别大,服务器很容易返回无效页面,所以trycount的设置比较重要。博主在写这条微博的时候,用了一个新的cookie来测试谁爬了北京邮电大学的微博。3976条微博文章全部成功爬取,博文提取。只用了15s,这其实可能和新旧cookies以及网络环境有关。命令行设置如下,项目网站中解释了命令行的含义:python main.py _ T _ WM = xxxSUHB = xxxSUB = xxxGSID _ CTANDWM = XXX UBUPPT M 20 20以上爬行工作的基本介绍结束,接下来分析爬虫的第二部分。因为项目提供了多线程抓取的方法,而多线程一般是乱序的,但是微博的博文是按时间排序的,所以项目采用了折中的方法,将下载的页面保存在本地文件系统中,每个页面以其页码作为文件名。爬行工作完成后,遍历并解析文件夹中的所有文件。

通过前面的观察,我们了解到了微博的博文都有哪些特点。通过使用XPath技术,从这个页面中提取所有具有这个特性的标签并不困难。

再次,微博分为转发微博和原创微博,时间表达。另外,因为我们的研究课题只对微博文字感兴趣,所以不考虑插图。

def startparsing(self,parsing time = datetime . datetime . now()):

basepath = sys . path[0]+'/Weibo _ raw/'+self . uid for filename in OS . listdir(basepath):

if filename.startswith(' . '):

继续

path = basepath + '/' + filename

f =打开(路径,“r”)

html = f.read()

选择器= etree。HTML(html)

weiboitems = selector . XPath('//div[@ class = " c "][@ id]')用于Weibo items中的项目:

微博=微博()

weibo.id = item.xpath('。/@id')[0]

cmt = item.xpath('。/div/span[@ class = " CMT "]')if len(CMT)!= 0:

weibo.isrepost = True

weibo.content = cmt[0]。文本

否则:

weibo.isrepost = False

ctt = item.xpath('。/div/span[@class="ctt"]')[0]

如果ctt.text不为None:

weibo.content += ctt.text

对于ctt.xpath中的。/a '):

如果a.text不是None:

微博.内容+= a.text

如果a.tail不为None:

weibo.content += a.tail

if len(cmt)!= 0:

reason = CMT[1]. text . split(u ' \ xa0 ')

if len(原因)!= 1:

Weibo . reportstroy = reason[0]

ct = item.xpath('。/div/span[@class="ct"]')[0]

time = ct.text.split(u'\xa0')[0]

weibo.time = self.gettime(self,time,parsingtime)self.weibos.append(微博。__字典_ _)

f.close()

方法传递的参数parsingtime的设置初衷是开发初期抓取和解析可能不会同时进行(并非严格意义上的“同时”),微博时间显示以访问时间为准,比如抓取时间为10:00,五分钟前发布了一条微博显示,但如果解析时间为10:30,解析时间就会出错,所以,到爬虫基本发育结束,爬行和解析的开始时间差距会缩小,时间差就是爬行过程的时间,基本可以忽略。

解析结果保存在列表中。最后,列表以json格式保存到文件系统,并删除转换文件夹。

定义保存(自己):

f = open(sys . path[0]+'/Weibo _ parsed/'+self . uid+'。txt ',' w ')JSON str = JSON . dumps(self . weibos,indent=4,确保_ascii=False)f.write(jsonstr)

f.close()

抓取关键词

同样,收集必要的信息。在微博手机搜索页面输入“python”,观察网址,研究其规律。虽然第一页没有规则,但是我们在第二页发现了一个规则,这个规则可以应用回第一页。

第二页

申请后的第一页

观察url可以发现,url中唯一的变量是关键字和页面(其实hideSearchFrame对我们的搜索结果和爬虫没有影响),所以我们可以在代码中控制这两个变量。

另外,如果关键词是中文,那么网址需要转换汉字。例如,如果我们在搜索框中键入“Happy”进行搜索,我们发现url显示Happy Search如下。

但是它被复制为

/search/mblog?hideSearchFrame = & amp关键字= % E5 % BC % 80 % E5 % BF % 83 & ampPage=1好在python的urllib库有qoute方法处理中文转换的功能(如果是英文就不转换了),所以在拼接URL之前用这个方法处理参数。

另外,考虑到关键词搜索属于数据收集阶段使用的方法,我们这里只提供网页的单线程下载。如果有多线程的需求,可以按照多线程抓取用户微博的方法自己重写。最后提取并保存下载的网页(我知道这个模块设计有点奇怪,所以打算重新创建的时候再改(郝),就这样吧)。

def关键字爬网(self,keyword):

real keyword = URL lib . quote(keyword)#用中文处理关键字。

尝试:

OS . mkdir(sys . path[0]+'/keywords ')

除了例外,e:

打印字符串(e)

微博= []

尝试:

high points = re . compile(u '[\ u 00010000-\ u 0010 ffff]')#处理表情符号,但是好像不管用。

除了re.error:

high points = re . compile(u '[\ ud 800-\ uDBFF][\ UDC 00-\ uDFFF]')pagenum = 0

isneeded = False

当不需要时:

html = self . get page('/search/mblog?关键字= % s & amppage = 1 ' % real keyword)is needed = self . ispageneeded(html)

如果需要:

选择器= etree。HTML(html)

尝试:

pagenum = int(selector . XPath('//input[@ name = " MP "]/@ value ')[0])除了:

pagenum = 1

对于范围内的I(1,pagenum + 1):

尝试:

isneeded = False

当不需要时:

html = self . get page('/search/mblog?关键字= % s & amppage=%s' % (realkeyword,str(I)))is needed = self . ispageneeded(html)

选择器= etree。HTML(html)

weiboitems = selector . XPath('//div[@ class = " c "][@ id]')用于Weibo items中的项目:

cmt = item.xpath('。/div/span[@ class = " CMT "]')if(len(CMT))= = 0:

ctt = item.xpath('。/div/span[@class="ctt"]')[0]

如果ctt.text不为None:

text = etree.tostring(ctt,method='text ',encoding = " unicode ")tail = CTT . tail

if text.endswith(tail):

index = -len(tail)

text = text[1:index]

text = highpoints.sub(u'\u25FD ',text) #表情符号的处理方式,似乎行不通。

微博文本=文本

微博附加(微博文本)

打印字符串(i) + '/' +字符串(pagenum)

除了例外,e:

打印字符串(e)

f = open(sys . path[0]+'/keywords/'+keyword+'。txt ',' w ')尝试:

f.write(json.dumps(weibos,indent=4,确保_ ascii = False))Exception除外,例如:

打印字符串(ex)

最后:

f.close()

博客作者以前从来没有写过任何爬虫程序。为了获取新浪微博博文,博主们编写了三种不同的爬虫程序,包括Python和Java。爬行动物不能用很正常。不要气馁。爬虫程序和反爬行机制一直在不断博弈。

另外,转载请告知博主,如果你认为博是老板就不需要告知。