节假日一定要看全网最全的Ph爬虫库。

最完整的Python爬虫库

Python爬虫库推荐

常规:

1.urllib-网络库(stdlib)。

2 .请求-网络图书馆。

3.grab-网络库(基于py curl)。

4.py curl-网络库(binding libcurl)。

5.urllib 3-Python HTTP库,安全连接池,支持文件post。

和高可用性。

6.-在云端执行r、Python和matlab代码。

网页内容抽取

提取网页内容库。

HTML页面的文本和元数据

用Python实现报纸新闻抽取、文章抽取和内容策略

展览。

将Html转换成Markdown格式的文本。

Python-Goose-HTML内容/文章提取器。

lassie——一个人性化的网络内容检索工具

Web套接字

一个Web套接字库。

crossbar——一个开源应用程序消息路由器(由Python实现)

高速公路上的网络套接字和WAMP)。

提供了Autobahn python-Web Socket协议和WAMP。

协议的Python实现和开源。

WebSocket-for-Python-Python 2和3以及PyPy的

Web套接字客户端和服务器库。