节假日一定要看全网最全的Ph爬虫库。
最完整的Python爬虫库
Python爬虫库推荐
常规:
1.urllib-网络库(stdlib)。
2 .请求-网络图书馆。
3.grab-网络库(基于py curl)。
4.py curl-网络库(binding libcurl)。
5.urllib 3-Python HTTP库,安全连接池,支持文件post。
和高可用性。
6.-在云端执行r、Python和matlab代码。
网页内容抽取
提取网页内容库。
HTML页面的文本和元数据
用Python实现报纸新闻抽取、文章抽取和内容策略
展览。
将Html转换成Markdown格式的文本。
Python-Goose-HTML内容/文章提取器。
lassie——一个人性化的网络内容检索工具
Web套接字
一个Web套接字库。
crossbar——一个开源应用程序消息路由器(由Python实现)
高速公路上的网络套接字和WAMP)。
提供了Autobahn python-Web Socket协议和WAMP。
协议的Python实现和开源。
WebSocket-for-Python-Python 2和3以及PyPy的
Web套接字客户端和服务器库。