抓網頁的程式庫 : WebChuan

WebChuan

花了一些時間整理我先前提到設計下所寫出來的抓網頁模組,用Python寫基於Twisted和lxml,可以輕鬆地組織抓取網頁的流程,各種常用的功能都已經有了

我把它命名為WebChuan並且釋放成在MIT License下的Open source project

http://webchuan.ez2learn.com/

有興趣可以參考看看,目前還有很多事要做,包括生成文件、撰寫文件、測試等等,但是先前提到的基本功能都已經完備

http://webchuan.ez2learn.com/wiki/Examples/GetPageTitle

這裡有一個取得網頁標題的簡單程式可以執行看看

This entry was posted in Python, 中文文章 and tagged , , . Bookmark the permalink.

One Response to 抓網頁的程式庫 : WebChuan

  1. Girvan says:

    看來app engine中可以用的,只有beautifulsoup了。不過看了您的文章真是受益良多。