抓網頁的程式庫 : WebChuan

WebChuan

花了一些時間整理我先前提到設計下所寫出來的抓網頁模組,用Python寫基於Twisted和lxml,可以輕鬆地組織抓取網頁的流程,各種常用的功能都已經有了

我把它命名為WebChuan並且釋放成在MIT License下的Open source project

http://webchuan.ez2learn.com/

有興趣可以參考看看,目前還有很多事要做,包括生成文件、撰寫文件、測試等等,但是先前提到的基本功能都已經完備

http://webchuan.ez2learn.com/wiki/Examples/GetPageTitle

這裡有一個取得網頁標題的簡單程式可以執行看看

書籤:
  • Hemidemi
  • funp
  • MyShare
  • udn
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • YahooKimo
  • Haohao
  • TwitThis
This entry was posted in 中文文章, Python and tagged , , . Bookmark the permalink.

One Response to 抓網頁的程式庫 : WebChuan

  1. Girvan says:

    看來app engine中可以用的,只有beautifulsoup了。不過看了您的文章真是受益良多。

發表迴響

您的電子郵件位址並不會被公開。 必要欄位標記為 *

*

您可以使用這些 HTML 標籤與屬性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">