抓網頁的程式庫 : WebChuan

十月 20th, 2008 由 victor Leave a reply »

WebChuan

花了一些時間整理我先前提到設計下所寫出來的抓網頁模組,用Python寫基於Twisted和lxml,可以輕鬆地組織抓取網頁的流程,各種常用的功能都已經有了

我把它命名為WebChuan並且釋放成在MIT License下的Open source project

http://webchuan.ez2learn.com/

有興趣可以參考看看,目前還有很多事要做,包括生成文件、撰寫文件、測試等等,但是先前提到的基本功能都已經完備

http://webchuan.ez2learn.com/wiki/Examples/GetPageTitle

這裡有一個取得網頁標題的簡單程式可以執行看看

書籤:
  • Hemidemi
  • funp
  • MyShare
  • udn
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • YahooKimo
  • Haohao
  • TwitThis
Advertisement

1 comment

  1. Girvan 說道:

    看來app engine中可以用的,只有beautifulsoup了。不過看了您的文章真是受益良多。

發表迴響