Posts Tagged ‘抓取網頁’

抓網頁的程式庫 : WebChuan

十月 20th, 2008

WebChuan

花了一些時間整理我先前提到設計下所寫出來的抓網頁模組,用Python寫基於Twisted和lxml,可以輕鬆地組織抓取網頁的流程,各種常用的功能都已經有了

我把它命名為WebChuan並且釋放成在MIT License下的Open source project

http://webchuan.ez2learn.com/

有興趣可以參考看看,目前還有很多事要做,包括生成文件、撰寫文件、測試等等,但是先前提到的基本功能都已經完備

http://webchuan.ez2learn.com/wiki/Examples/GetPageTitle

這裡有一個取得網頁標題的簡單程式可以執行看看

抓取網頁程式的架構設計

十月 11th, 2008

截取網頁的架構設計

我們先前談到了抓取網頁用的工具,但是光有工具是不夠的,良好的設計也是必要的,這次我們就來談談設計

» Read more: 抓取網頁程式的架構設計

抓取網頁的最佳語言 : Python

十月 5th, 2008

最初

最早我用C/C++語言慢慢寫抓網頁的用它來抓網頁真的是程式,一開始甚至打算自己寫抓取網頁的函式庫,想說當做練習,可是HTTP協定 雖然不難,可是煩,要處理的細節太多了,後來受不了,轉而使用現成的Library : cUrl,但是C/C++語言開發這類東西的效率實在太慢了,我的程式不停的修改、不停的修改,光是編譯的時間就吃掉了不知道多少,字串的處理C/C++ 沒有內建正規表示法或一些好用的字串函數之類的,處理起來也礙手礙腳,當時,我想將我寫好的函數庫寫成能讓Lua呼叫的形式,或著甚是C/C++來呼叫Lua,因為C/C++有很多細節要處理,Memory leak有的沒有的雜事,我想要的只是專注在寫抓取網頁的程式,因此用Lua包裝似乎是不錯的選擇,但是開發時間太久了,事情一直沒有變好

直到

» Read more: 抓取網頁的最佳語言 : Python