Tag Archives: 抓取網頁

抓網頁的程式庫 : WebChuan

WebChuan 花了一些時間整理我先前提到設計下所寫出來的抓網頁模組,用Python寫基於Twisted和lxml,可以輕鬆地組織抓取網頁的流程,各種常用的功能都已經有了 我把它命名為WebChuan並且釋放成在MIT License下的Open source project http://webchuan.ez2learn.com/ 有興趣可以參考看看,目前還有很多事要做,包括生成文件、撰寫文件、測試等等,但是先前提到的基本功能都已經完備 http://webchuan.ez2learn.com/wiki/Examples/GetPageTitle 這裡有一個取得網頁標題的簡單程式可以執行看看

Posted in Python, 中文文章 | Tagged , , | 1 Comment

抓取網頁程式的架構設計

截取網頁的架構設計 我們先前談到了抓取網頁用的工具,但是光有工具是不夠的,良好的設計也是必要的,這次我們就來談談設計

Posted in Python, 中文文章, 設計 | Tagged , , , | 3 Comments

抓取網頁的最佳語言 : Python

最初 最早我用C/C++語言慢慢寫抓網頁的用它來抓網頁真的是程式,一開始甚至打算自己寫抓取網頁的函式庫,想說當做練習,可是HTTP協定 雖然不難,可是煩,要處理的細節太多了,後來受不了,轉而使用現成的Library : cUrl,但是C/C++語言開發這類東西的效率實在太慢了,我的程式不停的修改、不停的修改,光是編譯的時間就吃掉了不知道多少,字串的處理C/C++ 沒有內建正規表示法或一些好用的字串函數之類的,處理起來也礙手礙腳,當時,我想將我寫好的函數庫寫成能讓Lua呼叫的形式,或著甚是C/C++來呼叫Lua,因為C/C++有很多細節要處理,Memory leak有的沒有的雜事,我想要的只是專注在寫抓取網頁的程式,因此用Lua包裝似乎是不錯的選擇,但是開發時間太久了,事情一直沒有變好 直到

Posted in Python, 中文文章 | Tagged , , , | 43 Comments