2013年2月5日 星期二

【HTML】以jsoup進行HTML標籤處理(HTML Parse)

因為論文做的是網路文字探勘,自然就是得寫request,抓rawHTML,然後解析出文本,但我打一開始就沒有打算要自己寫標籤處理模組的意思,這種東西百分之兩百已經有人寫過了,但問題是關鍵字要下什麼?

關鍵字是HTML Parser,市面上的免費API頗多,我最後選的是jsoup,主要是因為它的introduction寫的最簡單,而且內建簡化的request,多棒! 詳情請見官網

沒有留言:

張貼留言