2013年2月5日 星期二

【HTML】以jsoup進行HTML標籤處理(HTML Parse)

因為論文做的是網路文字探勘,自然就是得寫request,抓rawHTML,然後解析出文本,但我打一開始就沒有打算要自己寫標籤處理模組的意思,這種東西百分之兩百已經有人寫過了,但問題是關鍵字要下什麼?

【Java】CKIP斷詞系統

同樣是論文用到的東西,因為用的人不少所以本來想說可以輕鬆實裝,沒想到最後還是花了不少時間在查到底要怎麼樣才能跑...

【Algorithm】在Eclipse中建立Weka專案


考慮到論文需要跑多種演算法做效能比較,但是每個都要自己寫,還要設計圖表模組等等的話根本不可能做得完,所以我以Weka提供的模組作為論文系統的基礎建設,過程中碰到的問題預期也都會撰寫紀錄,首先先來看看如何在eclipse中建構含完整source code的Weka專案(非加入jar檔部分引用)。