https://code.google.com/p/boilerpipe/
Boilerplate Removal and Fulltext Extraction from HTML pages
Example:
import java.net.URL;
import org.xml.sax.InputSource;
import de.l3s.boilerpipe.extractors.ArticleExtractor;
public class Main {
public static void main(String[] args) throws Exception {
URL url = new URL("http://www.appledaily.com.tw/realtimenews/article/politics/20140401/371213/");
InputSource is = new InputSource();
is.setEncoding("ISO8859-1");
is.setByteStream(url.openStream());
String text = ArticleExtractor.INSTANCE.getText(url);
System.out.println(text);
}
}
白狼張安樂與勞團於今天發起挺服貿遊行,並號召逾500人到場聲援,下午4時許,雙方在鎮江街口叫囂互嗆,反服貿群眾高喊著「黑道滾回去」等字眼,挺服貿群眾則是以「貪污道」反擊,雙方戰火一觸即發。
其中一名反服貿的學生潛伏群眾進行拍照蒐證,隨即被勞團糾察隊發現並將他包圍,挺服貿民眾立刻一擁而上痛毆學生頭部,並朝著他丟擲水瓶,勞團糾察隊見情況失 控,便護住其頭部並將他交給警方處理,警員便讓他從鎮江街口回到反服貿的陣營之中,結束這場零星衝突。(楊忠翰/台北報導)
蠻不錯的東東可以砍網站文章(逃)