Biny

基于机器学习的网页抽取

Biny 2022-08-18 19:45:28    620 次浏览

利用聚类的方法 无监督学习在第一类算法中也起到重要作用。

很多算法利用聚类的方法,将网页的正文和非正文自动分为2类。

例如在《CETR - Content Extraction via Tag Ratios》算法中,网页被切分为多行文本,算法为每行文本计算2个特征,分别是下图中的横轴和纵轴,红色椭圆中的单元(行),大多数是网页正文,而绿色椭圆中包含的单元(行),大多数是非正文,使用k-means等聚类方法,就可以很好地将正文和非正文分为两类,然后再设计一些启发式算法,即可区分两类中哪一类是正文,哪一类是非正文。

内容加载中