Una forma de saber qué parte de un sitio web es importante y qué parte es común al resto de páginas del sitio es saber qué plantilla se está utilizando. Y eso es lo que Yahoo! ha patentado en System and method for detecting a web page template. El objetivo es conseguir que un sistema de forma automática detecte qué parte de la página es una plantilla, extraer los distintos bloques de contenido y asignarle, a cada uno de los bloques un determinado peso.
Los motores de búsqueda en muchas ocasiones necesitan eliminar de la ecuación la parte común de todas las páginas de un sitio para conseguir lo importante de las páginas: sus contenidos. Para ello es necesaria la extracción de aquellas partes que generan ruido, lo que se podría definir como «la plantilla» (template o theme).
Modern search engines may only require content of web pages without such template structures for indexing, analysis and ranking of web pages for user search queries. Furthermore, template structures can cripple the performance of many modules of search engines, including the index function, ranking function, summarization function, duplicate detection function, etc. With templated content currently constituting more than half of all HTML on the web and growing steadily, it is imperative that search engines develop scalable tools and techniques to reliably detect templates on a web page.
Para sacar las partes importantes de un sitio normalmente los sistemas se basan en el DOM, lo que permitiría llegar a identificar qué partes del HTML son las más importantes. Quizá por eso en HTML 5 se han elegido nuevas etiquetas para diferenciar las partes más importantes de cada página.Y es que para sacar las plantillas lo que normalmente se buscan son árboles DOM similares para, de esta forma eliminar el ruido de las zonas que no interesan. Hay que tener en cuenta que hay distintas plantillas dentro de un sitio, lo que podríamos llamar las site-level que son las partes comunes de todo el sitio (normalmente cabecera, navegación y pie de página) pero que hay otras partes como la navegación de página o la específica de la sesión (bloque de contenidos relacionados, «también te interesa»…) que van variando. Esto implica que hay partes de un sitio que no se pueden detectar como sub bloques de la propia plantilla global.
Lo que Yahoo! propone es encontrar un sistema que aprenda a gran escala de muchas plantillas para mejorar esa lista de bloques diferenciales, poniendo una puntuación a los distintos bloques de distintas plantillas y encontrar patrones (o funcionalidades) comunes entre páginas completamente distintas. Al fin y al cabo, «la mayor parte de sitios web son iguales».
Aunque quizá la parte más interesante de este sistema es el uso que se le puede dar para encontrar contenidos o sitios duplicados:
The present invention may support many online applications. For example, template detection at the page-level may be used as a pre-processing step to web mining applications such as duplicate detection and web page classification. Moreover, an off-the-shelf classifier may be used in the framework, instead of having to design one that works specifically for the given hierarchical structure.
Deja una respuesta