Tipos de extracción personalizada en Screaming Frog
Una de las funciones más interesantes y útiles de Screaming Frog es la extracción de contenido. Gracias a esta opción podemos extraer información específica de páginas webs que nos resultaría más complicada de obtener. Por ejemplo, podemos usarla para extraer los precios, las descripciones de productos o cualquier otro elemento que nos interese.
¿Quieres aprender a realizar extracciones de datos con esta función de Screaming Frog? En este artículo desgranamos las diferentes formas de hacerlo.
¿Qué es la extracción personalizada de Screaming Frog?
Antes de entrar en detalle sobre cómo se realiza, debes saber que esta función permite extraer información usando selectores CSS, XPath o REGEX. Es muy útil para obtener datos que no están incluidos en los campos estándar del rastreo que vienen por defecto en la herramienta de Screaming Frog.
Con una extracción personalizada en Screaming Frog, puedes acceder a datos específicos que te ayudarán a entender mejor la estructura y el contenido de un sitio web.
No te preocupes si no estás familiarizado con estos lenguajes porque aunque no los conozcas, existe una forma de extraer sin necesidad de ser un experto en CSS, XPath o REGEX. ¡Sigue leyendo para aprender los tipos de extracción personalizada y cómo realizarlos!
Tipos de extracción personalizada en Screaming Frog
Tal y como hemos comentado, existen tres tipos de extracción: selectores CSS, XPath y Regex (expresiones regulares). Cada método se ajusta a un tipo específico de estructura HTML y contenido de página, lo cual permite obtener una visión detallada del sitio.
- Selectores CSS. Los selectores CSS son útiles para extraer elementos que tienen un diseño específico dentro de la estructura HTML de la página. Con CSS, puedes seleccionar elementos con clases, IDs o atributos específicos para extraer datos.
- XPath. XPath es una técnica avanzada de selección que permite navegar de forma precisa en estructuras XML o HTML. A diferencia de CSS, XPath ofrece más flexibilidad para extraer información de nodos específicos dentro del documento HTML, por lo que es especialmente útil para sitios con estructuras de datos complejas.
- Regex. Esta opción te permite configurar patrones de expresiones regulares para extraer datos específicos del código fuente de las páginas.
Ninguna opción es mejor que otra, sólo tienes que elegir el tipo que mejor se adapte a la página, al dato que quieres extraer y con la que más cómodo/a te sientas.
El paso a paso para configurar extracciones personalizadas en Screaming Frog
- Abre Screaming Frog y selecciona Configuración del Rastreo.
- Dentro del apartado de Personalizado, selecciona Extracción personalizada
- Selecciona el botón Añadir y nos aparecerá ya el primer selector a configurar.
- Nombra tus datos extraídos. Donde aparece “Extractor 1”, escribe el nombre del dato que vas a extraer para facilitar la lectura en los informes.
- En el siguiente es seleccionar el tipo de extracción que vas a realizar (CSS, XPath o Regex).
Ahora veremos en detalle cómo se configura cada uno de los selectores disponibles.
Extracción personalizada con XPath
Imagina que queremos extraer la descripción de todos los productos de una web.
Deberás averiguar cuál es el XPath de la descripción del producto. Puedes usar bien una extensión o usar la herramienta de Inspeccionar (Ctrl + Shift + I) de la siguiente manera:
- Selecciona el elemento que nos interesa extraer con la herramienta seleccionada en la imagen siguiente:
Simplemente haz click en el elemento que nos interesa extraer.
2. Una vez lo tengas seleccionado, te marcará el código del elemento en la herramienta tal que así:
3. Hacemos click derecho sobre el elemento seleccionado y copiamos XPath.
4. Pegamos en Screaming Frog el XPath copiado
5. Ahora debemos seleccionar qué vamos a extraer: texto, HTML interno, elemento HTML o valor de función. En nuestro caso, nos interesaría extraer el texto.
6. Configuramos el resto del rastreo.
7. Una vez esté terminado, tendremos las descripciones extraídas en una columna con el nombre que le hemos puesto en la parte de extracción personalizada.
Extracción personalizada con CSS
Pongamos como ejemplo que queremos extraer los productos que están sin existencias. Primero deberás detectar cómo identificar un producto sin stock. En nuestro ejemplo, aparece la etiqueta de “SIN EXISTENCIAS”.
Una vez localizado, el proceso es similar a la primera extracción que hemos realizado. Localizamos la ruta CSS con Inspeccionar al igual que el tipo anterior y en vez de Copiar XPath, copiamos el selector.
En Screaming Frog pega el selector, termina de configurar tu rastreo y ya tendrás los productos que tienen la etiqueta de “SIN EXISTENCIAS”.
Extracción personalizada con REGEX
Para poder extraer con REGEX, será necesario que conozcas un poco de este lenguaje, el cual es usado para la búsqueda de patrones en contenido de texto. Si no lo dominas, no te preocupes, puedes ayudarte de chatGPT para que te indique cuál es la expresión regular correcta.
Pongamos el ejemplo de que queremos extraer en nuestro rastreo el código SKU de cada producto. (Recuerda que sólo puedes extraer la información que esté en el código de la página).
Primero, tenemos que buscar el elemento en el que se encuentra. En este caso está dentro de un <span>. Nuestra regex quedaría tal que así: <span[^>]*class=»sku»[^>]*>(.*?)<\/span>
Esta expresión regular significa que va a tener en cuenta todo lo que haya dentro de la etiqueta <span class=”sku”>. Por tanto, ya sólo nos quedaría pegar dicha regex en Screaming Frog, en extracción personalizada por expresiones regulares:
Cómo extraer contenido personalizado sin saber CSS, XPath o Regex en Screaming Frog
Si no te ha quedado muy claro todavía cómo extraer contenido usando los tipos de extracción personalizada CSS, XPath o Regex, la siguiente forma será tu favorita, ya que, ¡no es necesario que tengas conocimientos previos!
Comienza haciendo click en el símbolo señalado en la imagen siguiente en “Extracción personalizada” de Screaming Frog.
Se abrirá la siguiente ventana, en la cuál podremos incluir el enlace de una página que contenga el elemento que queremos extraer (1). Una vez cargada la página, simplemente deberemos hacer click en el elemento que queremos extraer (2) y se pondrá de color verde. Después, en “Extracción” selecciona el tipo si quieres cambiarlo y escoge cómo quieres que aparezcan los datos, en HTML o texto (3).
¡Et voilà! Podrás ver lo que se va a extraer en la vista previa (4).
¡Ponlo en práctica!
Ahora que ya has visto lo sencillo que es extraer contenido personalizado con Screaming Frog puedes ponerlo en práctica para realizar realizar diferentes análisis como:
- Si todos los productos tienen precio visible.
- Detectar errores en promociones activas.
- Comparar precios entre categorías.
- Extraer puntuaciones de productos (por ejemplo, estrellas) o recuentos de opiniones.
- Analizar enlaces internos de menús, migas de pan o productos relacionados.
- Verificar textos o clases de botones de acción (ej.: “Añadir al carrito”, “Comprar ahora”).
- Útil para verificar si se muestran mensajes de error (por ejemplo, productos agotados).
- ¡Y todo lo que se te ocurra!
Extraer contenido personalizado en Screaming Frog te ayuda a auditar aspectos más allá de lo básico, como precios, botones, mensajes o datos estructurados. Esto optimiza no sólo el SEO, sino también la experiencia de usuario y las estrategias de marketing.
Si necesitas realizar un rastreo profundo a tu página web para detectar errores u oportunidades de mejora, en nuestra agencia SEO ofrecemos servicios de auditorías SEO. Contacta con nosotros y te ayudaremos a alcanzar tus metas a través de herramientas SEO como Screaming Frog.