Saltar al contenido

¿Diferencia entre el rastreador BeautifulSoup y Scrapy?

Si te encuentras con alguna parte que no entiendes puedes dejarlo en la sección de comentarios y te responderemos lo más rápido posible.

Solución:

raspado es una araña web o marco raspador web, le da a Scrapy una URL raíz para comenzar a rastrear, luego puede especificar restricciones sobre cuántas (cantidad de) URL desea rastrear y recuperar, etc. Es un marco completo para web-scraping o arrastrándose.

Mientras

HermosaSopa es un biblioteca de análisis que también hace un buen trabajo al obtener contenidos de la URL y le permite analizar ciertas partes de ellos sin problemas. Solo obtiene el contenido de la URL que proporciona y luego se detiene. No se arrastra a menos que lo coloque manualmente dentro de un bucle infinito con ciertos criterios.

En palabras simples, con Beautiful Soup puedes construir algo similar a Scrapy. Hermosa Sopa es una biblioteca mientras que Scrapy es un marco completo.

Fuente

Creo que ambos son buenos… estoy haciendo un proyecto en este momento que usa ambos. Primero, elimino todas las páginas usando scrapy y las guardo en una colección mongodb usando sus canalizaciones, y también descargo las imágenes que existen en la página. Después de eso, uso BeautifulSoup4 para hacer un posprocesamiento donde debo cambiar attributes valores y obtener algunas etiquetas especiales.

Si no sabe qué páginas de productos quiere, una buena herramienta será difícil, ya que puede usar sus rastreadores para ejecutar todos los sitios web de Amazon/Ebay en busca de los productos sin hacer un bucle for explícito.

Eche un vistazo a la documentación de scrapy, es muy fácil de usar.

raspado
Es un marco de web scraping que viene con toneladas de cosas que facilitan el raspado para que podamos concentrarnos solo en la lógica de rastreo. Algunas de mis cosas favoritas que scrapy cuida de nosotros están a continuación.

  • Exportación de feeds: básicamente nos permite guardar datos en varios formatos como CSV, JSON, jsonlines y XML.
  • Raspado asíncrono: Scrapy utiliza un marco torcido que nos da el poder de visitar varias URL a la vez donde cada solicitud se procesa sin bloqueo (Básicamente, no tenemos que esperar a que finalice una solicitud antes de enviar otra solicitud).
  • Selectores: aquí es donde podemos comparar raspado con sopa hermosa. Los selectores son los que nos permiten seleccionar datos particulares de la página web como encabezado, cierto div con un nombre de clase, etc.). Scrapy usa lxml para el análisis, que es extremadamente rápido que una sopa hermosa.
  • Configuración de proxy, agente de usuario, encabezados, etc.: scrapy nos permite configurar y rotar el proxy y otros encabezados dinámicamente.

  • Canalizaciones de artículos: las canalizaciones nos permiten procesar datos después de la extracción. Por ejemplo, podemos configurar la canalización para enviar datos a su servidor mysql.

  • Cookies: scrapy maneja automáticamente las cookies por nosotros.

etc.

TLDR: scrapy es un marco que proporciona todo lo que uno podría necesitar para crear rastreos a gran escala. Proporciona varias características que ocultan la complejidad de rastrear las webs. uno puede simplemente comenzar a escribir rastreadores web sin preocuparse por la carga de configuración.

Hermosa sopa
Beautiful Soup es un paquete de Python para analizar documentos HTML y XML. Entonces, con Beautiful Soup puedes analizar una página web que ya ha sido descargada. BS4 es muy popular y antiguo. A diferencia de scrapy,No puedes usar sopa hermosa solo para hacer orugas. Necesitará otras bibliotecas como solicitudes, urllib, etc. para hacer rastreadores con bs4. Nuevamente, esto significa que necesitaría administrar la lista de direcciones URL que se rastrean, administrar cookies, administrar proxy, manejar errores, crear sus propias funciones para enviar datos a CSV, JSON, XML, etc. Si desea acelerar de lo que tendrá que usar otras bibliotecas como multiprocesamiento.

Para resumir.

  • Scrapy es un marco rico que puede usar para comenzar a escribir rastreadores sin problemas.

  • Beautiful Soup es una biblioteca que puedes usar para analizar una página web. No se puede utilizar solo para raspar web.

Definitivamente debería usar scrapy para su sitio web de comparación de precios de productos de amazon y e-bay. Puede crear una base de datos de direcciones URL y ejecutar el rastreador todos los días (trabajos cron, Celery para programar rastreos) y actualizar el precio en su base de datos. De esta manera, su sitio web siempre se extraerá de la base de datos y el rastreador y la base de datos actuarán como componentes individuales.

valoraciones y comentarios

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *