Solución:
jsoup
Extraer el título no es difícil y tiene muchas opciones, busque aquí en Stack Overflow para “Analizadores HTML de Java“. Uno de ellos es Jsoup.
Puede navegar por la página utilizando DOM si conoce la estructura de la página, consulte http://jsoup.org/cookbook/extracting-data/dom-navigation
Es una buena biblioteca y la he usado en mis últimos proyectos.
Su mejor opción es utilizar Selenium Web Driver, ya que
-
Proporciona retroalimentación visual al codificador (vea su raspado en acción, vea dónde se detiene)
-
Preciso y consistente, ya que controla directamente el navegador que usa.
-
Lento. No llega a páginas web como lo hace HtmlUnit, pero a veces no quieres hacerlo demasiado rápido.
Htmlunit es rápido pero horrible en el manejo de Javascript y AJAX.
HTMLUnit se puede utilizar para hacer web scraping, admite la invocación de páginas, el llenado y el envío de formularios. He usado esto en mi proyecto. Es una buena biblioteca java para web scraping. leer aquí para más