Skip to content
LangGraph

Agente de web scraping con LangGraph

Construye un agente inteligente de web scraping que obtiene páginas, extrae datos estructurados y maneja paginación — con LangGraph.

web scrapingdata extractionHTTPparsing

Código funcional

LangGraph
from langchain_openai import ChatOpenAI
from langchain_core.tools import tool
from langgraph.prebuilt import create_react_agent
@tool
def fetch_url(url: str) -> str:
"""Fetch a webpage and return its content as markdown."""
import httpx
from markdownify import markdownify
response = httpx.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=15)
return markdownify(response.text)[:5000]
@tool
def extract_data(text: str, instruction: str) -> str:
"""Extract structured data from text based on instruction."""
# Uses the LLM itself to parse — no regex needed
return f"Extracting from {len(text)} chars: {instruction}"
agent = create_react_agent(
ChatOpenAI(model="gpt-4o"),
tools=[fetch_url, extract_data],
prompt="You are a web scraping agent. Fetch pages, extract the requested data, and return it in structured format. Respect robots.txt.",
)
result = await agent.ainvoke({
"messages": [("user", "Scrape the pricing page at example.com/pricing and extract all plan names and prices")]
})
print(result["messages"][-1].content)

Paso a paso

1

Instalar dependencias

Instala LangGraph y las herramientas necesarias para este caso de uso.

2

Definir herramientas

Crea las funciones de herramientas específicas del dominio que tu agente usará para interactuar con servicios externos.

3

Crear el agente y ejecutar

Inicializa el agente de LangGraph con tus herramientas, establece el prompt del sistema y ejecuta una consulta.

¿Listo para construir con LangGraph?

Genera un proyecto listo para producción con LangGraph preconfigurado — FastAPI + Next.js, auth, streaming y más.

Comenzar

¿Listo para construir tu primer agente IA en producción?

Herramientas open-source, patrones probados en batalla, cero boilerplate. Configura tu stack y despliega en minutos — no meses.