LangChain
Agente de web scraping con LangChain
Construye un agente inteligente de web scraping que obtiene páginas, extrae datos estructurados y maneja paginación — con LangChain.
web scrapingdata extractionHTTPparsing
Código funcional
from langchain_openai import ChatOpenAIfrom langchain_core.tools import tool
@tooldef fetch_url(url: str) -> str: """Fetch a webpage and return its content as markdown.""" import httpx from markdownify import markdownify response = httpx.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=15) return markdownify(response.text)[:5000]
@tooldef extract_data(text: str, instruction: str) -> str: """Extract structured data from text based on instruction.""" # Uses the LLM itself to parse — no regex needed return f"Extracting from {len(text)} chars: {instruction}"
model = ChatOpenAI(model="gpt-4o")model_with_tools = model.bind_tools([fetch_url, extract_data])response = model_with_tools.invoke([ ("system", "You are a web scraping agent. Fetch pages, extract the requested data, and return it in structured format. Respect robots.txt."), ("user", "Scrape the pricing page at example.com/pricing and extract all plan names and prices"),])Paso a paso
1
Instalar dependencias
Instala LangChain y las herramientas necesarias para este caso de uso.
2
Definir herramientas
Crea las funciones de herramientas específicas del dominio que tu agente usará para interactuar con servicios externos.
3
Crear el agente y ejecutar
Inicializa el agente de LangChain con tus herramientas, establece el prompt del sistema y ejecuta una consulta.
Construir con otros frameworks
¿Listo para construir con LangChain?
Genera un proyecto listo para producción con LangChain preconfigurado — FastAPI + Next.js, auth, streaming y más.
Comenzar¿Listo para construir tu primer agente IA en producción?
Herramientas open-source, patrones probados en batalla, cero boilerplate. Configura tu stack y despliega en minutos — no meses.