LangChain
Web-Scraping-Agent mit LangChain
Erstellen Sie einen intelligenten Web-Scraping-Agenten, der Seiten abruft, strukturierte Daten extrahiert und Paginierung verarbeitet — mit LangChain.
web scrapingdata extractionHTTPparsing
Funktionierender Code
from langchain_openai import ChatOpenAIfrom langchain_core.tools import tool
@tooldef fetch_url(url: str) -> str: """Fetch a webpage and return its content as markdown.""" import httpx from markdownify import markdownify response = httpx.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=15) return markdownify(response.text)[:5000]
@tooldef extract_data(text: str, instruction: str) -> str: """Extract structured data from text based on instruction.""" # Uses the LLM itself to parse — no regex needed return f"Extracting from {len(text)} chars: {instruction}"
model = ChatOpenAI(model="gpt-4o")model_with_tools = model.bind_tools([fetch_url, extract_data])response = model_with_tools.invoke([ ("system", "You are a web scraping agent. Fetch pages, extract the requested data, and return it in structured format. Respect robots.txt."), ("user", "Scrape the pricing page at example.com/pricing and extract all plan names and prices"),])Schritt für Schritt
1
Abhängigkeiten installieren
Installieren Sie LangChain und die benötigten Tools für diesen Anwendungsfall.
2
Tools definieren
Erstellen Sie domänenspezifische Tool-Funktionen, die Ihr Agent zur Interaktion mit externen Diensten verwenden wird.
3
Agent erstellen und ausführen
Initialisieren Sie den LangChain-Agenten mit Ihren Tools, setzen Sie den System-Prompt und führen Sie eine Abfrage aus.
Mit anderen Frameworks bauen
Weitere Anleitungen mit LangChain
Bereit, mit LangChain zu bauen?
Generieren Sie ein produktionsbereites Projekt mit vorkonfiguriertem LangChain — FastAPI + Next.js, Auth, Streaming und mehr.
LoslegenBereit, deinen ersten Produktions-KI-Agenten zu bauen?
Open-Source-Tools, kampferprobte Patterns, null Boilerplate. Konfiguriere deinen Stack und shippe in Minuten — nicht Monaten.