ai-scraping · GitHub Topics

firecrawl / firecrawl

#网络爬虫#Firecrawl 是一种 API 服务，它爬取URL并将其转换为清洗过的 markdown 或结构化数据

人工智能爬虫 data Markdown scraper html-to-markdown 大语言模型 rag scraping web-crawler ai-scraping webscraping

TypeScript 57.2 k

3 小时前

ScrapeGraphAI / Scrapegraph-ai

#网络爬虫#Python scraper based on AI

scraping scraping-python automated-scraper 大语言模型人工智能 web-crawler web-scraping ai-scraping 爬虫 html-to-markdown Markdown rag

Python 21.29 k

1 个月前

D4Vinci / Scrapling

#网络爬虫#🕷️ An undetectable, powerful, flexible, high-performance Python library to make Web Scraping Easy and Effortless as it should be!

爬虫 crawling crawling-python Playwright Python scraping selectors stealth-game web-scraper web-scraping web-scraping-python webscraping xpath 自动化人工智能 ai-scraping data data-extraction mcp mcp-server

Python 7.29 k

1 小时前

any4ai / AnyCrawl

#网络爬虫#AnyCrawl 🚀: A Node.js/TypeScript crawler that turns websites into LLM-ready data and extracts structured SERP results from Google/Bing/Baidu/etc. Native multi-threading for bulk processing.

aitools crawl scrape webscraper ai-scraping data html-to-markdown rag scraping

TypeScript 2.14 k

9 小时前

itsOwen / CyberScraper-2077

#网络爬虫#A Powerful web scraper powered by LLM | OpenAI, Gemini & Ollama

ai-scraping 大语言模型 openai scraper webscraping gemini-api web-scraper

Python 1.77 k

1 个月前

raznem / parsera

#网络爬虫#Lightweight library for scraping web-sites with LLMs

data-extraction 大语言模型 scraping Python Open Source webscraping 人工智能 ai-scraping Playwright

Python 1.22 k

20 天前

firecrawl / firecrawl-app-examples

#大语言模型#🔥 This repository contains complete application examples, including websites and other projects, developed using Firecrawl.

人工智能 ai-scraping data Example html-to-markdown 大语言模型 Markdown rag web-crawler templates

Jupyter Notebook 543

3 个月前

ArchiveBox / abx-dl

#网络爬虫#⬇️ A simple all-in-one CLI tool to download EVERYTHING from a URL (like youtube-dl/yt-dlp, forum-dl, gallery-dl, simpler ArchiveBox). 🎭 Uses headless Chrome to get HTML, JS, CSS, images/video/audio/s...

Chrome crawling cURL 下载器 headless Playwright Puppeteer scraping wget youtube-dl yt-dlp cli-tool 命令行界面 http-client ai-scraping

JavaScript 82

25 天前

WeebDataHoarder / go-away

[Mirror] Self-hosted abuse detection and rule enforcement against low-effort mass AI scraping and bots.

ai-scraping http-proxy 安全 mirror

Go 76

10 天前

kaymen99 / ai-web-scraper

#网络爬虫#AI web scraper built with Crawl4AI for extracting structured leads data from websites.

ai-agents ai-scraping crawl4ai 大语言模型 scraper web-scraper web-scraping

Python 46

7 个月前

spider-rs / web-crawling-guides

#网络爬虫#How to guides on web-crawling or scraping

agents ai-agents ai-scraping 爬虫 html-to-markdown scraper web-scraping

5 个月前

spider-rs / spider-clients

#网络爬虫#Python, Javascript, and Rust libraries for the Spider Cloud API.

人工智能 ai-agents ai-scraping 爬虫 html-to-markdown scraper spider web-scraping Supabase

Python 19

17 天前

Chakszzz / NB-Scraper

#网络爬虫#All Scrapers Resource Available Here! Give Us Stars🌟

ai-scraping facebook-scraper scraper Open Source youtube-downloader ytdl

TypeScript 15

2 个月前

L1shed / Turbo

Fastest and cheapest distributed residential proxy network.

ai-scraping web-scraping payment-gateway iaas collaborate

TypeScript 9

14 天前

kaymen99 / google-maps-lead-generator

Extract Google Maps business leads and enrich contact details using AI & web scraping

ai-agents ai-scraping Google 地图 google-maps-api web-scraping

Python 5

3 个月前

oxylabs / oxylabs-ai-studio-py

Oxylabs AI Studio python SDK

ai-scraping ai-search ai-tools web-scraping web-scraping-python

Python 4

1 个月前

GitRectify / scrapegraph-ai

#网络爬虫#ScrapeGraphAI is a Python-based web-scraping framework that pairs large-language-model reasoning with a graph-style pipeline engine to turn websites (or local XML/HTML/JSON/Markdown files) into struct...

人工智能 ai-scraping automated-scraper 爬虫 html-to-markdown 大语言模型 Markdown rag scraping scraping-python web-crawler web-scraping

Python 4

3 个月前

drisskhattabi6 / AI-Scraper

#网络爬虫#AI Scraper : scrap and extract data from website in any format (CSV, JSON, HTML...) using Selenium or Crawl4ai, and using Ollama or Sambanova API, and using Streamlit for UI as chatbot

ai-scraping crawl4ai 爬虫 crawling ollama ollama-api openrouter openrouter-api scraper scraping Selenium selenium-python Streamlit streamlit-webapp

Python 3

4 个月前

nathabonfim59 / md-fetch

#网络爬虫#A CLI tool and REST API that converts web content to clean Markdown, bypassing anti-scraping measures using headless browsers. Perfect for AI/LLM applications

ai-scraping Go scraper

Go 3

7 个月前

vonuyvicoo / crava

#大语言模型#AI-powered web scraper using Javascript/Typescript.

ai-scraping 大语言模型 webscraping

TypeScript 2

3 个月前