ThaiSEOBoard.com

พัฒนาเว็บไซต์ => Programming => ข้อความที่เริ่มโดย: Jenosize ที่ 19 กรกฎาคม 2017, 16:04:18



หัวข้อ: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
เริ่มหัวข้อโดย: Jenosize ที่ 19 กรกฎาคม 2017, 16:04:18
ถ้าจะหา tools ซักตัวมาตรวจสอบเว็บ และเป็น tools ที่เน้นความเร็วในการสำรวจมากที่สุด (ไม่ต้องที่สุดก็ได้)

มีใครพอจะแนะนำได้บ้างไหมครับ ว่าตัวไหนสุดจี๊ด
http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/


Name   Language   Platform
Heritrix   Java   Linux
Nutch   Java   Cross-platform
Scrapy   Python   Cross-platform
DataparkSearch   C++   Cross-platform
GNU Wget   C   Linux
GRUB   C#, C, Python, Perl   Cross-platform
ht://Dig   C++   Unix
HTTrack   C/C++   Cross-platform
ICDL Crawler   C++   Cross-platform
mnoGoSearch   C   Windows
Norconex HTTP Collector   Java   Cross-platform
Open Source Server   C/C++, Java PHP   Cross-platform
PHP-Crawler   PHP   Cross-platform
YaCy   Java   Cross-platform
WebSPHINX   Java   Cross-platform
WebLech   Java   Cross-platform
Arale   Java   Cross-platform
JSpider   Java   Cross-platform
HyperSpider   Java   Cross-platform
Arachnid   Java   Cross-platform
Spindle   Java   Cross-platform
Spider   Java   Cross-platform
LARM   Java   Cross-platform
Metis   Java   Cross-platform
SimpleSpider   Java   Cross-platform
Grunk   Java   Cross-platform
CAPEK   Java   Cross-platform
Aperture   Java   Cross-platform
Smart and Simple Web Crawler   Java   Cross-platform
Web Harvest   Java   Cross-platform
Aspseek   C++   Linux
Bixo   Java   Cross-platform
crawler4j   Java   Cross-platform
Ebot   Erland   Linux
Hounder   Java   Cross-platform
Hyper Estraier   C/C++   Cross-platform
OpenWebSpider   C#, PHP   Cross-platform
Pavuk   C   Lunix
Sphider   PHP   Cross-platform
Xapian   C++   Cross-platform
Arachnode.net   C#   Windows
Crawwwler   C++   Java
Distributed Web Crawler   C, Java, Python   Cross-platform
iCrawler   Java   Cross-platform
pycreep   Java   Cross-platform
Opese   C++   Linux
Andjing   Java   
Ccrawler   C#   Windows
WebEater   Java   Cross-platform
JoBo   Java   Cross-platform


หัวข้อ: Re: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
เริ่มหัวข้อโดย: DeGea ที่ 19 กรกฎาคม 2017, 16:37:24
Scrapy , BS4 ;Python

ผมใช้ตัวนี้ เป็น Spider
ชอนไช ได้ดี+เร็ว ทีเดียว

กวาด shopping mall (grid,list) web -> Wayfair . Nord . Amazon . Shopbop ,..

รันที่ Remote . :wanwan003:


หัวข้อ: Re: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
เริ่มหัวข้อโดย: buakaew ที่ 19 กรกฎาคม 2017, 17:32:39
โอ้วว มีแต่คนเก่งๆ  :wanwan011:


หัวข้อ: Re: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
เริ่มหัวข้อโดย: subport ที่ 19 กรกฎาคม 2017, 17:54:29
ใครพอจะรู้บ้าง แสนรู้ เค้าใช้ตัวใดอยู่ อิอิ


หัวข้อ: Re: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
เริ่มหัวข้อโดย: infamous ที่ 20 กรกฎาคม 2017, 00:17:11
ตัวไหนก็ได้ครับที่เราเข้าใจใน syntax และสามารถเขียนได้เร็วที่สุด และฉลาดที่สุด และประมวลผลได้เร็วที่สุด


หัวข้อ: Re: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
เริ่มหัวข้อโดย: Jenosize ที่ 20 กรกฎาคม 2017, 01:26:28
ไปถามฝรั่งเค้าบอกตัวนี้ แต่มันจะเร็วกว่า Scrapy   Python  เชียวหรือ


If you have access to enough proxies a fast network connection and a dedicated server it can sustain 2000 threads per second.
https://en.a-parser.com/