ยินดีต้อนรับคุณ, บุคคลทั่วไป กรุณา เข้าสู่ระบบ หรือ ลงทะเบียน

เข้าสู่ระบบด้วยชื่อผู้ใช้ รหัสผ่าน และระยะเวลาในเซสชั่น

ThaiSEOBoard.comพัฒนาเว็บไซต์ProgrammingWeb Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่
หน้า: [1]   ลงล่าง
พิมพ์
ผู้เขียน หัวข้อ: Web Crawlers ตอนนี้ในวางการ ตัวไหนเร็วที่สุดครับ จะมีคนตอบได้ไหมนี่  (อ่าน 1042 ครั้ง)
0 สมาชิก และ 1 บุคคลทั่วไป กำลังดูหัวข้อนี้
Jenosize
หัวหน้าแก๊งเสียว
*

พลังน้ำใจ: 89
ออฟไลน์ ออฟไลน์

กระทู้: 2,589



ดูรายละเอียด
« เมื่อ: 19 กรกฎาคม 2017, 16:04:18 »

ถ้าจะหา tools ซักตัวมาตรวจสอบเว็บ และเป็น tools ที่เน้นความเร็วในการสำรวจมากที่สุด (ไม่ต้องที่สุดก็ได้)

มีใครพอจะแนะนำได้บ้างไหมครับ ว่าตัวไหนสุดจี๊ด
http://bigdata-madesimple.com/...-web-crawlers-for-data-mining/


Name   Language   Platform
Heritrix   Java   Linux
Nutch   Java   Cross-platform
Scrapy   Python   Cross-platform
DataparkSearch   C++   Cross-platform
GNU Wget   C   Linux
GRUB   C#, C, Python, Perl   Cross-platform
ht://Dig   C++   Unix
HTTrack   C/C++   Cross-platform
ICDL Crawler   C++   Cross-platform
mnoGoSearch   C   Windows
Norconex HTTP Collector   Java   Cross-platform
Open Source Server   C/C++, Java PHP   Cross-platform
PHP-Crawler   PHP   Cross-platform
YaCy   Java   Cross-platform
WebSPHINX   Java   Cross-platform
WebLech   Java   Cross-platform
Arale   Java   Cross-platform
JSpider   Java   Cross-platform
HyperSpider   Java   Cross-platform
Arachnid   Java   Cross-platform
Spindle   Java   Cross-platform
Spider   Java   Cross-platform
LARM   Java   Cross-platform
Metis   Java   Cross-platform
SimpleSpider   Java   Cross-platform
Grunk   Java   Cross-platform
CAPEK   Java   Cross-platform
Aperture   Java   Cross-platform
Smart and Simple Web Crawler   Java   Cross-platform
Web Harvest   Java   Cross-platform
Aspseek   C++   Linux
Bixo   Java   Cross-platform
crawler4j   Java   Cross-platform
Ebot   Erland   Linux
Hounder   Java   Cross-platform
Hyper Estraier   C/C++   Cross-platform
OpenWebSpider   C#, PHP   Cross-platform
Pavuk   C   Lunix
Sphider   PHP   Cross-platform
Xapian   C++   Cross-platform
Arachnode.net   C#   Windows
Crawwwler   C++   Java
Distributed Web Crawler   C, Java, Python   Cross-platform
iCrawler   Java   Cross-platform
pycreep   Java   Cross-platform
Opese   C++   Linux
Andjing   Java   
Ccrawler   C#   Windows
WebEater   Java   Cross-platform
JoBo   Java   Cross-platform
บันทึกการเข้า

สู้ตายโว้ย.
DeGea
สมุนแก๊งเสียว
*

พลังน้ำใจ: 23
ออฟไลน์ ออฟไลน์

กระทู้: 608



ดูรายละเอียด
« ตอบ #1 เมื่อ: 19 กรกฎาคม 2017, 16:37:24 »

Scrapy , BS4 ;Python

ผมใช้ตัวนี้ เป็น Spider
ชอนไช ได้ดี+เร็ว ทีเดียว

กวาด shopping mall (grid,list) web -> Wayfair . Nord . Amazon . Shopbop ,..

รันที่ Remote . wanwan003
บันทึกการเข้า






X ไม่รับปรึกษาเรื่องทำ Aff ใดๆ .
buakaew
หัวหน้าแก๊งเสียว
*

พลังน้ำใจ: 41
ออฟไลน์ ออฟไลน์

กระทู้: 1,365



ดูรายละเอียด เว็บไซต์
« ตอบ #2 เมื่อ: 19 กรกฎาคม 2017, 17:32:39 »

โอ้วว มีแต่คนเก่งๆ  wanwan011
บันทึกการเข้า

Affiliate ไทยจ่ายจริงกินหลายชั้นลึกหลากหลายผลิตภัณฑ์Affiliate ไทย
รีวิว คูปองฟรี Hosting ไทยและเทศรีวิว Hosting
ดูดวงออนไลน์ฟรีดูดวง
พระเครื่องออนไลน์พระเครื่อง

subport
ก๊วนเสียว
*

พลังน้ำใจ: 19
ออฟไลน์ ออฟไลน์

กระทู้: 343



ดูรายละเอียด เว็บไซต์
« ตอบ #3 เมื่อ: 19 กรกฎาคม 2017, 17:54:29 »

ใครพอจะรู้บ้าง แสนรู้ เค้าใช้ตัวใดอยู่ อิอิ
บันทึกการเข้า

♦ เชี่ยวชาญระบบ Wordpress เป็นพิเศษ | ปรับแต่งและออกแบบธีม |  ปรึกษาฟรี ไม่ต้องเกรงใจ ทักได้ตลอด
♦ โดย STOMS | โทร.061-569-9591
infamous
ก๊วนเสียว
*

พลังน้ำใจ: 14
ออฟไลน์ ออฟไลน์

กระทู้: 295



ดูรายละเอียด
« ตอบ #4 เมื่อ: 20 กรกฎาคม 2017, 00:17:11 »

ตัวไหนก็ได้ครับที่เราเข้าใจใน syntax และสามารถเขียนได้เร็วที่สุด และฉลาดที่สุด และประมวลผลได้เร็วที่สุด
บันทึกการเข้า
Jenosize
หัวหน้าแก๊งเสียว
*

พลังน้ำใจ: 89
ออฟไลน์ ออฟไลน์

กระทู้: 2,589



ดูรายละเอียด
« ตอบ #5 เมื่อ: 20 กรกฎาคม 2017, 01:26:28 »

ไปถามฝรั่งเค้าบอกตัวนี้ แต่มันจะเร็วกว่า Scrapy   Python  เชียวหรือ


If you have access to enough proxies a fast network connection and a dedicated server it can sustain 2000 threads per second.
https://en.a-parser.com/
บันทึกการเข้า

สู้ตายโว้ย.
หน้า: [1]   ขึ้นบน
พิมพ์