ยินดีต้อนรับคุณ, บุคคลทั่วไป กรุณา เข้าสู่ระบบ หรือ ลงทะเบียน

เข้าสู่ระบบด้วยชื่อผู้ใช้ รหัสผ่าน และระยะเวลาในเซสชั่น

ThaiSEOBoard.comพัฒนาเว็บไซต์Programmingเขียนสคิปยังไงให้ทำงานเหมือน bot google ด้วย php
หน้า: [1]   ลงล่าง
พิมพ์
ผู้เขียน หัวข้อ: เขียนสคิปยังไงให้ทำงานเหมือน bot google ด้วย php  (อ่าน 1228 ครั้ง)
0 สมาชิก และ 1 บุคคลทั่วไป กำลังดูหัวข้อนี้
matay107
คนรักเสียว
*

พลังน้ำใจ: 5
ออฟไลน์ ออฟไลน์

กระทู้: 133



ดูรายละเอียด เว็บไซต์
« เมื่อ: 15 พฤษภาคม 2013, 19:20:58 »

จะเขียนสคิปยังไงให้ทำงานเหมือน bot google ด้วย php อะครับ
บันทึกการเข้า

http://www.mtect-news.com เว็บไซต์ ข่าว it ของคนรุ่นใหม่
normalblue
คนรักเสียว
*

พลังน้ำใจ: 31
ออฟไลน์ ออฟไลน์

กระทู้: 145



ดูรายละเอียด
« ตอบ #1 เมื่อ: 15 พฤษภาคม 2013, 19:36:38 »

A statement from google
อ้างถึง
We use a huge set of computers to fetch (or "crawl") billions of pages on the web. Googlebot uses an algorithmic process: computer programs determine which sites to crawl, how often, and how many pages to fetch from each site.

จะเห็นได้ว่า Algorithm ของเขาไม่ได้เปิดเผย แต่หากดู Pattern ออกก็พอทำ Algorithm ย้อนกลับได้ ส่วน Web crawler ที่ฟรีก็มีหลายตัว เอาไปศึกษาดูครับ

Abot (Developer Site Link) is a C# web crawler built for speed and flexibility, Apache License 2.0 License (free for commercial and personal use)
Aspseek is a crawler, indexer and a search engine written in C++ and licensed under the GPL
DataparkSearch is a crawler and search engine released under the GNU General Public License.
GNU Wget is a command-line-operated crawler written in C and released under the GPL. It is typically used to mirror Web and FTP sites.
GRUB is an open source distributed search crawler that Wikia Search used to crawl the web.
Heritrix is the Internet Archive's archival-quality crawler, designed for archiving periodic snapshots of a large portion of the Web. It was written in Java.
ht://Dig includes a Web crawler in its indexing engine.
HTTrack uses a Web crawler to create a mirror of a web site for off-line viewing. It is written in C and released under the GPL.
ICDL Crawler is a cross-platform web crawler written in C++ and intended to crawl Web sites based on Website Parse Templates using computer's free CPU resources only.
mnoGoSearch is a crawler, indexer and a search engine written in C and licensed under the GPL (Linux machines only)
Nutch is a crawler written in Java and released under an Apache License. It can be used in conjunction with the Lucene text-indexing package.
Open Search Server is a search engine and web crawler software release under the GPL.
PHP-Crawler is a simple PHP and MySQL based crawler released under the BSD. Easy to install it became popular for small MySQL-driven websites on shared hosting.
the tkWWW Robot, a crawler based on the tkWWW web browser (licensed under GPL).
Scrapy, an open source webcrawler framework, written in python (licensed under BSD).
Seeks, a free distributed search engine (licensed under Affero General Public License).
YaCy, a free distributed search engine, built on principles of peer-to-peer networks (licensed under GPL).
บันทึกการเข้า
nut_457
คนรักเสียว
*

พลังน้ำใจ: 9
ออฟไลน์ ออฟไลน์

กระทู้: 105



ดูรายละเอียด
« ตอบ #2 เมื่อ: 18 พฤษภาคม 2013, 16:53:12 »

ลองดูตามนี้ฮะ

http://sourceforge.net/projects/php-crawler

 Shocked
บันทึกการเข้า
esanza.com
เจ้าพ่อบอร์ดเสียว
*

พลังน้ำใจ: 270
ออฟไลน์ ออฟไลน์

กระทู้: 3,672



ดูรายละเอียด
« ตอบ #3 เมื่อ: 18 พฤษภาคม 2013, 16:54:55 »

เขียนสคริปน่าัจะไม่ยากหรอกครับ
แต่ server ท่านจะไหวรึป่าว   wanwan009 wanwan009 wanwan009
บันทึกการเข้า

ใครต้องการเช่าโฮสที่มี Control Panel ดีๆ
และ Support ดี แนะนำ => โฮสอะตอม
koncept
สมุนแก๊งเสียว
*

พลังน้ำใจ: 124
ออฟไลน์ ออฟไลน์

กระทู้: 937



ดูรายละเอียด เว็บไซต์
« ตอบ #4 เมื่อ: 18 พฤษภาคม 2013, 16:56:42 »

ผมไม่รู้..แต่ผมทำเป็น
บันทึกการเข้า

ฟรีใบงาน แผนการสอน ฟรีใบงาน แผนการสอน
Back link, Text Link Ads เพียง 1999 บาทต่อปี การศึกษา
แหล่งเครื่องมือสร้างแบคลิงก์แห่งแรกในเอเชียใต้ เว็บไซต์เกสต์โพสต์ เครื่องมือสร้างแบคลิงก์
เครื่องมือสร้างแบคลิงก์ เว็บไซต์เกสต์โพสต์ 
masterkan
คนรักเสียว
*

พลังน้ำใจ: 17
ออฟไลน์ ออฟไลน์

กระทู้: 174



ดูรายละเอียด
« ตอบ #5 เมื่อ: 18 พฤษภาคม 2013, 17:02:31 »

ลองขั้นพื้นฐานก่อนนะครับ

โค๊ด:
http://webbotsspidersscreenscrapers.com/
บันทึกการเข้า
nom_loso
ก๊วนเสียว
*

พลังน้ำใจ: 24
ออฟไลน์ ออฟไลน์

กระทู้: 474



ดูรายละเอียด
« ตอบ #6 เมื่อ: 18 พฤษภาคม 2013, 17:04:46 »

ผมเคยทำเป็น Windows App รันไปเกบข้อมูลเว็บ
 wanwan003 wanwan003 wanwan003
บันทึกการเข้า
หน้า: [1]   ขึ้นบน
พิมพ์