file_get_contents (ใส่ค่าแบบ full url ไปเลย จะได้โค้ดเหมือนเราดูเว็บตัวเอง)
แล้วตามด้วย eregi แยกเอา <a href> ออกมา ให้เหลือแค่ url
ดึงค่ามาทำใส่เป็น temp ก่อน (จะเป็นไฟล์หรือ sql ก็ได้)
แล้วกำหนดความสำคัญของงานด้วย
แล้วเริ่มไล่ซ้ำแบบนี้กับลิงค์ย่อยแล้วบันทึกลงไฟล์ก็น่าจะได้นะครับ
งงปะครับ มันก็ไม่ยากนะครับ
ขึ้นอยู่กับว่าเว็บเราเขียนไว้ดีไหม
ถ้าทำลวกๆ แบบ shout url ก็ลำบากตอน eregi แยกมันออกมาเนี่ยแหละ
เพราะต้องเอาไปรวมกับลิงค์หลัก
ถ้าแบบเนี้ย crawl ได้อย่างที่ต้องการแน่ๆ
ปล. ระวังเรื่อง timeout ด้วยนะครับ และอย่าลืมใส่ flock ด้วย เดวไฟล์หายหมด

อีกอย่าง memory limit อีกตัว เพราะลิงค์คงเยอะจัด
และทำแบบนี้ก็เปลืองแบนวิทเหมือนให้เขามาดูด แต่ว่าเราทำเองมันก็ฟรีอะน่ะ
แล้วถ้าทำได้ เอาไว้ใช้วันหลังๆได้ด้วย