ThaiSEOBoard.com

พัฒนาเว็บไซต์ => Programming => หัวข้อเริ่มโดย: nuugib ใน 17 พฤษภาคม 2012, 00:19:09

ชื่อเรื่อง: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: nuugib ใน 17 พฤษภาคม 2012, 00:19:09
พอดีปรกติใช้ curl กับเว็บนึงอยู่

ไปๆมาๆ เหมือนว่าจะเข้าไม่ได้ แล้ว ณ ตอนนี้

ทำไง ถึงจะเนียนๆ เขียนใส่ option อะไรดี จะได้ดูเหมือนเป็นคนเข้าไปมากที่สุดคะ


:wanwan017:
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: LifeGood ใน 17 พฤษภาคม 2012, 00:22:25
อ้างถึงจาก: nuugib ใน 17 พฤษภาคม 2012, 00:19:09
พอดีปรกติใช้ curl กับเว็บนึงอยู่

ไปๆมาๆ เหมือนว่าจะเข้าไม่ได้ แล้ว ณ ตอนนี้

ทำไง ถึงจะเนียนๆ เขียนใส่ option อะไรดี จะได้ดูเหมือนเป็นคนเข้าไปมากที่สุดคะ


:wanwan017:

ทำได้แค่ปลอม user agent เป็น google bot ครับ ส่วนจะทำให้เหมือนคนเข้าไปนี่ยากครับ เพราะคนเข้ากับ bot เข้ามันต่างกัน เวลา bot เข้ามันจะดึงไปแค่ส่วนของ html แต่ถ้าคนเข้ามันจะโหลดพวกรูปภาพ css javascript ด้วย ดูออกนะครับว่าอันไหนคนอันไหน bot
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: siammbk ใน 17 พฤษภาคม 2012, 01:17:18
ก็ให้ crul มันอ่านให้หมดสิคับแบบนั้น

ข้อแนะนำ ให้มองตัวเราเองว่าเป็นผู้เข้าใช้งานก่อนคับ ถึงจะมองออกมามัน ok หรือป่าว

ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: LifeGood ใน 17 พฤษภาคม 2012, 01:20:38
อ้างถึงจาก: siammbk ใน 17 พฤษภาคม 2012, 01:17:18
ก็ให้ crul มันอ่านให้หมดสิคับแบบนั้น

ข้อแนะนำ ให้มองตัวเราเองว่าเป็นผู้เข้าใช้งานก่อนคับ ถึงจะมองออกมามัน ok หรือป่าว



ทำยังไงเหรอครับ
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: mixture ใน 17 พฤษภาคม 2012, 03:20:23
ต้องดูก่อนครับว่าที่ไม่ได้เพราะอะไร ถ้าตอนแรกไม่ได้ระบุ Agent ให้ลองระบุดู ตัวอย่างด้านล่าง
function curl_url($url) {
    $agent = "Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.4) Gecko/20030624 Netscape/7.1 (ax)";
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_USERAGENT, $agent);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 15);
    $result = curl_exec($ch);
    curl_close($ch);
    if ($result) {
        return $result;
    } else {
        return false;
    }
}


ระบุแล้ว ก็ทดสอบ $result = curl_exec($ch); เช็คดูว่า $result มีผลลัพธ์หรือไม่ ถ้าไม่มีอาจโดน Block IP ครับ ทางแก้คือเปลี่ยน IP หรือใช้พวก Proxy

http://blog.proxybonanza.com/programming/php-curl-with-proxy/
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: marus ใน 17 พฤษภาคม 2012, 06:24:22
ดูก่อนว่าทำไมใช้ไม่ได้ แล้วแก้กันไป
ถ้าโดนบล็อก ip เขียน curl ขั้นเทพก็เท่านั้น
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: zidit ใน 17 พฤษภาคม 2012, 09:13:39
ใส่ user-agent ก็พอช่วยได้ครับ แต่บางทีดูพฤติกรรมการเข้าเว็บก็รู้แล้วครับว่าอันไหนคน อันไหนบอท
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: tapanon ใน 17 พฤษภาคม 2012, 09:28:09
อ้างถึงจาก: zidit ใน 17 พฤษภาคม 2012, 09:13:39
ใส่ user-agent ก็พอช่วยได้ครับ แต่บางทีดูพฤติกรรมการเข้าเว็บก็รู้แล้วครับว่าอันไหนคน อันไหนบอท

User Agent กับ Http Header ประมาณนี้ลองใช้ Browser FF แล้วใช้ addon firebug ดู http header กับ User Agent แล้วก็ทำให้เหมือนครับ  แต่ตามท่านด้านบนว่า  ถ้ามีคนดูเว็บ analytics ก็จะรู้ว่าเข้ามาแบบนี้ bot แต่แอบเนียนเป้นคนเห้อๆๆๆ ลองดูครับ
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: UnzO ใน 17 พฤษภาคม 2012, 09:55:59
ผมเคยเขียนไว้ ดูดเว็บได้อยู่เกือบปี แต่สุดท้ายเค้าก็รู้ครับ (ผมใช้บอทเข้าไปดึงข้อมูลของ google) ก็ใช่วิธีปลอม user agent แหละครับ แต่ผมใช้เป็นสิบๆ เลยครับ แล้วก็แรมดอมเข้าหลายๆ ประเทศ (พวก .com .co.th .bla bla)

แต่สุดท้ายเค้าก็รู้นะ

หรือไปดึงเว็บบทความอื่นๆ ก็มีครับ อยู่ได้นานเหมือนกัน โดยใช้วิธีปลอม user agent นี่แหละ (ปลอมให้เป็นบอทของ google bing yahoo) แต่สุดท้ายเค้าก็รู้นะครับ เพราะ ip มันฟ้อง ฮ่าๆๆ
ชื่อเรื่อง: Re: เขียน CURL แบบไหน ถึงจะเนียนจน host ต้นทางไม่รุ้ว่าเราเป็น bot คะ
โพสต์โดย: obi001 ใน 17 พฤษภาคม 2012, 23:02:41
อ้างถึงจาก: UnzO ใน 17 พฤษภาคม 2012, 09:55:59
ผมเคยเขียนไว้ ดูดเว็บได้อยู่เกือบปี แต่สุดท้ายเค้าก็รู้ครับ (ผมใช้บอทเข้าไปดึงข้อมูลของ google) ก็ใช่วิธีปลอม user agent แหละครับ แต่ผมใช้เป็นสิบๆ เลยครับ แล้วก็แรมดอมเข้าหลายๆ ประเทศ (พวก .com .co.th .bla bla)

แต่สุดท้ายเค้าก็รู้นะ

หรือไปดึงเว็บบทความอื่นๆ ก็มีครับ อยู่ได้นานเหมือนกัน โดยใช้วิธีปลอม user agent นี่แหละ (ปลอมให้เป็นบอทของ google bing yahoo) แต่สุดท้ายเค้าก็รู้นะครับ เพราะ ip มันฟ้อง ฮ่าๆๆ
google ตัวดีเลย เปลี่ยน ip มันยังรู้ ขนาด ผม เขียน autoit คล้าย imacro นะ
ทำงาน บน ff