איך חוסמים את ChatGPT ומונעים ממנו לגנוב תוכן מהאתר שלכם

אין ספק ש-Chat GPT הוא כלי מופלא; אחד מני רבים בתחום הבינה המלאכותית שעוד יגעשו עלינו בשנים הבאות.

אבל מצד שני – זה לא אומר שנרצה לאפשר לו להשתמש בתוכן שלנו, כדי לתת תשובות לאנשים אחרים.

איך חוסמים את צ'ט GPT

למה בעצם?
כי צ'ט GPT זה לא גוגל.

בעוד שגוגל מציג את המקור שממנו נלקח הטקסט (גם כשמדובר בתוצאה אפס או בתשובות ישירות), צ'ט GPT לא מציג את המקורות (נכון לעכשיו). זה אומר שהוא יכול לקחת תוכן מהאתר שלכם על מנת לענות לשאלות של משתמשים, בלי שאתם תקבלו קרדיט.

יש כאלה שזה לא יפריע להם… אבל יש כאלה שכן. נכון לספטמבר 2023, לפחות רבע ממאה האתרים הגדולים בארה"ב חוסמים את הבוט של Chat GPT. הסיבה העיקרית לכך היא כפי שציינתי – הבוט לוקח תוכן, מידע ונתונים אבל לא נותן קרדיט כלשהו.

למרבה המזל ניתן למנוע מ-Chat GPT לגנוב את התוכן מהאתר שלכם.

רגע, ממתי Chat GPT יכול לסרוק את הרשת?

צ'ט GPT התאמן על נתונים ומידע שניתנו לו עד שנת 2021. כלומר, כל מה שקרה מ-2022 והלאה לא נכלל במאגר שלו – ולכן הוא לא יכל להתייחס לכך בתשובותיו. אז מה בכל זאת השתנה?

ההבדל הוא שכיום יש גם זחלן / בוט של צ'ט GPT, מה שנקרא User Agent בעולם מנועי החיפוש. הזחלן הזה מסוגל כעת לסרוק גם את רשת האינטרנט בצורה כלשהי, לשלוף משם מידע ולהציג אותו בתשובות.

אומנם הוא לא עושה את זה כמו מנוע חיפוש רגיל (רק לפי בקשה ולא בצורה אוטומטית), אבל זה אומר של-Chat GPT יש גישה כלשהי לתוכן באינטרנט, וזה ככל הנראה רק ישתפר עם הזמן.

נכון לעכשיו אי אפשר לבקש ממנו לסרוק ולחלץ תוכן מתוך אתרים; אבל עד כמה שהבנתי – כשאנו שואלים שאלות אחרות הוא יכול לעשות זאת מאחורי הקלעים.

רוצה להתקדם?

    קידום אורגניייעוץ SEOשיעור פרטי

    איך חוסמים את צ'ט GPT?

    פשוט מאוד, באמצעות 2 שורות קוד קצרות חוסמים את כל האתר לסריקה:

    User-agent: ChatGPT-User
    Disallow: /

    את 2 שורות הקוד האלה צריך להוסיף (במדויק כפי שהן מוצגות כאן) לקובץ שנקרא robots.txt ונמצא כמעט בכל אתר. הקובץ הזה – כשמו כן הוא – נותן הוראות לבוטים / זחלנים שונים כיצד להתנהג באתר: האם מותר להם לסרוק את האתר או לא, אילו חלקים מותרים ואילו אסורים וכן הלאה.

    כפי שציינתי קודם, הפקודה הזו תחסום את כל האתר. אבל אם נרצה לאפשר לצ'ט GPT לסרוק רק חלקים ספציפיים באתר, נוכל לאפשר זאת באמצעות שינויים בקוד. לדוגמה, אם נרצה לאפשר לסרוק רק עמוד מסוים או קטגוריה שלמה של עמודים דומים, נציין זאת בקוד בצורה הבאה:

    User-agent: ChatGPT-User
    Disallow:
    Allow: /page1/
    Allow: /page2/

    עוד אופציה היא למנוע סריקה אך ורק של חלקים מסוימים באתר (לדוגמה רק את הבלוג):

    User-agent: ChatGPT-User
    Disallow: /blog/

    איפה נמצא קובץ robots.txt?

    קובצי רובוט נמצאים בדרך כלל בדומיין הראשי – לדוגמה:

    https://www.amitadler.co.il/robots.txt

    הגישה לעריכת הקובץ תלויה במערכת הניהול בה אתם משתמשים. באתרי וורדפרס (שהם רוב האתרים בעולם נכון להיום) ניתן לגשת ישירות דרך תוסף Yoast (כלים > עריכת קבצים > robots.txt). כך זה נראה אצלי באתר:

    עריכת קובץ robots.txt

    באתרים אחרים הגישה תתבצע בדרכים אחרות: ממשק ניהול כלשהו, סי פאנל, FTP וכן הלאה. אם אינכם בטוחים, ניתן להיעזר בתמיכה הטכנית של כל ספק (או שתפנו אליי ואשתדל לעזור לכם).

    האם באמת אפשר לחסום את Chat GPT?

    התשובה כאן לא חד משמעית.

    מצד אחד ייתכן שאם האתר שלכם כבר נסרק, צ'ט GPT ישמור את המידע אצלו לנצח. מצד שני, פקודת האיסור תמנע ממנו לסרוק חלקים חדשים באתר ו/או מידע חדש שאתם מעדכנים.

    האם כדאי לחסום את Chat GPT?

    גם פה אין תשובה חד משמעית.

    הבעיה היחידה שבגללה שווה לחסום את צ'ט GPT, היא היעדר מתן קרדיט למקור ממנו נלקח המידע. עסקים, חברות וארגונים עשויים להחליט שהם לא מעוניינים לנדב מידע בחינם, בלי לקבל על כך תמורה כלשהו בצורת כניסות לאתר או קרדיט כלשהו.

    הרחבה: איך למנוע מהמתחרים לרגל אחרי האתר שלכם

    דילוג לתוכן