את הפוסט ביססתי על הבנצ’מארק הבא:
https://benchlm.ai/llm-pricing
עלויות שימוש
עלויות פיתוח ותחזוקה זה דבר הכרחי לקחת בחשבון כאשר מבססים חברה שרוצה להצליח.
הרי הצלחה = רווחים - עלויות + ערך מוסף
כמובן זה קצת יותר מורכב מזה, אולם אנחנו בקוד-פשוט אוהבים פשטות 😀
העולם מגלה בחזרה ובהדרגה כמה כוח חישוב זה לא עסק זול.
ומוזר כי ידענו את זה כבר, כל מתכנת/ת בשיעור חומרה בסיסי לומד/ת את זה, זיכרון זה זול, חישוביות זה יקר.
עתה נכנסו לשלב של קונסולידציה ותמכורים שונים - כולם משתמשים בבינה אבל לחברות רבות מחיר התחזוקה עולה על הרווחים.
מה שמחזיק את כל זה באויר אלו השקעות מטורפות והרבה ציפייה לעתיד.
אז למה זה עולה לנו כל כך הרבה?
1 - סוגי מודלים
מה שגורם לנו לעלויות זה המודל עצמו והתמכור של החברה שמספקת את המודל.
לפי אתר הבנצ’-מארק נוכל לראות תמכור ע”פ כמות טוקנים שנכנסים וכמות שיוצאים.
המודלים היקרים:
- O1 pro
- Gpt 5.4 pro
- Gpt 5.5 pro
בין המודלים הזולים:
- Qwen 3.5 flash
- Gpt-5 nano
- Gpt-4.1 nano
המודלים עם הרווחיות הכי טובה למשתמש:
- Grok 4.1 Fast
- Gpt-4o mini
- GPT-4.1 nano
2 - שימוש
אלה אם כן אתם משלמים חודשים ולא פר שימוש יש לכם די מחיר סדנרטי.
אולם חברות יגבילו אתכם כנראה בשלב מסוים.
אז המודל השני שזה מחיר פר שימוש, כמובן ייעלה לכם יותר עם שימוש מאסיבי יותר.
התמכור באתר הבנצ’מארק נעשה פר מיליון טוקנים.
3 - עלות פר מתכנת
רלוונטי לחברות, זה די ברור שאם החברה משתמשת בבינה היא תספק לכל האנשים שלה את הכלים האלו.
לפי שימוש, לפי צורך ולפי אדם, לכל אחד מהם יהיה גודל שימוש שונה.
חלק מהחברות בינה מציעות מחיר מוזל עבור כל מושב.
- מושב או Seat נחשב לאדם המשתמש במוצר.
4 - עלויות פיתוח הבינה
עתה ענינו על השאלה למה זה עולה לנו, כעת נענה על השאלה למה המחיר הזה?
כמובן שלפתח תוכנה זה עסק יקר בפני עצמו, צריך אנשים מוצלחים, מתודולוגיות פיתוח נכונות, חומרה וכלים.
עלויות הפיתוח של כלי הבינה לא עסק זול בכלל.
5 - עלויות תחזוקה
אמרנו כבר כוח חישוב?
ובכן, להחזיק צי וחוות שרתים זה גם לא עסק זול בפני עצמו.
העסק מתוחזק על ידי ערך שניתן למשתמשים, ואם מודלים צוברים מיליארד משתמשים אז אולי זה ייהפוך את העסק לרווחי אולם התחזוקה של השרתים תמיד תהיה דבר הכרחי.
נקווה שהחברות יידעו למקסם את השימוש שלהם בחומרה.
כמה טיפים להורדת העלויות
1 - עברו בין מודל למודל לפי צורך
לא תמיד צריך את כוח החישוב הכי גדול - אולי מודל פשוט וזול ייעשה לכם את העבודה כראוי.
2 - אמרו למודל להשתמש בפחות מילים.
אחד התוספים שהתפוצצו לקלוד הוא ה-caveman.
או כמו קווין מהמשרד :
Why waste lot word when few word do trick?
אמרו למודל או שמרו בחוקים הגלובליים שלו - תשתמש בפחות מילים ותהיה מדויק.
3 - הריצו מודל לוקאלי
ובכן יש מודלים פתוחים שניתנים להורדה ושימוש.
במקום על השרת זה יירוץ על המחשב שלכם.
אלה אם כן אתם צריכים כוח גרפי לרנדור - ואני מאמין שרוב האנשים לא צריכים את זה לרנדור - אז אתם יכולים לנצל את המעבד הגרפי שלכם לאקסטרה הוזלה.
3.5 - אימנו מודל לוקאלי על המידע שלכם
ועוד יותר טוב - תקחו את המודל הלוקאלי ואמנו אותו כרצונכם.
בשפה המקצועית Fine tuning.
כן, זה מעט עבודה וקצת כאב ראש, אולם במחיר שלו זה ייסתכם בפחות משימוש במודל יקר.
4 - Prompt Caching
טכניקה המשמרת את הקונטקס שלכם.
מה שזה עושה, זה שומר אותו ומנסה לגלות אותו מחדש, ואם הוא מצליח,
אז הגרסה השמורה משומשת ככה שאתם לא צריכים לעבד את כל ההיסטוריה שלכם מחדש.
https://platform.claude.com/docs/en/build-with-claude/prompt-caching
4.5 - סכמו את השיחה
כשאתם רואים שהקונטקס נהיה גדול יותר, בקשו מהצ’אט לסכם לכם את השיחה שלכם,
והתחילו צ’אט חדש מהסיכום.
זה מעיין “Cache” אולם בצורה נאיבית יותר - איך לא פחות מוצלחת.
5 - הגבילו את התשובה שלכם
לא רק לומר למודל להשתמש בפחות מילים, לעיתים ניתן להגדיר לו בצורה פיזית כמות טוקנים לשימוש.
למשל להגדיר max_tokens.
כלי הבינה מאלצים אותנו לחשוב מחדש על כל מה שידענו על תוכנה.
בפוסט הזה אני מדבר על חישוביות ומחירים, משהו שחשבנו שהכרנו אותו אך מגלים אותו מחדש.
מקווה שהטיפים יחסכו לכם טוקנים וכסף, ותהליך הפיתוח יהיה מהנה!
תודה על הקריאה!