מאחורי הקלעים של קרסר | LangTalks News #12

🗓️W14-15 x 2025🗓️ הסיכום הדו-שבועי של הדיונים בקבוצות הוואסטאפ שלנו

LangTalks

Apr 21, 2025

מאחורי הקלעים של Cursor

פרומפט יחיד + מעט Tools: אחד המשתתפים הציג מחקר לפיו Cursor מסתפקת ב- system prompt מינימלי ומעט כלים; ‏‏RAG מוזנק כ‑service רק כשנדרש הקשר. צורף קישור לפרומפט המקורי.
RAG כפונקציית רקע: המנוע שולף קבצי‑קונטקסט רק כאשר השאילתה באמת דורשת ידע ממסמכי‑קוד או דוקומנטציה פנימיים, במקום לצרף אותם לכל פנייה. מנגנון ה‑selector שומר על חלון הקשר קטן - חיסכון בטוקנים ובכסף. מבחינה ארכיטקטונית, RAG מתפקד כמו micro‑service חיצוני ל‑LLM, מה שמקל לתחזק או להחליף אותו בלי לגעת בליבת‑המודל.
מודלים קטנים + LoRA לחיסכון בעלויות: עלה ש‑Cursor עובדת על מודלים פתוחים של פחות או יותר 8 מיליארד פרמטרים שעברו Fine‑Tuning עם LoRA, ורק בחשבון Pro מקבלים גישה למודל גדול (16‑34 B). הפיצול חוסך עלויות inference ומאפשר latency תחרותי. למפתחים זה אומר: לא חייבים GPT‑4o כדי להגיע לחוויית IDE חכמה—אפשר לזקק LoRA ל‑code‑completion ול‑inline‑doc.
תמחור = Privacy‑as‑a‑Feature: מודל התמחור נותן למנויים לבחור opt‑out מאיסוף דאטה; ההכנסות הנוספות מממנות את ה‑fine‑tuning הפרטי. מי שנותן לדאטה להישאר על‑השרת נהנה ממחיר מוזל, ומי שדורש פרטיות קונה בפועל GPU‑hours ייעודיים.
UX לפני כוח‑מודל: מנוע הצמיחה של Cursor (כמאתיים מיליון דולר הכנסה שנתית ממנויים) הוא בזכות אינדוקס‑קוד מקומי, חיפוש סופר‑מהיר, ואינטגרציה טבעית ל-IDE. לא עוד מודל “חייזר” עם עשרות מיליארדי פרמטרים. תפעול המקלדת, הצעות אוטומטיות context‑aware וה‑side‑panel שמראה diff בזמן אמת הם אלו שהופכים משתמשים ל‑daily active. עבור מפתחי GenAI, זו תזכורת: חוויית‑משתמש מנצחת גודל-מודל ברוב המקרים.

🗓️ תאריך: 07.04.2025 | ⏰ שעה: 15:37 | 🏠 קבוצה: LangTalks Community

אימות פלט ב‑Multi‑Agent Flows

אתגר האימות: ב‑Multi‑Agent Flows, הבעיה הראשונה היא להוכיח שהפלט אמין גם בלי בודק אנושי. הפתרון שהוצע תוך כדי הדיון הוא שרשרת בת שלושה שלבים:
- LLM Reviewer בטמפרטורה 0 שמעניק ציון אמון.
- מסנני חוקים/מילות‑מפתח שחוסמים הזיות או תוכן רגיש.
- ולבסוף טבלה של DMN (Decision Model & Notation) שמקבלת החלטות עסקיות באופן דטרמיניסטי. כך, רק מקרים חריגים — למשל ציון < 0.8 או הפרת מדיניות — יועברו למפעיל אנושי.
יישום בשטח: התבנית נוסתה על תרחישים כמו triage תביעות ביטוח, אישור micro‑claims והחזרי הוצאות, וגם על סיווג קריאות שירות. בכל המקרים IDP (Intelligent Document Processing) מחלץ נתונים ממסמכי PDF, ה‑LLM מעשיר ומבנה אותם, ו‑DMN בודק התאמה למדיניות לפני קבלת ההחלטה. התוצאה היא קיצור זמני טיפול, הורדת שיעור טעויות והפחתת עומס על מוקדי שירות. צורף פוסט עם הסבר.
למידה מתמשכת: הומלץ לרשום כל run כ‑trace מלא הכולל קלט, פלט וציון אמון, ובכך לייצר דאטה‑סט אמיתי של מקרי‑קצה. מנוע RAG יכול לסרוק את הלוגים ולייצר אוטומטית שאילתות בדיקה חדשות, כך שנוצר Regression Suite חי שמתעדכן ללא מגע יד אדם. אפשר גם לייצר דשבורד עם מדדי Precision, Coverage ו‑MTTR שיאפשר Fine‑Tuning לשכבות המסננים או ל‑Reviewer‑LLM תוך כדי עבודה.

📅 תאריך: 06.04.2025 | ⏰ שעה: 15:18 🏠 קבוצה: LangTalks Community 2

איך לבחור: CursorRIPER לעומת RIPER-Direct

מהו RIPER‑Direct ומהו CursorRIPER:
- המונח RIPER‑Direct מתאר מסלול עבודה רזה ומהיר, שמתמקד בשלבים המרכזיים של פיתוח: מחקר, חדשנות, תכנון, ביצוע וביקורת. הוא מוגדר בקובץ יחיד ומיועד למקרים שבהם רוצים להרים POC או ניסוי טכנולוגי בלי להעמיס תהליכים, כללים או מבנה. זה פתרון מצוין לצוותים קטנים או לפרויקטים התחלתיים שדורשים מקסימום גמישות.
- המונח CursorRIPER, לעומת זאת, מתייחס למסלול עבודה מלא ומובנה יותר, שמרחיב את RIPER‑Direct ומוסיף לו שכבת הכנה בשם START. השכבה כוללת ניתוח דרישות, בחירת טכנולוגיות, תכנון ארכיטקטוני, תבנית קוד התחלתית, הקמת סביבת עבודה והגדרת Memory Bank. בנוסף, המסלול כולל guard‑rails וניהול מצב (state) מדויק, ומתאים במיוחד לצוותים שזקוקים למשילות, עקביות, ותיעוד ברור לאורך זמן.
עלות tokens וניהול context: כללים שמפורטים ב‑Markdown גוזלים מקום בחלון context. אם בוחרים ב‑CursorRIPER המלא, חשוב לקצץ חוקים לא-הכרחיים או לאחסן ידע ב‑memory‑bank בסגנון Cline.
שילוב כלים דטרמיניסטיים לחיסכון: אפשר לעטוף Aider או LangGraph כ‑MCP ולעשות delegate למשימות מבניות (למשל refactor אוטומטי לפי מסגרת קבועה) במקום לתאר הכול ב‑Markdown. זה מקטין שימוש tokens, מחזיר תוצאה צפויה יותר, ומותיר ל‑LLM את החלקים שבאמת דורשים reasoning.

📅 תאריך: 09.04.2025 | ⏰ שעה: 16:35 | 🏠 קבוצה: LangTalks - Agents for Code Generation

הדגמת JustChat: צ'אט אינטרנטי לבדיקת RAG בלי התקנות

איך: נכנסים ל-כאן, מדביקים את כתובת ה‑API שלכם ומיד נפתח צ׳אט פעיל שמציג גם את מקורות המידע – אידיאלי לדמואים ו‑POC זריזים.

בלי התקנות ובלי הרשאות: כל הקריאות יוצאות ישירות מהדפדפן, אין לוגים בצד השרת ואין שמירת נתונים, כך שאפשר לעבוד על אב־טיפוס ללא חשש GDPR.

הצעות לשיפור: חברי הקבוצה הציעו למתג את הכלי כ‑federated LLM query engine (ולא כ‑RAG) ולהוסיף בדוקומנטציה דוגמת JSON ברורה שתגדיר את פורמט הבקשה והתשובה.

📅 תאריך: 07.04.2025 | ⏰ שעה: 19:37 | 🏠 קבוצה: LangTalks Community - English

📖 נושאים נוספים שעלו 📖

GPT‑4.1 – מלך הקוד החדש (עם הסתייגויות)
‏GPT‑4.1 מוביל על Claude 3.7 ב‑Real‑World Code Benchmarks, אך שורף Context מהר ויכול להחזיר עריכות עם באגים; נדרש Token Budget קפדני ו‑Validation של התוצאות.
החלפת מודלים בזמן אמת
חברים שיתפו שהם עטפו את Aider כ‑MCP ייעודי, כך שה‑Cursor ישגר משימות קצרות למודל לוקאלי קל וינצל מודל גדול ל‑Heavy Analysis. מאפשר שליטה מלאה בקונפיג של כל קריאה.
ניהול State חסין Race ב‑LangGraph
צוותים פתרו אובדן הודעות ב‑Postgres Checkpointer ע״י בידוד ה‑Nodes המתוּנגשים כ‑SubGraphs, ומנעו כתיבות מקבילות לאותו מפתח state.
סקלביליות סוכן יחיד
“יש גבול לקונטקסט וכלים שסוכן אחד יכול לנהל” – מעבר למערכת של many small agents הוא קריטי ל‑scale.
Plug‑and‑Play עם BPMN/Camunda
מי שכבר מריץ תהליכים ב‑Camunda/BPMN יכול “להבריג” LLM כצעד נוסף – כל הפרמטרים זמינים ב‑API ולכן האימוץ מהיר.
פרק חדש של LangTalks: מנהלי מוצר בעידן החדש - AI PM
בתור מנהלי מוצר AI, חשוב לדעת איך לנהל את הקונטקסט, מה חשוב שיהיה בסביבות השונות, ואיך לייצר מנגנונים לקבלת פידבק אמיתי מהשטח. אפשר להאזין לפרק כאן.