גרסה 5 של ChatGPT יצאה ביום שישי, וסוף סוף שמה קץ לשמועות ולכל הניחושים. ההשקה מתרחשת ממש עכשיו, וכפי שמבטיחה OpenAI, גרסה זו מהירה, חכמה ומדויקת מאי פעם.
השינוי הגדול? OpenAI הוסיפה אלגוריתם חדש שבוחר אוטומטית את המודל הטוב ביותר למשימה, ומבטיח שהכל יפעל בצורה חלקה ויעילה.
עכשיו, הנה המקום שבו זה נהיה מעניין: OpenAI שמה דגש מיוחד על שירותי בריאות. לא ראינו את סוג ההתמקדות הזה קודם, אז לפני שנדווח על הדברים הרגילים (שימו לב, אנחנו נותנים לשבוע לחלוף כדי שהבאז יירגע והדברים האמיתיים יעלו - קריצה, קריצה), אנחנו מתמקדים בזה כרגע.
ככל הנראה, יכולתו של המודל החדש לפרק מונחים רפואיים מורכבים ולהסביר תוצאות מעבדה מושכת תשומת לב רבה. וזה אכן עבד.
היינו קצת "ממממ" בהתחלה, אבל אז אמרנו, "מה לעזאזל, בואו נראה על מה מדובר".
מה OpenAI אומרת על ChatGPT5
OpenAI הצהירה כי ChatGPT 5 הוא המודל המהיר והמדויק ביותר שלהם עד כה. הוא מגיע עם שיפורים בהיגיון, בביצועים וביכולת לבחור את האלגוריתם הטוב ביותר לכל משימה, בין אם מדובר במענה על שאלות או בפתרון בעיות מורכבות. הם עיצבו את ChatGPT 5 ככלי רב עוצמה למגוון רחב של שימושים, החל מקידוד ועד שירותי בריאות, תוך מתן תגובות ברורות ומודעות להקשר.
"עיצבנו את ChatGPT 5 להיות המודל החזק, המדויק והמהיר ביותר שלנו עד כה. הוא בנוי להתמודד עם מגוון משימות ולסייע בתחומים כמו שירותי בריאות, שבהם דיוק הוא המפתח." סם אלטמן, מנכ"ל OpenAI
בתחום הבריאות, OpenAI מדגישה ש-ChatGPT 5 יכול לפשט טרמינולוגיה רפואית, להסביר תוצאות מעבדה ולהציע ייעוץ בריאותי כללי. למרות שהוא אינו נועד להחליף אנשי מקצוע בתחום הבריאות, החברה רואה בו כלי שיעזור למשתמשים להבין טוב יותר את המידע הרפואי שלהם.
מה זה אומר (במילים אנושיות)
ChatGPT 5 מהיר יותר, חכם יותר ואמין יותר. הטענה הגדולה? הוא יכול להבין ולהגיב למגוון רחב יותר של שאלות בדיוק משופר. הוא אפילו יבחר את האלגוריתם הטוב ביותר למשימה בהתבסס על הקלט שלך. אז, גם אם אינך יודע באיזו גישה לנקוט, ChatGPT 5 עומד מאחוריך, ומוודא שתקבל את התוצאות הטובות ביותר.
כשמדובר בתחום הבריאות, משמעות הדבר היא שתוכלו להשתמש בו כדי להבין מונחים רפואיים, להבין תוצאות מעבדה או לקבל ייעוץ בריאותי בסיסי - מבלי שתצטרכו לחכות לתור לרופא.
אבל רק תזכורת: ChatGPT 5 כאן כדי לעזור להסביר דברים, לא להחליף את הרופא שלך . הכל נועד להפוך את המידע הרפואי לנגיש יותר, כך שלא תרגישו אבודים כשאתם מתמודדים עם ז'רגון רפואי מבלבל. אתם יכולים לבקש ממנו להסביר מונחים או תסמינים, והוא יפרק את זה בצורה שקל להבין, מה שיעזור לכם להרגיש מעודכנים יותר לפני שאתם פונים לאיש מקצוע.
זהו צעד לקראת הפיכת ידע בתחום הבריאות לנגיש יותר לכולם, אבל הדברים הרציניים? זה עדיין עניין של רופאים.
חיבור הנקודות
בתחילה היינו סקפטיים לגבי שימוש במודל שפה גדול (LLM) כמו ChatGPT 5 לפניות רפואיות. הרעיון לשאול בינה מלאכותית על בעיות בריאותיות הרגיש קצת מוגזם. אבל לא יכולנו להתעלם ממה שגילינו.
שיחה עם חוקרים רפואיים על דברים: האם זה דבר אפשרי?
כן, זה נכון. וזה הולך וגדל.
32.6% מהמבוגרים בארה"ב השתמשו במודלים של שפה גדולה (LLMs) כמו ChatGPT כדי לענות על שאלות הקשורות לבריאות.
77.6% מהמשתמשים הללו מעדיפים את ChatGPT על פני כלי LLM אחרים לפניות בנושאי בריאות.
95.6% עדיין פונים למנועי חיפוש כמו גוגל למידע בריאותי, אך תואר שני במשפטים הופכים למקור שני אמין.
מספרים אלה מראים עלייה מתמדת באימוץ של תואר ראשון במשפטים (LLM) לסיוע רפואי, דבר המצביע על אמון גובר בבינה מלאכותית בתחום הבריאות.
מקורות:
השימוש והעמדות של הדיוטות כלפי מודלים של שפה גדולה למידע בריאותי
הבנת החששות והבחירות של הציבור בעת שימוש במודלים של שפה רחבה בתחום הבריאות
האם נוכל למדוד את זה?
כשמדובר בבדיקת דיוק המידע המסופק על ידי מודלים של בינה מלאכותית כמו ChatGPT, זה לא תמיד פשוט כמו לומר שתשובה היא "נכונה" או "לא נכונה". מספר כלים ומדדים משמשים להערכת ביצועי המודלים, במיוחד כאשר הם עונים על שאלות מורכבות, כגון שאילתות הקשורות לבריאות.
מדדי מפתח בתחום הבריאות:MedQA: מערך נתונים שתוכנן במיוחד כדי להעריך את יכולתם של מודלים לשוניים לענות על שאלות הקשורות לבריאות. הוא מסייע למדוד עד כמה המודל יכול להבין נושאים רפואיים ולספק תשובות אמינות.
USMLE (בחינת רישוי רפואי של ארצות הברית): זוהי בחינה סטנדרטית לאנשי מקצוע רפואיים. כאשר מודלים כמו ChatGPT נבדקים על שאלות תרגול של USMLE, זה עוזר להעריך את יכולתם להתמודד עם ידע קליני מורכב.
מדד קריטי עבור בינה מלאכותית, במיוחד בתחום הבריאות, הוא שיעור ההזיות - התדירות שבה המודל מספק מידע כוזב או מפוברק. שיעור הזיות נמוך יותר פירושו שהמודל נוטה יותר לספק מידע מדויק ואמין. עבור ChatGPT, שיעור זה מנוטר באופן פעיל, במיוחד בתחומים רגישים כמו בריאות, כדי להבטיח שהמודל אינו נותן עצות מטעות או שגויות.
איך הצליח ChatGPT 5?
בכל הנוגע לביצועי ChatGPT 5 בתחום הבריאות, תוצאות ספציפיות במבחנים כמו MedQA ו- USMLE טרם נחשפו לציבור. בעוד ש-OpenAI שיתפה שיפורים כלליים, כגון דיוק משופר והיגיון משופרים, נתוני ביצועים מפורטים הספציפיים למשימות הקשורות לבריאות נותרו אינם זמינים.
עם זאת, OpenAI פרסמה כמה הצהרות כלליות לגבי יכולות ChatGPT 5:
חשיבה משופרת : ChatGPT 5 נועד לספק תשובות מדויקות יותר, מה שהופך אותו למצויד טוב יותר להבנת שאילתות מורכבות, כולל אלו בתחום הבריאות.
בחירת אלגוריתם טובה יותר : המודל יכול לבחור באופן אוטומטי את האלגוריתם המתאים ביותר למשימות שונות, מה שמבטיח ביצועים חלקים יותר ביישומים שונים, כולל שאילתות הקשורות לבריאות.
שיעור הזיות מופחת : דיווחים ראשוניים מצביעים על כך של-ChatGPT 5 יש שיעור הזיות מופחת של כ-1.6%, כלומר פחות סביר שהוא ייצר מידע כוזב או מפוברק בהשוואה לגרסאות קודמות.
בעוד ששיפורים אלה מצביעים על כך ש-ChatGPT 5 צפוי לבצע ביצועים טובים יותר בשאילתות הקשורות לבריאות בהשוואה לקודמיו, עדיין אין לנו מספרי דיוק ספציפיים.
השוואה: כיצד ביצע ChatGPT 4 לעומת תוכניות לימודים מובילות אחרות?
כשמדובר במשימות הקשורות לשירותי בריאות, כיצד ChatGPT 4 מתיישב מול מודלים מובילים אחרים מבחינת דיוק? הנה השוואה של ChatGPT 4 עם מודלים מובילים אחרים, בהתבסס על ביצועיהם במבחנים כמו MedQA ו-USMLE.
דֶגֶם | דיוק MedQA | דיוק שלב 1 של USMLE | דיוק שלב 2 של USMLE | שיעור הזיות | נקודות עיקריות |
צ'אט GPT 4 | 60–70% | 55.8% | 57.7% | 1.8% | ביצועים חזקים במענה לשאלות רפואיות פשוטות יותר, אך מתקשים בתרחישים מורכבים יותר. |
צ'אט GPT 5 | לא נחשף | לא נחשף | לא נחשף | כ-1.6% | שיפורים צפויים בדיוק ובהיגיון, אך טרם פורסמו מדדי ביצועים ספציפיים בתחום הבריאות. |
תאומים 2.0 | 91.1% | לא צוין | לא צוין | <1% | בעל ביצועים מובילים, במיוחד בתחומים מיוחדים כמו רפואת עיניים, עם שיעור הזיות נמוך מאוד. |
קלוד 3 | 86.15% | לא צוין | לא צוין | <1% | ידוע במתן הסברים רפואיים ברורים ותמציתיים ובידע רפואי כללי מוצק. |
גרוק | 85.5% | לא צוין | לא צוין | <1% | מתפקד היטב בשאלות הקשורות לאבחון עם ביצועים מוצקים בהנמקה קלינית. |
נקודות מפתח:
ChatGPT 4 מציג ביצועים יציבים עם דיוק של 60-70% במערך הנתונים MedQA ו-55.8% ב-USMLE Step 1, אך הוא מתקשה עם שאילתות רפואיות מורכבות יותר.
ל-ChatGPT 5, למרות שהוא מראה שיפורים בהיגיון, עדיין אין נתוני ביצועים ספציפיים עבור מדדי ביצועים בתחום הבריאות כמו MedQA ו-USMLE.
ג'מיני 2.0 מוביל את הרשימה עם דיוק של 91.1% ב-MedQA, מה שהופך אותו לבעל ביצועים מובילים עבור משימות הקשורות לשירותי בריאות.
קלוד 3 וגרוק גם הם מציגים תוצאות חזקות, אם כי צ'אטGPT 5 עשוי כנראה לשפר את יכולותיהם עם יכולות חשיבה משופרות.
מקורות:
האם יש דבר כזה?
כן, גוגל פיתחה מודל בינה מלאכותית ייעודי לטיפול רפואי בשם Med-Gemini. Med-Gemini היא משפחה של מודלים גדולים ורב-מודאליים, שכוונו במיוחד עבור יישומים רפואיים, תוך התבססות על מודלי Gemini של גוגל. מודלים אלה נועדו להתמודד עם משימות רפואיות מורכבות הדורשות חשיבה מתקדמת ויכולת לפרש נתונים רב-מודאליים, כולל טקסט, תמונות, סרטונים ורשומות רפואיות אלקטרוניות (EHR).
Med-Gemini הפגינה ביצועים חדישים במספר מדדי ייחוס רפואיים. ראוי לציין כי היא השיגה דיוק של 91.1% במדדי MedQA (בסגנון USMLE), ועקפה דגמים קודמים כמו Med-PaLM 2 ב-4.6%. בנוסף, Med-Gemini הפגינה ביצועים חזקים במשימות כגון סיכום טקסט רפואי, יצירת מכתבי הפניה ופירוש תמונות רפואיות מורכבות כמו סריקות תלת-ממדיות.
בעוד ש-Med-Gemini הוא מודל ייעודי של גוגל שנועד לתחום הבריאות, הוא עדיין בשלב המחקר ועדיין אינו זמין לשימוש ציבורי או קליני. למרות שהוא אינו מוכן לפריסה נרחבת, Med-Gemini כבר הראה תוצאות מרשימות במבחנים הקשורים לתחום הבריאות, ועבר ביצועים טובים יותר מ-ChatGPT בתחומים מסוימים.
Med-Gemini מייצגת התקדמות משמעותית בפוטנציאל של בינה מלאכותית לסייע ביישומים רפואיים. גוגל ממשיכה לשתף פעולה עם הקהילה הרפואית כדי לבחון ולשפר מודלים אלה, תוך הבטחת בטיחותם ואמינותם לפני פריסתם בעולם האמיתי.
מקור: הבלוג של גוגל
שורה תחתונה
ChatGPT 5 - נקודות מפתח
זמינות: זמין כעת
מחיר: חינם לכל המשתמשים; גרסת Pro במחיר של 200 דולר לחודש
קשור לתחום הבריאות: דיוק משופר ושיעורי הזיות מופחתים; תוצאות ספציפיות של מדד לא נחשפו
דיוק: שיעור ההזיות ירד לכ-1.6%
הצע את זה
לדעת איך לשאול זה חלק מהקסם כשמדובר בתואר שני במשפטים. אם אתם רוצים להתייעץ עם חבר ה-ChatGPT 5 שלכם או עם כל תואר שני אחר בנושאים הקשורים לבריאות, ניסחנו הנחיה שתעזור לכם להשיג את התוצאות הטובות ביותר.
העתיקו והדביקו את ההנחיה הזו, מלאו את הפרטים, זה יעבוד עבור ChatGPT 5 או כל תואר שני במשפטים לבחירתכם:
בקשה ל-ChatGPT 5 (או כל תואר שני במשפטים אחר):
"אני מחפש מידע על [מצבים רפואיים, תסמינים או טיפול]. האם תוכל להסביר מה זה, מה גורם לזה וכיצד זה מאובחן בדרך כלל? אנא כלול פרטים על אפשרויות טיפול נפוצות, כולל המלצות רפואיות והמלצות לאורח חיים."
פרטים ספציפיים על מצבי: [לדוגמה, גיל, מין, מצבים בריאותיים קיימים]
תסמינים או דאגות נוכחיים: [למשל, כאבים בחזה, עייפות, סחרחורת]
תוצאות בדיקות אחרונות (אם קיימות): [לדוגמה, לחץ דם, תוצאות מעבדה]
מידע רלוונטי נוסף: [לדוגמה, היסטוריה רפואית משפחתית, אלרגיות, תרופות]
אנא ספקו מידע בצורה שקל להבנה עבור אדם ללא רקע רפואי.
דחפו את זה קדימה:
בנוסף, כללו קישורים או הפניות רלוונטיים למקורות אמינים כדי שאוכל לקרוא, להבין ולאמת את המידע.
על ידי מילוי הפרטים לעיל, תעזור לתואר שני במשפטים לספק לך תובנות ברורות ומדויקות יותר לגבי מצבך הרפואי. בקשה זו מבקשת גם קישורים רלוונטיים שיעזרו לך לאמת את המידע שסופק. זכור תמיד, בעוד ש-ChatGPT או כל תואר שני במשפטים יכולים לעזור להסביר דברים, הם אינם תחליף להתייעצות עם איש מקצוע בתחום הבריאות.
פרספקטיבה של צוות האור הקפוא
ב-Frozen Light, אנחנו בדרך כלל מאמינים בעשיית מה שאנחנו עושים הכי טוב, אבל כשבדקנו את מדדי הבריאות של ChatGPT, מצאנו את זה מבלבל. נראה שלא בריאות היא הצד החזק שלהם... לפחות לא עד עכשיו.
אז למה המוקד הפתאומי הזה הוא בתחום הבריאות? האם מדובר רק בצמצום הפער?
ChatGPT הוא תוכנית הלימודים הלומדים (LLM) הנפוצה, המאומצת והנגישה ביותר, עם אבן דרך של 700 מיליון משתמשים פעילים שבועיים. אבל מה שפספסנו הוא שהדחיפה הזו לא עוסקת רק בהשגת פערים עם מתחרים, כמו גוגל - אלא בהבנה ש-LLMs הם כעת חלק משיחות בתחום הבריאות. אנשים מבקשים באופן פעיל ייעוץ רפואי מ-LLMs, והמגמה הזו צומחת במהירות.
אנחנו רוצים לומר כל הכבוד ל-OpenAI על כך שזיהתה את הצורך הזה והשתדלה לענות עליו. בתור המודל הנפוץ ביותר, הם מנסים לספק את מה שהמשתמשים שלהם צריכים, גם אם התוצאות עדיין לא מושלמות. ChatGPT משתדלת, ועל כך אנחנו נותנים קרדיט.
אבל הנה העניין: בכל הנוגע למדדי ביצועים, ChatGPT 4 קיבל את הציון הנמוך ביותר, וזו לא רק דעה - זו המספרים. OpenAI היא היחידה שחולקת תוצאות בכל שלושת המבחנים, כך שאנחנו יודעים שיש פער גדול. Med-Gemini ו-Grok תפסו את ההובלה בדיוק הרפואי, ואפילו עם שיפורים ב-ChatGPT 5, יש עוד מקום לצמיחה.
תזכורת ידידותית: לימודי משפטים, אפילו כאלה חזקים כמו ChatGPT, אינם מחליפים אנשי מקצוע בתחום הבריאות. אם אתם משתמשים בהם למטרות רפואיות, בצעו הפניות צולבות במידע ואל תסתמכו אך ורק על מודל אחד. אנו רוצים להזכיר לאנשי מקצוע רפואיים להשתמש במקורות מרובים כדי לספק תשובות מוצקות ואמינות.
בנימה אישית: כולנו היינו שם - חיפשנו תסמינים בגוגל ונלחצנו. דמיינו לעשות את זה עם תואר ראשון במשפטים! למרות שאנחנו בעד חקר טכנולוגיות חדשות, בואו לא נשכח שלפעמים הדרמה אמיתית, ובדיקה רפואית קטנה עם מומחה אף פעם לא הזיקה. 🙂