استعاره ای برای درک بهتر مفهوم شاخص ها

  • 2021-04-24

Blue glowing circle pixels on edge of LED screen. Computer generated abstract background rendered with DOF

پردازش زبان طبیعی در تلاش است تا ماشینهایی را بسازد که داده های متن یا صوتی را درک و پاسخ دهند - و با متن یا گفتار خودشان پاسخ دهند - به همان روشی که انسان انجام می دهد.

IBM Watson دستیار

IBM Watson Discovery

پردازش زبان طبیعی (NLP) به شاخه علوم کامپیوتر اشاره دارد - و به طور خاص ، شاخه ای از هوش مصنوعی یا هوش مصنوعی با ارائه رایانه ها توانایی درک متن و کلمات گفتاری را به همان روشی که انسان می تواند باشد ، نشان می دهد.

NLP ترکیب زبان های محاسباتی-مدل سازی مبتنی بر زبان انسانی-را با مدل های آماری ، یادگیری ماشین و مدل های یادگیری عمیق ترکیب می کند. با هم ، این فناوری ها رایانه ها را قادر می سازد تا زبان انسانی را به صورت داده های متن یا صوتی پردازش کنند و معنای کامل آن را درک کنند ، با هدف و احساسات نویسنده یا نویسنده کامل شوند.

NLP برنامه های رایانه ای را ترجمه می کند که متن را از یک زبان به زبان دیگر ترجمه می کنند ، به دستورات گفتاری پاسخ می دهند و حجم زیادی از متن را به سرعت خلاصه می کنند - حتی در زمان واقعی. یک فرصت خوب وجود دارد که شما با NLP در قالب سیستم های GPS با صدای صوتی ، دستیاران دیجیتال ، نرم افزار دیکته گفتار به متن ، چت های خدمات مشتری و سایر راحتی های مصرف کننده تعامل داشته باشید. اما NLP همچنین نقش فزاینده ای در راه حل های سازمانی ایفا می کند که به ساده سازی عملیات تجاری ، افزایش بهره وری کارکنان و ساده سازی فرایندهای تجاری مهم برای ماموریت کمک می کند.

زبان انسانی مملو از ابهاماتی است که نوشتن نرم افزاری را که به طور دقیق معنای مورد نظر داده های متن یا صوتی را تعیین می کند ، بسیار دشوار می کند. هماهنگ ، هموفون ، طعنه ، اصطلاحات ، استعاره ها ، گرامر و استثنائات استفاده ، تغییرات در ساختار جمله-این فقط تعداد کمی از بی نظمی های زبان انسانی است که سالها انسان را برای یادگیری می برد ، اما این برنامه نویسان باید برنامه های طبیعی محور را برای شناخت و به رسمیت بشناسند و به آنها آموزش دهند تا به رسمیت بشناسند و به زبان طبیعی محور زبان را به رسمیت بشناسند واگر این برنامه ها مفید هستند ، از ابتدا با دقت درک کنید.

چندین کار NLP داده های متن و صوتی انسان را به روش هایی تجزیه می کند که به رایانه کمک می کند تا آنچه را که مصرف می کند ، حس کند. برخی از این کارها شامل موارد زیر است:

  • تشخیص گفتار ، که همچنین به نام گفتار به متن نیز نامیده می شود ، وظیفه تبدیل قابل اعتماد داده های صوتی به داده های متن است. تشخیص گفتار برای هر برنامه ای که از دستورات صوتی یا پاسخ به سؤالات گفتاری پیروی کند ، لازم است. آنچه که به رسمیت شناختن گفتار به ویژه چالش برانگیز است ، نحوه صحبت کردن مردم است - کاملاً ، کلمات را با هم ، با تأکید و تعمیم متفاوت ، در لهجه های مختلف و اغلب استفاده از دستور زبان نادرست.
  • بخشی از برچسب زدن گفتار ، که به آن برچسب زدن دستوری نیز گفته می شود ، روند تعیین بخشی از گفتار یک کلمه یا متن خاص بر اساس استفاده و متن آن است. بخشی از گفتار "ساخت" را به عنوان یک فعل در "من می توانم یک هواپیمای کاغذی بسازم" و به عنوان یک اسم در "چه ساخت ماشین دارید؟"
  • اختلاف کلمه Sense انتخاب معنای یک کلمه با معانی متعدد از طریق فرآیند تحلیل معنایی است که کلمه ای را تعیین می کند که بیشترین حس را در متن داده شده ایجاد می کند. به عنوان مثال ، عدم تفکیک کلمه کلمه به تمایز معنای فعل "ساخت" در "نمره" (دستیابی) در مقابل "ایجاد شرط" (مکان) کمک می کند.
  • نامگذاری شده موجودیت ، یا NEM ، کلمات یا عبارات را به عنوان موجودات مفید معرفی می کند. NEM "کنتاکی" را به عنوان یک مکان یا "فرد" به عنوان نام یک مرد معرفی می کند.
  • وضوح مرجع وظیفه شناسایی اگر و چه زمانی دو کلمه به یک نهاد مراجعه می کنند. متداول ترین نمونه تعیین شخص یا شیء است که ضمیر خاصی به آن اشاره می کند (به عنوان مثال ، "او" = "مریم") ، اما همچنین می تواند شامل شناسایی استعاره یا اصطلاح در متن باشد (به عنوان مثال ، نمونه ای که در آن "خرس یک حیوان نیست بلکه یک فرد بزرگ مودار است).
  • تجزیه و تحلیل احساسات سعی در استخراج خصوصیات ذهنی - نگرش ، احساسات ، طعنه ، سردرگمی ، سوء ظن از متن دارد.
  • تولید زبان طبیعی گاهی اوقات بر خلاف تشخیص گفتار یا گفتار به متن توصیف می شود. این وظیفه قرار دادن اطلاعات ساختاری به زبان انسانی است.

پایتون و ابزار زبان طبیعی (NLTK)

زبان برنامه نویسی پایتون طیف گسترده ای از ابزارها و کتابخانه ها را برای حمله به کارهای خاص NLP فراهم می کند. بسیاری از این موارد در مجموعه ابزار طبیعی زبان یا NLTK ، مجموعه منبع باز از کتابخانه ها ، برنامه ها و منابع آموزشی برای ساخت برنامه های NLP یافت می شود.

NLTK شامل کتابخانه‌هایی برای بسیاری از وظایف NLP ذکر شده در بالا، به علاوه کتابخانه‌هایی برای وظایف فرعی، مانند تجزیه جملات، تقسیم‌بندی کلمات، ریشه‌یابی و واژه‌سازی (روش‌های کوتاه کردن کلمات تا ریشه‌هایشان) و نشانه‌سازی (برای شکستن عبارات، جملات، پاراگراف‌ها) است. و قسمت هایی به نشانه هایی که به کامپیوتر کمک می کند متن را بهتر درک کند). همچنین شامل کتابخانه‌هایی برای پیاده‌سازی قابلیت‌هایی مانند استدلال معنایی، توانایی رسیدن به نتایج منطقی بر اساس حقایق استخراج‌شده از متن است.

NLP آماری، یادگیری ماشینی و یادگیری عمیق

اولین برنامه‌های NLP سیستم‌های مبتنی بر قواعد و کدگذاری دستی بودند که می‌توانستند وظایف NLP خاصی را انجام دهند، اما نمی‌توانستند به راحتی مقیاس شوند تا جریان به ظاهر بی‌پایانی از استثناها یا حجم فزاینده متن و داده‌های صوتی را در خود جای دهند.

NLP آماری را وارد کنید، که الگوریتم‌های کامپیوتری را با مدل‌های یادگیری ماشینی و یادگیری عمیق ترکیب می‌کند تا به طور خودکار عناصر متن و داده‌های صوتی را استخراج، طبقه‌بندی و برچسب‌گذاری کند و سپس احتمال آماری را به هر معنای احتمالی آن عناصر اختصاص دهد. امروزه، مدل‌های یادگیری عمیق و تکنیک‌های یادگیری مبتنی بر شبکه‌های عصبی کانولوشنال (CNN) و شبکه‌های عصبی مکرر (RNN) سیستم‌های NLP را قادر می‌سازند که در حین کار، «یاد می‌گیرند» و معنای دقیق‌تری را از حجم عظیمی از متن خام، بدون ساختار و بدون برچسب استخراج می‌کنند. و مجموعه داده های صوتی

برای بررسی عمیق‌تر تفاوت‌های ظریف بین این فناوری‌ها و رویکردهای یادگیری آن‌ها، به «هوش مصنوعی در مقابل یادگیری ماشینی در مقابل یادگیری عمیق در مقابل شبکه‌های عصبی: تفاوت چیست؟» مراجعه کنید.

پردازش زبان طبیعی نیروی محرکه پشت هوش ماشینی در بسیاری از کاربردهای دنیای واقعی مدرن است. در اینجا چند نمونه هستند:

  • تشخیص هرزنامه: ممکن است تشخیص هرزنامه را به عنوان یک راه حل NLP در نظر نگیرید، اما بهترین فناوری های تشخیص هرزنامه از قابلیت های طبقه بندی متن NLP برای اسکن ایمیل ها برای یافتن زبانی استفاده می کنند که اغلب نشان دهنده هرزنامه یا فیشینگ است. این شاخص‌ها می‌توانند شامل استفاده بیش از حد از اصطلاحات مالی، گرامر بد مشخصه، زبان تهدیدآمیز، فوریت نامناسب، نام شرکت‌ها با املای اشتباه و غیره باشند. تشخیص هرزنامه یکی از معدود مشکلات NLP است که کارشناسان آن را "بیشتر حل شده" می دانند (اگرچه ممکن است استدلال کنید که این با تجربه ایمیل شما مطابقت ندارد).
  • ترجمه دستگاه: Google Translate نمونه ای از فناوری NLP در دسترس است. ترجمه ماشین واقعاً مفید بیش از جایگزینی کلمات به یک زبان با کلمات دیگر است. ترجمه مؤثر باید به طور دقیق معنی و لحن زبان ورودی را ضبط کند و آن را به متن با همان معنی و تأثیر مطلوب در زبان خروجی ترجمه کند. ابزارهای ترجمه ماشین از نظر دقت پیشرفت خوبی دارند. یک راه عالی برای آزمایش هر ابزار ترجمه دستگاه ترجمه متن به یک زبان و سپس بازگشت به اصل است. یک نمونه کلاسیک که اغلب ذکر شده است: چندی پیش ، ترجمه "روح مایل است اما گوشت ضعیف است" از انگلیسی به روسی و پشت به دست آمده "ودکا خوب است اما گوشت پوسیده است."امروز ، نتیجه "روح خواسته می شود ، اما گوشت ضعیف است" ، که کامل نیست ، اما اعتماد به نفس بیشتری به ترجمه انگلیسی به روسی الهام می بخشد.
  • نمایندگان مجازی و چت بابات: نمایندگان مجازی مانند اپل سیری و الکسا آمازون از تشخیص گفتار برای تشخیص الگوهای در دستورات صوتی و تولید زبان طبیعی برای پاسخگویی با اقدامات مناسب یا نظرات مفید استفاده می کنند. Chatbots در پاسخ به نوشته های متن تایپ شده ، همان جادو را انجام می دهد. بهترین اینها همچنین یاد می گیرند که سرنخ های متنی در مورد درخواست های انسانی را بشناسند و از آنها برای ارائه پاسخ ها یا گزینه های حتی بهتر در طول زمان استفاده کنند. پیشرفت بعدی برای این برنامه ها ، پاسخ به سؤال است ، توانایی پاسخگویی به سؤالات ما - پیش بینی شده یا نه - با پاسخ های مرتبط و مفید به قول خودشان.
  • تجزیه و تحلیل احساسات رسانه های اجتماعی: NLP به ابزاری اساسی برای کشف بینش داده های پنهان از کانال های رسانه های اجتماعی تبدیل شده است. تجزیه و تحلیل احساسات می تواند زبان مورد استفاده در پست های رسانه های اجتماعی ، پاسخ ها ، بررسی ها و موارد دیگر را برای استخراج نگرش و احساسات در پاسخ به محصولات ، تبلیغات و رویدادها تجزیه و تحلیل کند - شرکت های اطلاعاتی می توانند در طراحی محصولات ، تبلیغات تبلیغاتی و موارد دیگر استفاده کنند.
  • خلاصه متن: خلاصه متن از تکنیک های NLP برای هضم حجم عظیمی از متن دیجیتال و ایجاد خلاصه و خلاصه ای برای فهرست ها ، بانکهای اطلاعاتی تحقیق یا خوانندگان شلوغ که وقت خواندن متن کامل ندارند ، استفاده می کند. بهترین برنامه های خلاصه متن از استدلال معنایی و تولید زبان طبیعی (NLG) برای افزودن زمینه و نتیجه گیری مفید به خلاصه ها استفاده می کنند.
    آی‌بی‌ام با پیشگامی ابزارها و سرویس‌های مبتنی بر NLP که سازمان‌ها را قادر می‌سازد تا فرآیندهای تجاری پیچیده‌شان را خودکار کنند، در فضای هوش مصنوعی نوآوری کرده است. این ابزارها عبارتند از:
      - با جستجوی هوش مصنوعی، پاسخ‌های با کیفیت بالا و بینش‌های غنی از اسناد پیچیده سازمانی خود - جداول، فایل‌های PDF، کلان داده‌ها و موارد دیگر را ارائه دهید. کارمندان خود را قادر می سازد تا تصمیمات آگاهانه تری بگیرند و در زمان خود با موتورهای جستجوی بلادرنگ و قابلیت های متن کاوی که استخراج متن را انجام می دهند و روابط و الگوهای مدفون در داده های بدون ساختار را تجزیه و تحلیل می کنند، صرفه جویی کنند. Watson Discovery از مدل‌های سفارشی NLP و روش‌های یادگیری ماشینی استفاده می‌کند تا هوش مصنوعی را در اختیار کاربران قرار دهد که زبان منحصر به فرد صنعت و تجارت آنها را درک کند. Watson Discovery (NLU) را کاوش کنید - متن را در قالب‌های داده بدون ساختار از جمله HTML، صفحات وب، رسانه‌های اجتماعی و موارد دیگر تجزیه و تحلیل کنید. درک خود را از زبان انسان با استفاده از این کیت ابزار زبان طبیعی برای شناسایی مفاهیم، کلمات کلیدی، مقوله‌ها، معناشناسی، و احساسات و انجام طبقه‌بندی متن، استخراج موجودیت، شناسایی موجودیت نام‌گذاری شده (NER)، تحلیل احساسات و خلاصه‌سازی افزایش دهید. درک زبان طبیعی واتسون را کاوش کنید - ضمن کاهش هزینه ها، تجربه مشتری را بهبود بخشید. Watson Assistant یک ربات چت هوش مصنوعی با سازنده بصری با کاربری آسان است تا بتوانید در عرض چند دقیقه عوامل مجازی را در هر کانالی مستقر کنید. دستیار واتسون را کاوش کنید

    IBM Watson Annotator for Clinical Data که برای حوزه های مراقبت های بهداشتی و علوم زندگی ساخته شده است، مفاهیم کلیدی بالینی را از متن زبان طبیعی استخراج می کند، مانند شرایط، داروها، آلرژی ها و روش ها. بینش‌های بافتی عمیق و ارزش‌ها برای ویژگی‌های بالینی کلیدی، داده‌های معنادارتری را ایجاد می‌کنند. منابع داده های بالقوه شامل یادداشت های بالینی، خلاصه ترخیص، پروتکل های کارآزمایی بالینی و داده های ادبیات است.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.