موتور جستجوی دیتاست گوگل

پایان‌نامه کارشناسی ارشدم درباره لبخوانی بود. مستقل از چالش‌هایی که برای پیدا کردن الگوریتم بهینه و ارزیابی آن داشتم، چالش اصلی من تهیه دیتاست مناسب بود. دیتاست استانداردی وجود نداشت و اگر هم وجود داشت، با سرچ معمول گوگل پیدا نمیشدند.  

فقط من با چنین مشکلی روبرو نبودم، تقریبا تمام دوستان با مشکلات مشابهی دست و پنچه می کردند. یکی بر روی پردازش تصاویر دندان کار می کرد، دیگری روی تشخیص سلول های سرطانی. الگوریتم جدید شناسایی اثر انگشت موضوع پایانه نامه دیگری بود و یکی از همکلاسی ها هم بر روی شناسایی خویشاندی در تصاویر تمرکز کرده بود. مستقل از تعریف پایان‌نامه، دیتاست مشکل همه ما بود. دیتاست مناسب با سرچ معمولی در اینترنت پیدا نمیشد، باید مقالات بسیاری می‌خواندیم و رد دیتاست‌ها را از مقالات پیدا می‌کردیم.  

خاطرم هست که پیدا کردن دیتاست مناسب و دانلود با اینترنت کند و دور زدن تحریم‌ها آنقدر سخت بود که بسیاری از دوستان در آن زمان ترجیح دادند که دیتاست مخصوص به خود را تهیه کنند.

چالش دیتاست همه گیر بود و بسیاری در سراسر دنیا، مانند دوستانم، اقدام به جمع آوری دیتاست‌های مخصوص به خود کرده‌اند. اما علی رغم کارگشا بودن آنها، این دیتاست‌ها در جایی ایندکس نشده بودند و امکان یافتن آنها با کمک موتور جستجوی فعلی گوگل بسیار مشکل بود.

چند روز پیش خبردار شدم که گوگل این چالش و فرصت را درک کرده است و بالاخره موتور جستجوی مخصوص دیتاست (Dataset Search) خود را راه اندازی کرده است. این موتور جستجو صرفا بر روی یافتن مناسب ترین دیتاست تمرکز کرده است.

 

روش کار به این صورت است که هر فرد، دانشگاه، موسسه، دولت … که قصد انتشار دیتاست خود را دارد، ابتدا باید یک سری تگ بر روی داده تعریف کند و اطلاعاتی مانند این که داده توسط چه کسی، در چه زمانی، با چه هدفی تهیه شده است را مشخص کند. سپس این اطلاعات در گوگل ایندکس می‌شود و در نهایت با سرچ در این سامانه در دسترس خواهد بود.

ظاهر و طراحی سایت مشابه گوگل است. می توان از تکنیک های پیشرفته جستجو در گوگل مانند استفاده از دبل کوتیشن و کلمات کلیدی چون site  در آن استفاده کرد. به عنوان مثال با نوشتن عبارت “daily weather”‌ داخل دبل کوتیشن، دقیقا این عبارت جستجو می شود و با نوشتن عبارت weather site:noaa.gov صرفا دیتاست‌های موجود در سایت noaa.gov بررسی می شود.

گوگل معتقد است که با توجه به حرکت دولت‌ها به سمت شفافیت و انتشار داده و همچنین اصرار مجلات علمی بر انتشار عمومی دیتاست مربوط به هر مقالات، این موتور جستجوی به سرعت رشد خواهد کرد.

مطالب مرتبط

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

This site uses Akismet to reduce spam. Learn how your comment data is processed.