Colossal Clean Crawled Corpus (C4)، مجموعه داده های هوش مصنوعی که توسط شرکت های بزرگ فناوری استفاده می شود، حاوی داده هایی از وب سایت های مختلف مرتبط با رمزنگاری است.

مجموعه داده های C4 از سایت های رمزنگاری استخراج می شود

واشنگتن پست و موسسه آلن برای هوش مصنوعی اخیرا تحلیل شده است مجموعه داده C4، رتبه‌بندی وب‌سایت‌ها بر اساس تعداد «توکن‌ها» یا تکه‌های متنی گرفته‌شده از هر منبع.

کمیسیون بورس و اوراق بهادار ایالات متحده – که تا حدی حاوی محتوایی در مورد مقررات ارزهای دیجیتال است – یکی از بزرگترین منابع مجموعه داده بود. وب سایت آن (sec.gov) در رتبه 39 قرار گرفت و 36 میلیون یا 0.02 درصد از توکن های C4 را به خود اختصاص داد.

Bitcointalk.org، یک تابلوی بحث بلاک چین که توسط ساتوشی ناکاموتو، در رتبه 780 قرار گرفت. 6.1 میلیون یا 0.004 درصد از توکن های C4 را به خود اختصاص داده است.

سایت های خبری و تجمیع ارزهای دیجیتال …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

For security, use of Google's reCAPTCHA service is required which is subject to the Google Privacy Policy and Terms of Use.

I agree to these terms.