Colossal Clean Crawled Corpus (C4)، مجموعه داده های هوش مصنوعی که توسط شرکت های بزرگ فناوری استفاده می شود، حاوی داده هایی از وب سایت های مختلف مرتبط با رمزنگاری است.
مجموعه داده های C4 از سایت های رمزنگاری استخراج می شود
واشنگتن پست و موسسه آلن برای هوش مصنوعی اخیرا تحلیل شده است مجموعه داده C4، رتبهبندی وبسایتها بر اساس تعداد «توکنها» یا تکههای متنی گرفتهشده از هر منبع.
کمیسیون بورس و اوراق بهادار ایالات متحده – که تا حدی حاوی محتوایی در مورد مقررات ارزهای دیجیتال است – یکی از بزرگترین منابع مجموعه داده بود. وب سایت آن (sec.gov) در رتبه 39 قرار گرفت و 36 میلیون یا 0.02 درصد از توکن های C4 را به خود اختصاص داد.
Bitcointalk.org، یک تابلوی بحث بلاک چین که توسط ساتوشی ناکاموتو، در رتبه 780 قرار گرفت. 6.1 میلیون یا 0.004 درصد از توکن های C4 را به خود اختصاص داده است.
سایت های خبری و تجمیع ارزهای دیجیتال …