معاون وزیر ارتباطات و رییس سازمان فناوری اطلاعات

نیمه‌درست

۲ درصد از کل صفحات وب دنیا به زبان فارسی‌ است و در این حوزه زبان فارسی از عربی و چینی پیشی گرفته است

سهم زبان فارسی در اینترنت چقدر است؟

رسول سراییان، معاون وزیر ارتباطات و رییس سازمان فناوری اطلاعات، گفته است: «حدود ۱.۲ درصد از کل صفحات وب دنیا مختص زبان فارسی بود که این عدد امسال به دو درصد افزایش‌یافته طوری که در این حوزه، زبان فارسی، از زبان عربی و چینی پیشی گرفته است».

 

برای پیگیری این موضوع، با آقای سراییان تماس گرفتیم و درباره منبع این گفته سوال کردیم. دفتر معاون وزیر، در پاسخ به پرسش ما اطلاعات منتشر شده در وب‌سایت w3techs را به عنوان منبع این اظهارات برای ما ارسال کرد.

 

سابقه

پیش از بررسی منبع معرفی شده، تلاش کردیم تا سابقه خبر را جست‌وجو کنیم.

این ادعا در گزارش عملکرد و اقدامات وزارت ارتباطات و فناوری اطلاعات (مرداد ۱۳۹۷)، هم ذکر شده و در صفحه ۲۴ « ارتقاء سهم محتوا با زبان فارسی در وب از ۱/۲درصد به ۲ درصد» از جمله دستاوردهای این وزارتخانه معرفی شده که «منجر به تثبیت جایگاه این زبان فاخر در سطح جهانی با رده‌بندی بالاتر از زبان‌های ترکی، عربی و چینی گردیده است».  

بررسی‌های ما نشان می‌دهد در گذشته نیز مسئولان دولتی -از جمله محمدجواد آذری‌جهرمی وزیر ارتباطات ایران، با استناد به آمار W3Tech از «از رشد شتابان سهم خط و زبان فارسی در اینترنت» صحبت کرده‌اند.

 

در این میان برخی شبهات نیز به این مساله وارد شده است، چنانکه حساب کاربری TechRasa Farsi در توییتر، روز هفتم شهریور ماه نوشت برداشتِ رییس سازمان فناوری اطلاعات از داده‌های W3Tech اشتباه بوده معنی آماری که به آن استناد شده تنها شناسایی زبان فارسی در ۲ درصد وب‌سایت‌هایی است بررسی شده‌‌اند.

 

مبنای آمار W3Tech چیست؟

برای پیگیری این موضوع تلاش کردیم تا متوجه شویم مبنای رده‌بندی سایت W3Tech چیست.

تصویر روز ۱۳ شهریور ماه ۱۳۹۷، از Usage of content languages for websites

تصویر بالا نشان می‌دهد، زبان فارسی با ۲درصد در جایگاه نهم و همان‌طور که گفته شده بالاتر از زبان چینی، عربی و ترکی قرار دارد. اما مبنای این رده‌بندی چیست؟

در توضیحات  W3Tech، گفته شده این سایت نه محتوای منتشر شده در صفحات وب، بلکه ۱۰ میلیون وب‌سایت پربازدید الکسا را بررسی می‌کند. این سایت هر وب‌سایت را صرف‌نظر از آدرس‌های فرعی و صفحات آن، یک بار شمارش می‌کند.  

در توضیحات W3Tech گفته شده، تعریف این سایت از «وب‌سایت» متفاوت از الکسا است، در نتیجه تعداد سایت‌هایی که بررسی می‌شوند، کمتر از ۱۰ میلیون وب‌سایت است، اما ادعا شده این تفاوت، تاثیری در آمار W3Tech ندارد. همچنین گفته شده رده‌بندی الکسا بر اساس ترافیک سایت‌ها چندان دقیق نیست، اما آمار ساده و قابل استفاده‌ای از وب‌سایت‌های ایجاد شده به دست می‌دهد.

فکت‌نامه پیش‌تر در جریان درستی‌سنجی گفته‌ای از عبدالصمد خرمشاهی با عنوان سقوط فاحش رتبه تلگرام، به موضوع اعتبار و دقت رده‌بندی الکسا پرداخته بود.

 

آزمون و خطای چند وب‌سایت

در صفحه زبان فارسی W3Tech، فیسبوک، ویکی‌پدیا، توییتر، واتس‌اپ، وردپرس، آپارات، گوگل (آدرس دامین گوگل در امارات متحده عربی)، بلاگر، دیجی‌کالا و ورزش ۳ به عنوان پربازدیدکننده‌ترین صفحاتی که زبان فارسی در آنها استفاده شده، معرفی شده‌اند.

تصویر روز ۱۳ شهریور Usage statistics and market share of Persian for websites

برای اینکه بهتر متوجه شویم مبنای شمارش W3Tech چیست، در قسمت وب‌سایت‌ها چند سایت را بررسی کردیم.

با جست‌وجوی آدرس فکت‌نامه تنها زبان محتوای فارسی شمارش می‌شود.

جست‌وجو برای BBCPersian.com به BBC.com/Persian به صفحه BBC.com می‌رسد که تنها زبان محتوای شناخته شده برای آن انگلیسی است، در حالی که بی‌بی‌سی، دست کم برای ۲۹ زبان محتوای اختصاصی تولید می‌کند و برای هر کدام صفحه اختصاصی دارد.

صفحه عربی سایت خبرگزاری فارس به آدرس ar.farsnews.com به آدرس اصلی این خبرگزاری ایرانی منتهی می‌شود که زبان محتوای آن تنها فارسی است. به همین نسبت آدرس صفحات انگلیسی، عربی و ترکی ایرنا هم به صفحه اصلی خبرگزاری جمهوری اسلامی منتهی می‌شوند که زبان محتوای آن فارسی است.

این وضعیت اما برای برخی رسانه‌ها که زبان‌های مختلف در آنها آدرس مستقل دارند متفاوت است. مثلا زبان محتوای سایت الجزیره با آدرس Aljazeera.com انگلیسی و با آدرس Aljazeera.net عربی است.

بعضی از وب‌سایت‌های پربازدیدکننده مثل ویکی‌پدیا،و اغلب شبکه‌های اجتماعی و پیام‌رسان‌های پرطرفدار مثل فیسبوک، توییتر، واتس‌اپ چند زبان دارند. اما تمام آدرس‌های منتهی به Telegram.org، با اینکه حجم محتوای فارسی در آنها بالا است، فقط زبان محتوای انگلیسی آن شناخته و شمارش می‌شود.

 

جمع‌بندی

اطلاعات منتشر شده در W3Tech می‌گوید در ۲درصد محتوای وب‌سایت‌های بررسی شده از سوی این سایت، زبان فارسی شناسایی شده است، اما دقت در جزئیات نشان می‌دهد این آمار نتیجه بررسی محدود صفحات اصلی وب‌سایت‌هایی است که بر اساس رده‌بندی الکسا به عنوان سایت‌های پربازدید شناخته شده‌اند.

دقت در شیوه کار W3Tech، نشان می‌دهد این آمار برای تخمین سهم هر زبان از تولید محتوا، آمار دقیقی نیست، چنانکه بررسی‌های موردی فکت‌نامه نشان می‌دهد، به جز برخی آدرس‌های پربازدید (مثل ویکی‌پدیا، گوگل، توییتر، یوتیوب، فیسبوک، واتس‌اپ و…)، اکثر سایت‌ها، حتی آنها که به چند زبان و در آدرس‌های فرعی محتوا تولید می‌‌کنند، فقط یک زبان به عنوان زبان اصلی شناخته می‌شود.

 

آنچه می‌توان به قطع و یقین گفت این است که آمار دقیقی برای اندازه‌گیری سهم زبان‌های مختلف در تولید محتوای اینترنت وجود ندارد و آنچه تحت عنوان سهمیه‌بندی زبان‌های مختلف در تولید محتوا اعلام می‌شود، برای نتیجه‌گیری قطعی و تعیین سهم زبان فارسی کافی نیست.

گفته رسول سراییان دقیق و درست نیست، در عین حال که مطلقا نادرست هم نیست. اگر رییس سازمان فناوری اطلاعات گفته بود «اطلاعات منتشر شده از سوی W3Tech نشان می‌دهد در ۲ درصد وب‌سایت‌هایی که از سوی این سایت بررسی‌شده‌اند زبان فارسی شناسایی شده» گفته‌اش نشان درست می‌گرفت، اما این که «۲درصد از کل صفحات وب دنیا فارسی‌اند و در این حوزه زبان فارسی از عربی و چینی پیشی گرفته است» کامل و دقیق نیست و فکت‌نامه به آن نشان نیمه‌درست می‌دهد.

Share The Facts
رسول سراییان
معاون وزیر ارتباطات و رییس سازمان فناوری اطلاعات


۲ درصد از کل صفحات وب دنیا به زبان فارسی‌ است و در این حوزه زبان فارسی از عربی و چینی پیشی گرفته است
نیمه‌درست

گفته یا آمار، واقعیت دارد اما توضیح یا اطلاعات بیشتری نیاز است و در برخی موارد ممکن است جزئیاتی مهم، ذکر نشده باشد. (درباره‌ نشان‌های فکت‌نامه)