تاریخچه روایی

موس در سال 1992 در مقاله ای تفسیرهای متفاوت از روایی را شرح داد.تا دهه ی 1960،مفهوم روایی سنتی چنین بود:آیا همان چیزی را که قصد داریم،اندازه می گیریم؟با این تصور که یک ملاک عینی مکنون برای اندازه گیری وجود دارد(مانند تصورازاندازه یک متر در تمام دنیا).در اصل ممکن است محقق قادر به استدلال این که ابزار اندازه گیری که چه چیز را اندازه می گیرد و یا چه ارتباطی بین مسئله ی مورد اندازه گیری و سایر متغیرها وجود دارد، نباشد. در زمینه ی گسترده ای مانند هوش،هوش آن چیزی بود که بوسیله ابزار اندازه گیری آن مانند آزمون ها اندازه گرفته می شد ولی آیا اگرسایز کفش با مهارت رهبری همبستگی داشت،ملاک خوبی برای رهبری بود؟! در دهه ی 1970 انجمن روانشناسی آمریکا استانداردهایی را معرفی کردند. دراین استانداردها، برای تأیید روایی به لزوم استنباط مناسب ازنتایج بدست آمده تأکید شده بود و درنتیجه استدلال کردن به جهت استنباط از نتایج، مهم تلقی می شد. روایی سازه، مهمترین مؤلفه ی مناسب برای روایی آزمون های تحصیلی شد که در سایر حوزه ها اهمیت کمتری داشت. بدون شک تفکر در مورد این که چرا موارد خاصی به عنوان ملاک انتخاب دانش آموزان مورد استفاده قرار می گیرد مهم تر از قبول بدون تفکر عمیق این موارد است.تأکید بر لزوم استنباط برای دلایل باعث شد تا این دلایل بیشتر از محاسبه یا برآورد صٍرف ارقام مدنظر قرار گیرند، پرسش از این که برپایه ی چه دلایلی اندازه گیری ما مناسب و قابل اطمینان است.از دهه ی1980 انتقاد به روایی و پایایی اندازه گیری وجود داشته است. مرکز ثقل این انتقادات پایه و اساس مفهوم روایی و پایایی بود: تأکید شدید بر روی کمیت اندازه گیری، کنترل متغیرها و نیاز به جستجوی همسانی.وقتی در آزمون های تشریحی مصححین مختلف نمره های متفاوتی به یک پاسخ می دهند،لزوماً این اختلاف نظر تنها منبع خطای اندازه گیری نیست.می توان سؤال کرد چه کسی دانش یا مهارت صحیح را تعریف می کند؟یا میزان مناسب پیشرفت تحصیلی برای قبولی در امتحان چیست؟رواج عقیده ی کیفی سازیٍ تحلیل آزمون موجب افزایش بحث های مفید در مورد آزمون ها و ایجاد سؤال های جدید در مورد ماهیت روایی و پایایی شده است.با وجود این ،چنین بحث هایی به معنای کم اهمیت بودن جنبه ی ریاضی اندازه گیری نیست:اگر ابزار اندازه گیری ما ضعیف باشد،قادر نخواهیم بود اطلاعات دقیقی به دست آوریم.

تاریخچه پایایی: به طور معمول مفهوم پایایی به عنوان شاخصی از تکرار پذیری اندازه گیری مورد استفاده قرار می گیرد. اولین با چارلز اسپیرمن در اوایل دهه 1900 در مقاله ی خود در دومجله معتبر اصطلاح پایایی را معرفی نمود.در ابتدای این دهه مفهوم خطای اندازه گیری به عنوان اندازه گیری از عدم دقتِ آزمون مطرح شد،تا در دهه ی 1950 مفهوم پایایی جایگزین مفهوم خطای اندازه گیری شد.بر طبق نظریه گالیکسون،خطای اندازه گیری مفهوم بنیادی تری نسبت به مفهوم پایایی است.

روایی: کوک و کمپل درکتاب کاربردی در زمینه روایی اظهار می دارند:"هنگام سنجش روایی اندازه گیری ،تفکرنظام دار برروی عواملی که ممکن است قابلیت اعتماد بررسی و تحقیق را کاهش دهند،امری اساسی است."

درتعریفی دیگرروایی عبارت ازمیزان انطباق مشاهدات وپرسش های تحقیق باهدف اصلی پژوهش می باشد.آیا داده های گردآوری شده تصویر حقیقی همان موضوع مورد بررسی است یا خیر.زمانی مسئله به وجود می آید که داده های جمع آوری شده ظاهراً حاصل روش پژوهش انجام گرفته باشند(نیل،1374:ص125).

به عنوان مثال، یک ساعت را در نطر بگیرید که موظف است زمان صحیح را نشان دهد.اگر ساعت زمان غلط را نشان دهد،خواهیم گفت که این ساعت فاقد روایی است و معتبر نیست.یا ترازویی که برای سنجش وزن به کار می رود هنگامی روایی لازم را دارد که وزن دقیق فرد را نشان دهد.با استفاده از دو مثال فوق می توان پایایی را نیز توضیح داد.تعیین دقیق زمان تحقیق می بایست به طور مستمر انجام گیرد.به عبارت دیگر ساعت همیشه زمان دقیق را نشان می دهد.چنین ساعتی هم روایی و هم پایایی لازم را دارد.البته ممکن است یک ابزار اندازه گیری پایا باشد اما معتبر نباشد.همین ساعت را در نظر بگیرید،این ساعت ممکن است همیشه 5دقیقه از زمان حقیقی عقب یا جلو باشد.در این حالت این ساعت پایایی لازم را دارد اما روایی ندارد زیرا زمان دقیق را نشان نمی دهد.بنابر این می توان گفت میزان پایایی حدود ممکن میزان روایی را تعیین می کند.در صورتی که وسیله اندازه گیری فاقد ثبات لازم باشد،روایی آن از حد معینی بالاتر نمیرود،اما اگر یک وسیله اندازه گیری از روایی بالایی برخوردار باشد،الزاماً پایا نیز هست.

ویژگی های روش های سنجش روایی

روایی را به روش های گوناگون ارزشیابی کرد.این عمل به نوع آزمون و کاربرد آن بستگی دارد.سه نوع روایی وجود دارد که عبارتند از:

1-روایی محتوا

2-روایی وابسته به ملاک

3-روایی سازه

1- روایی محتوا

روایی محتوا به تحلیل منطقی محتوای یک آزمون بستگی دارد و تعیین آن بر اساس قضاوت ذهنی و فردی است.دو نوع اعتبار محتوا وجود دارد:روایی صوری و روایی منطقی.گاهی اوقات روایی صوری،روایی ذهنی نیز نامیده می شود.هنگامی این روایی برقرار است که فردی آزمونی را بررسی کند و نتیجه بگیرد که این آزمون صفت مورد نظر را اندازه گیری می کند.فردی که این بررسی را انجام می دهد می تواند یک پاسخگو یا یک متخصص باشد.چنانچه افراد مختلف در زمینه ی اعتبار آزمون توافق نداشته باشند،اعتبار صوری مورد تردید قرار میگیرد.اعتبار صوری ممکن است برای توصیه برخی از مقیاس ها و پرسشنامه ها کافی باشد و برای برخی از آزمون ها با توجه به هدف استفاده از آنها الزامی باشد.مثلاًدر صورتی که برای انتخاب داوطلبان کار در یک مؤسسه آزمونی اجرا می شود،اما بین نمره های آزمون و شغل مورد نظر رابطه آشکاری وجود ندارد،دراین مواقع ممکن است آزمون شونده علاقه ای به جواب دادن سؤالهای آزمون از خود نشان ندهد،زیرا شاید چنین تصور شود که آزمون به تصمیم های اتخاذی در مورد استخدام او ربطی ندارد.بنابر این اگرچه روایی صوری،ضامن اندازه گیری دقیق نیست اما بر انگیزش پاسخگو و درنتیجه بر روایی پاسخ ها تأثیر می گذارد.

همچنین باید توجه داشت که هر چند روایی صوری یک ویژگی مطلوب آزمون است،در برخی آزمون ها این ویژگی ضروری نیست،بلکه بهتر است که وجود نداشته باشد.مثلاً اگر کسی بخواهد بیماری روانی را در افراد معین کند،بهتر است آزمونی را مورد استفاده قرار دهد که روایی صوری کلی دارد(سیف 1375:ص115)

هرچند روایی صوری می تواند نقش مؤثردر استفاده از یک آزمون داشته باشد،ولی در مواردی که اعتبار آزمون به کمک روش های دیگری تعیین می شود،استفاده از این روش الزامی نیست.

اعتبار منطقی یا نمونه گیری شکل پیچیده تری از اعتبار صوری می باشد.این روش مشتمل است بر تعریف دقیقی از حیطه ی رفتار،دانش نگارش،سایر حیطه های مورد اندازه گیری پرسشنامه و طرح منطقی سؤال هایی که همه ی بخش های عمده ی حیطه را می پوشاند.هنگامی یک سنجه از نظر محتوایی معتبر است که معرف کامل حوزه ی معنای مفهوم اصلی مورد مطالعه باشد.به عبارت دیگر نمونه گیری دقیقی از حوزه های مختلف مفهوم مورد نظر صورت گرفته و بر اساس آن ابزاراندازه گیری طراحی شده باشد.در این مرحله علاوه بر اینکه مربوط بودن سنجه ها ارزیابی می شود(اعتبارصوری)به بررسی این که آیا دامنه ی تغییرات مفهوم یا مفاهیم مورد نظر تحت پوشش قرار می گیرند،نیز می پردازد.به عنوان مثال،گزارش های بخش حوادث روزنامه ها در مورد جرایم و آمار پلیس,هر دو دارای اعتبار صوری هستند اما اعتبار محتوایی گزارش های بخش حوادث روزنامه ها از روایی محتوایی کمتری برخوردارند؛زیرا معمولاً گزارش های روزنامه ها از بسیاری از جرایم غیر محسوس چشم پوشی می کنند،بنابر این جامعیت لازم را ندارند.

محقق می بایست برای بررسی اعتبار محتوایی یک پرسشنامه یا فرم مصاحبه،به گزاره های تحقیق (اهداف فرضیه ) مراجعه نماید و گویه های مورد نیاز را بر اساس اهداف یا فرضیات و نهایتاً تعاریف عملیاتی متغیرها تدوین کند . ارزیابی روایی محتوایی داده های عینی چندان مشکل نیست اما هرقدر مفاهیم مورد نظر انتزاعی تر می شوند،تعیین اعتبار محتوایی آن نیز مشکل تر می شود زیرا حوزه ی محتوای چنین مفاهیمی معمولاً مورد توافق همگان نیست.از طرف دیگر بر فرض اینکه حوزه محتوا کاملاًمشخص باشد،باز هم طراحی مجموعه ای از گویه ها که برای نشان دادن هر یک از بخش های حوزه ی محتوا به اندازه ی کافی بزرگ باشد،بسیار دشوار است.

با توجه به نکات فوق می توان گفت که تعریف رضایت بخشی از رواسازی محتوایی مقدور نیست و همانگونه که پیشتر گفته شد روایی محتوایی به داوری(قضاوت) مربوط می شود و شخص به تنهایی یا همراه با دیگران درباره ی معرف بودن گویه ها قضاوت میکند.هر گویه باید مطالعه شود و به هرکدام از لحاظ معرف بودن برای مجموعه ی جامع،وزن یا ضریبی داده شود.یعنی در مورد هر ماده باید تناسب آن با خصئصیات مورد اندازه گیری مورد بررسی قرار گیرد و این کار آسانی نیست.معمولاً داوران ذیصلاح دیگری هم باید در مورد محتوای گویه ها قضاوت کنند.اگر مقدور باشد،کل محتوا باید به روشنی تعریف شود و به داوران از لحاظ داوری و همین طور مشخص کردن این که چه چیزی را داوری می کنند،باید راهنمایی های لازم ارائه شود.پس از این است که می توان از روش گردآوری داوری های مستقل استفاده کرد(کرلینجر1372:ص95).

چون اعتبار محتوا بر اساس قضاوت های ذهنی انجام می شود،تعیین آن در مقایسه با سایر انواع اعتبار ها بیشتر در معرض خطا قرار دارد اما به طور کلی تعیین اعتبار محتوا اولین قدم در بررسی تمام سنجه ها(آزمون،مقیاس،پرسشنامه و ...)است وگویه ها به دلیل برآورده شدن شرایط اعتبار محتوا تدوین می شوند.برای تضمین نیل به جنبه های مطلوب اندازه گیری می توان،از طریق فنون تحلیل سؤال ها،سنجه را مورد تجدید نظر قرار داد یا اصلاح کرد.معمولاً اعتبار محتوای آزمون ،به تنهایی توجیه کننده استفاده از آن نیست.پیش از آنکه از آزمون استفاده شود،باید کارایی آن با استفاده از روش هایی مانند،اعتباروابسته به معیار و ... اثبات شود.

2-روایی وابسته به معیار

منظور از روایی وابسته به معیار مقایسه نمرات آزمون یا مقیاس با یک یا چند معیار می باشد و بدین ترتیب آزمون یا مقیاسی معتبر است که نمرات آزمون یا مقیاس با معیارهای مورد نظر همبستگی بیشتری دارد.هنگامی که به اعتبار ملاکی توجه می کنیم که درصدد شناسایی برخی ازمعیارهای قابل مشاهده از طریق یک آزمون یا مقیاس هستیم . روایی وابسته به معیار بر دو نوع است:

الف) روایی پیش بین ب)روایی همزمان

الف)روایی پیش بین

اعتبار پیش بین عبارت است از بررسی رابطه ی نمرات و نتایج حاصل از مقیاس آزمون با عملکرد و رفتار افراد در زمان آینده است.در این حالت این سؤال وجود دارد که آیا ابزار اندازه گیری قادر است آنچه را که ادعا می کند پیش بینی کند.به عنوان مثال،یکی ازدلایل اجرای کنکور برای داوطلبان شرکت در دانشگاه ،گزینش دانشجویان در رشته هایی است که بتوانند با توجه به استعدادشان ،دوره آموزشی مورد نظر را با موفقیت طی نمایند.بنابر این اگر بین نمرات قبولی کنکور در یک رشته خاص و شاخص پیشرفت تحصیلی دانشجویان آن رشته (که معمولاً از معدل استفاده می شود)همبستگی وجود داشته باشدمی توان گفت آزمون فوق اعتبار پیش بین بالایی دارد.همچنین سازمان هایی که برای استخدام پرسنل کارآمد،اقدام به گزینش و آزمون می کنند،ازیک سری آزمون ها و مصاحبه ها بهره می برند و هدف آنها جذب بهترین پرسنل جهت افزایش کارایی سازمان می باشد.بنابر این در صورت عدم اعتبار آزمون ها و مصاحبه ها ،قادر به جذب بهترین پرسنل نخواهند بود.علاوه بر دو مثال فوق می توان گفت تمامی آزمون ها ومقیاس هاپیش بینی کننده اند،آنهانوع خاصی از بازده،حالتی از امور را در حال یاآینده پیش بینی می کنند.آزمون هوش توانایی فعلی و آینده ی فرد را برای یادگیری،مقیاس اف قدرت طلبی، قدرت طلبی افراد را در حال و آینده و آزمون استعداد،پیشرفت آنها را در آینده پیش بینی میکند.

ضریب اعتبار پیش بین از طریق اجرای آزمون برای همه ی افرا مورد نظر،انتظار برای یک مدت معقول ، گرد آوری نمرات ملاک و محاسبه ضریب اعتبار به دست می آید.مثلاً در مورد مثال قبل ،اعتبارپیش بین برای یک آزمون استخدام،از طریق سنجش هریک ازمتقاضیان باکمک آزمون،استخدام عده ای از آنها برای چند هفته یا چند ماه تا موقعی که ملاک (عملکرد شغلی)را بتوان به طور پایا و منطقی ارزشیابی کرد محاسبه ضریب اعتبار بین نمره های پیش بینی کننده (آزمون)و ملاک (عملکرد شغلی)برقرار خواهد شد.این شیوه درباره ی نحوه ی پیش بینی آزمون از رفتار آتی،اطلاعات خوبی را بدست می دهد،اما این عمل وقت گیر بوده و مستلزم هزینه ی زیادی است.(آلن و ین، 1374:ص 84)

علاوه بر وقت گیر بودن و هزینه ی بالای تعیین اعتبار پیش بین ابزار اندازه گیری یکی از مشکلات اصلی دیگر مسأله اندازه گیری ملاکی که مورد تأیید و توافق همگان باشد،است.به عنوان مثال،تعیین ویژگی های مناسب یک مدیر خوب،به عنوان ملاکی جهت انتصاب افراد در پست های سازمانی کار چندان ساده ای نیست.به عبارت دیگر تعیین ملاک موفقیت یک مدیر مستازم پژوهش های وسیع و دقیق در حوزه ی مدیریت و اقتصاد می باشد،که به رغم سال ها پژوهش هنوز ملاک دقیق و معتبری برای آن تعیین نشده است.

همانگونه که در تعیین اعتبار پیش بین می توان از چندین ملاک استفاده کرد،استفاده از چندین آزمون پیش بین نیز این نوع روایی را افزایش می دهد و بر قدرت پیش بینی می افزاید.مثلاً افزودن چند عامل پیش بینی دیگربه نمرات آزمون ورودی دانشگاه ها می تواند قدرت پیش بینی آن آزمون را افزایش دهد.

یعنی به عوض تکیه بر نمرات آزمون ورودی به عنوان یک عامل واجد پیش بینی،می توان از نمرات دبیرستان داوطلبان و نمرات نوعی آزمون استعداد تحصیلی نیز بهره برد.ترکیب این سه نوع عامل به مراتب بیشتر از نمرات یک آزمون ورودی می تواند موفقیت آتی داوطلبان ورود به دانشگاه را پیش بینی کند و در نتیجه انتخاب بهتری از داوطلبان به عمل آورد(سیف،1375:ص57).

ب)روایی همزمان

اعتبار همزمان نوعی روایی وابسته به ملاک است که از همبستگی بین نمره های آزمون و ملاک در شرایطی که هر دو اندازه در یک زمان به دست آمده باشند،استفاده می کند.به عبارت دیگر این نوع اعتبار،حالتی از اعتبار پیش بین می باشد که در آن به جای تعیین رابطه بین دو آزمون پس از یک فاصله زمانی،رابطه ی بین دو آزمون به طور همزمان تعیین می شود.برای مثال،آزمون چند وجهی شخصیت مینه سوتا (MMPI) یک آزمون تقریباً بلند شخصیت است که اغلب تا 600 سؤال دارد.این آزمون یک سنجه روا برای ارزیابی شخصیت افراد می باشد.حال فرض کنید یک پژوهشگر آزمون جدیدی برای سنجش شخصیت تهیه کرده است که نسبت به آزمون فوق کوتاهتر می باشد.او می تواند در مواردی که نمرات افراد استثنایی است برای اطمینان از آزمون MMPI استفاده نماید.در این حالت آزمون کوتاه یک پیش بینی کننده و MMPI به عنوان یک ملاک دارای اعتبار همزمان می باشد.

در مواردی که نتایج هر دو آزمون شبیه به یکدیگر باشد،محقق می تواند آزمون کوتاه را جایگزین آزمون بلند نماید.بنابر این می توان گفت یکی از اهداف تعیین روایی همزمان بین دو آزمون،جایگزینی یکی به جای دیگرمی باشد.بدیهی است چنین جانشین سازی هنگامی مفید خواهد بود که بین نمرات هر دو آزمون رابطه ی بالایی وجود داشته باشد و دیگر این که استفاده از آزمون جدید نسبت به آزمون قدیمی دارای مزایای قابل توجهی باشد.

ج)ویژگی های مطلوب ملاک

برای داده های ملاکی چند ویژگی ذکرشده است که ازجمله می توان به مواردزیراشاره کرد( ثراندایک،و هیگن 1979،به نقل از سیف،1375):ربط داشتن،بی طرفی ،پایایی و در دسترس بودن. منظور از ربط داشتن داده ها،میزان انطباق آنهابا موقعیت واقعی شخص می باشد.برای این خصوصیات هیچ گونه شواهد تجربی وجود ندارد و باید بر اساس ملاک منطقی تصمیم گرفت.مثلاً این که آیا میانگین نمرات دانشجویان سال اول دانشگاه شاخص درستی از دستیابی آنان به اهداف آموزشی درس های مختلف هست یا نه،هیچ گواه تجربی وجود ندارد.در این مورد،بهترین راه استفاده از نظر افراد و متخصصان می باشد(روایی محتوایی).بنابر این در رابطه با یک آزمون ملاک نیز لازم است که به قضاوت تخصصی افراد اطمینان کنیم تا معلوم شود که یک آزمون ملاک تا چه حد به ملاک غایی موفقیت در یک برنامه مربوط است.

آزمون باید به نحوی باشد که همه ی افراد در کسب نمره ی خوب دارای شرایط مساوی باشند.مثال های مربوط به عدم بی طرفی،تفاوت بین تجهیزات و شرایط کار برای کارگران یک کارخانه یا تفاوت بین کیفیت آموزش داده شده به دانش آموزان مختلف است.

یکی از خصوصیات ضروری همه ی آزمون ها،از جمله آزمون ملاک،پایایی آن می باشد،به عبارت دیگر هر وسیله اندازه گیری باید با ثبات و قابل تکرارباشد.در مورد پایایی آزمون در قسمت دیگر به طور کامل تووضیح داده می شود.و بالاخره یکی دیگر از ویژگی های مهم یک آزمون در دسترس بودن داده های ملاک است.یعنی این که دستیابی به اندازه ملاک عملی و میسر باشد.این ویژگی را با توجه به زمان ،هزینه و امکانات مورد نیاز مورد قضاوت قرار می دهند؛بنابراین ملاکی که به سهولت بیشتر درچارچوب امکانات سهل تر،قابل دسترس باشد ملاک بهتری است.

3-روایی سازه

همانگونه که قبلاً اشاره شد،سازه مفهوم انتزاعی است که مستقیماًقابل مشاهده نیست ولی ازنظریات ،قابل استنباط است.بنابر این مقیاس ها وآزمون هایی که برای سنجش سازه ها درست می شوند،به طورمستقیم سازه هارا نمی سنجند ،بلکه عملکرد یا رفتارهایی را که گمان میرود منعکس کننده سازه ها هستند،آن را می سنجند.

روایی سازه عبارت از میزان صحت سنجه ،مقیاس یا آزمون در اندازه گیری ساخت نظری یا ویژگی مورد نظر است.این اعتبار نوعی اعتبار مبتنی بر تجربه است که در آن برای تأیید اعتبار سنجش به شواهد قابل مشاهده متوسل می شوند.اما در مورد مفاهیم نظری تر اعتبار خود آزمون هم باید نظری تر باشد.روایی سازه مبتنی است بر ساختن فرضیه هایی درباره ی مفاهیم مورد سنجش و آزمون این فرضیه ها و تعیین همبستگی نتایج آن با سنجش اولیه.چنانچه نتیجه داده ها،پیش بینی ها را تأیید کند،اعتبار سازه افزایش می یابد.در غیر این صورت حداقل سه نتیجه دیگر امکان پذیر است:

1)خدشه دار بودن آزمایش

2)اشتباه بودن نظریه و لزوم تجدید نظر در آن

3)عدم اندازه گیری ویژگی مورد نظر در پرسشنامه

به عنوان مثال،فرض کنید شما سنجشی از احساس خوشبختی به عمل آورده اید و قصد دارید روایی این سنجش را معین کنید،بنابر این می توان فرضیه ای در مورد عواملی که بر احساس خوشبختی مؤثرند،ساخت.مثلاً بین مفهوم خود واحساس خوشبختی رابطه وجود دارد.آنگاه میتوان همبستگی میان مقیاس احساس خوشبختی را با مفهوم خود محاسبه کرد و در صورت تأثیر فرآیند می توان گفت که مقیاس تهیه شده،آن چیزی را که قصد سنجش را داشته ،اندازه گیری می کند.

روش تعیین روایی سازه

برای تعیین روایی سازه راه های مختلفی وجود دارد که از جمله می توان به موارد زیر اشاره کرد:

الف)همبستگی

یکی از راه های تعیین روایی سازه مقایسه نتایج حاصل از مقیاس با یک مقیاس دیگر که برای همان سازه ساخته شده و دارای روایی می باشد است.در صورتی که مقیاس جدید با مقیاس موجود همبستگی بالایی داشته باشد،فرض می کنیم که این دو سنجه ،سازه ی واحدی را اندازه می گیرند و در نتیجه سنجه جدید نیز برای سازه ی مورد نظر روایی دارد یا اینکه چه چیزهایی با سازه مربوط می باشد و این همبستگی چگونه است.به این نوع روایی،روایی همگرا می گویند.

همچنین یکی از راه های تعیین روایی سازه این است که بین سنجه ساخته شده و سنجه های دیگر که سازه های متفاوتی را می سنجند،همبستگی وجود نداشته باشد و دراین صورت می توان گفت سازه دارای توانایی برای تشخیص پدیده ای است که مدعی سنجش آن است.بنابر این باعث تمایز این پدیده از دیگر پدیده ها می شود که گمان می رود بی ربط هستند به این نوع روایی،روایی واگرا یا تفکیکی گویند.برای مثال،اگر تحقیقات پیشین شواهدی ارائه داده باشد مبنی بر اینکه بزهکاری جوانان و جرایم بزرگسالان دارای رابطه علت و معلولی هستند،انتظار داریم که همبستگی بالایی میان سنجه های مربوط به این دو نوع متفاوت کجروی(بزهکاری وجرم)پیدا کنیم.

این همبستگی را می توان دال بر این دانست که هم تحقیقات پیشین از صحت برخوردارند و هم سنجه ها احتمالاً حائز اهمیت هستند.از سوی دیگر،اگر بزهکاری جوانان و جرائم بزرگسالان،دارای رابطه علت و معلولی نباشند،پس باید انتظار داشت سنجه هایی را که برای هر دو پدیده (بزهکاری و جرم)پیدا کرده ایم تا حدود زیادی به لحاظ تجربی فاقد همبستگی باشند و بعکس.

یک سنجه موفق نه فقط باید باسنجه های یگر که سازه ای مشابه را اندازه گیری می کنند،همگرا باشدبلکه باید با سنجه های مفاهیم دیگری که یک نظریه را با مفهوم کانونی پیوند می زند نیز همبستگی بالایی داشته باشد.علاوه بار آن هرچند اعتبار همگرا لازم است اما کافی نیست و اعتبار تفکیکی در حد اعتبار همگرا لازم است.زیرا به بررسی حساسیت سنجه ها در سنجش پدیده ای غیر مربوط می پردازد و میزان ابهام یا گسترده بودن مفهوم را نشان می دهند.

ب)تغییرات

راه دیگر تعیین روایی سازه،توجه به تغییرات زمان می باشد.اگر یکی از ویژگی های انسان با گذشت زمان تغییر کند بنابر این می بایست سنجه مورد نظر این تغییرات را با گذشت زمان منعکس کند.برای مثال،آزمونی که مهارت های ارتباط کلامی را اندازه گیری می کند،باید با بزرگ شدن کودکان یا حضور آنها در کلاس های مربوطه نمره های بالاتری را نشان دهد.

ج)تفاوت های گروهی

اگر نظریه دال بر تفاوت های گروهی در بین افراد در مورد سازه مورد نظر باشد(یا نباشد)،این پیش بینی را می توان با گردآوری داده ها و اجرای آزمون آماری مناسب برای آزمایش فرضیه،مورد بررسی قرار داد.به عنوان مثال،سنجه ای که انگیزه ی پیشرفت را اندازه گیری می کند باید بتواند به طور کلی بین نخبگان علمی، سیاسی و ... با افراد عادی جامعه تمییز قائل شود.

د)تحلیل منطقی

از آنجا که سازه یک مفهوم انتزاعی است و سنجش آن نیاز به سؤال های متعدد یا مقیاس های ویژه ای دارد که بتواند تک تک مؤلفه هاوابعاد آن را پوشش دهد بنایر این یکی از روش های تعیین روایی سازه،بررسی روایی محتوایی آن می باشد.بدین صورت که محقق خود یابا کمک صاحبنظران به بررسی گویه های سنجه و جامعیت و مانع بودن آن می پردازد.همانگونه که گفته شد این تحلیل بسیار شبیه تحلیل روایی محتوایی است و علت آن نیزهمپوشی وارتباط نزدیک بین روایی سازه باسایرروایی هابه خصوص روایی محتوایی است(سیف،1375:ص89).

ه)تحلیل عاملی

یکی از روش های بررسی اعتبار سازه،تحلیل عاملی است.تحلیل عاملی نشان دهنده ی شیوه های ریاضی گوناگون برای تحلیل همبستگی های درونی بین مجموعه ای ازمتغیرها و تبیین این همبستگی ها بر حسب تعداد

معدودی از متغیرها می باشد که عامل نامیده می شوند.عامل یک متغیر فرضی است که بر یک یا چند متغیر مورد مشاهده تأثیر می گذارد.به عبارت دیگر هدف تحلیل عاملی،استخراج تعداد معدودی عامل از میان تعداد زیادی متغیرهای همپوش به گونه ایست که 1)بین همه متغیرها مشترک باشد. 2)جانشین تعداد زیادی متغیر شود. 3)این عوامل با هم همبستگی و تداخل نداشته باشد. و 4) سرانجام سازه ای روشن و با معنا تبیین کنند.

مثال:

عبداللهی (1377) به منظور سنجش عملکرد یک واحد تولیدی در طول یک سال زراعی از یک مقیاس چند بعدی استفاده نمود.او به منظور سنجش این سازه با مراجعه به منابع موجود و با مشورت با متخصصان امرو نظر سنجی ازمدیران و کارشناسان کشاورزی،مقیاسی چند بعدی مشتمل بر 5 بعد اقتصادی،اجتماعی،فرهنگی،فنی و زیست محیطی تهیه نمود.

معرف های ابعاد پنج گانه به شرح زیر تعیین شد:

1-بعد اقتصادی شامل:

-بازدهی عوامل تولید به تفکیک

-زمین

-آب

-کار

-ضریب کارایی

-اشتغال زایی

-درآمد سرانه

-جذب سرمایه پس انداز و سرمایه گذاری

-بسط صنایع تبدیلی،تکمیلی و نگهداری

2-بعد اجتماعی شامل:

-تأمین رفاه

-جلب رضایت کارکنان

-جلوگیری از مهاجرت

-بسط روابط گرم و پایدار بین کارکنان

3-بعد فرهنگی شامل:

-رشد آگاهی

-رشد شخصیت

4- بعد فنی شامل:

-انجام عملیات زیربنایی-بهزراعی

-کاربرد ابزار و ماشین آلات کشاورزی-ارتقای سطح مکانیزاسیون

-کاربرد روش ها و فنون نوین کشاورزی

-حفظ یک پارچگی کشت

-حفظ یک پارچگی اراضی

5-بعد زیست محیطی(اکولوژیکی )شامل:

-حفظ و جلوگیری از تخریب و آلودگی منابع

-جلوگیری از ضایعات

-جلوگیری از اتلاف آب و افزایش راندمان آبیاری

محقق پس از تهیه مقیاس اولیه،از طریق یک آزمون مقدماتی اقدام به بررسی روایی سازه فوق با استفاده از تکنیک تحلیل عاملی نمود که نتیجه حاصل از آن در جدول( 1-1) آمده است.

متغیر

عامل اول

عامل دوم

عامل سوم

عامل چهارم

عامل پنجم

بازدهی زمین-زراعی

91%

سودزراعی در هکتار

86%

بازدهی نیروی کار-زراعی

96%

سودسرانه-زراعی

96%

بازدهی زمین-کل

89%

سود(کل)

92%

انجام عملیات زیر بنایی

83%

سطح مکانیزاسیون

54%

کاربرد در روش ها و فنون

81%

رضامندی شغلی

52%

میزان رشد شخصیتی

86%

سطح رفاه

86%

حفظ محیط و جلوگیری از تخریب منابع

91%

جدول (1-1)

همانگونه که از این جدول بر می آید،معرف های انتخاب شده برای مقیاس عملکرد نظام بهره برداری تقریباً منطبق با الگوی نظری پیش بینی شده در ذیل 5 عامل جمع شده اند:

عامل اول اقتصادی:شامل بازدهی نیروی کار و سود سرانه.

عامل دوم اقتصادی:شامل بازدهی زمین،سود زراعی و بازدهی زمین و سود کل.

عامل سوم فنی:شامل انجام عملیات زیربنایی،سطح مکانیزاسیون و کاربرد روش ها و فنون نوین کشاورزی.

عامل چهارم اجتماعی-فرهنگی:شامل رضامندی شغلی،میزان رشد شخصیتی و سطحرفاه زندگی کشاورز.

عامل پنجم محیطی یا اکولوژیکی:شامل حفظ محیط و جلوگیری از تخریب منابع و اتلاف آب.

بنابر این با توجه به نتایج حاصل از تحلیل عاملی می بایست مقیاس اولیه را بر اساس این نتایج تصحیح نمود.

و) روش چند صفتی-چند روشی

برخی از محققان معتقدند ک هیک مفهوم ممکن است چندین پدیده ی غیر مرتبط یا شاید با ارتباط منفی را در بر گیرد به جای آنکه این مفهوم بیانگر پدیده ای واحد باشد که مؤلفه های آن به طور مثبت و متقابل با یکدیگر رابطه دارند. با این حال مسأله اصلی این است در صورتی که چنین ارتباطی وجود دارد.این ارتباط به چه صورتی است . درست همان گونه که ساختن و آزمون فرضیه ها،پدیده های اجتماعی را به هم پیوند می دهند،باید پرسید که سنجه های مختلف چگونه پدیدهای را به خوبی می سنجند؟همچنین باید پرسید که سنجه های مختلف چگونه از عهده ی تکنیک و پیش بینی پدیده بر می آیند.پاسخ این سؤال ها به اعتبار سازه مربوط می شود،یک طرح تحقیقی پیچیده تر می طلبد و تحلیل داده ها نیز به نحو جامع تری باید صورت گیرد.بدین منظور می توان از روش صفتی-چند روشی استفاده کرد.این روش به همت کمپل و فیسک (1959) توسعه یافته است.

این روش به شناسایی دقیق صفاتی می پردازد که سازنده ی مفهوم یا سازه مورد نظر است و کاربرد حداقل دو روش برای بسط سنجه های چندگانه در مورد هر صفت لازم است.بنابر این سنجه های فوق در مورد نمونه مشابهی ازافرادوگروه هابه کار می روند.نتایج سنجش،یک ماتریس است که شامل همبستگی های بین روش ها و درون روش ها می باشد.

پایایی

1-مفهوم پایایی

اصطلاح پایایی که گاهی اوقات مترادف با قابلیت اعتماد،ثبات،همسانی،قابلیت پیش بینی دقت یا صحت و اعتبار به کار می رودعبارت است ازثبات اندازه ها در دفعات اندازه گیری.

پایایی را می توان بر اساس سه معیار تعریف کرد.

یک رویکرد را می توان با این پرسش خلاصه کرد.اگر یک مجموعه از چیزها رابا یک ایزار اندازه گیری یا ابزار مشابه آن بارها اندازه گیری کنیم،آیا نتایج یکسان یا مشابه به دست می آید؟این سؤال اعتبار را به به مفهوم پایایی، قابلیت اعتماد،قابلیت پیش بینی مطرح می کند.

رویکرد دوم با این سؤال خلاصه می شود:آیا اندازه های به دست آمده از ابزار اندازه گیری اندازه های واقعی خصیصه ای است که اندازه گیری شده است؟این سؤال به معنای دقت و صحت است.این تعریف در مقایسه با تعریف نخست،از عقل سلیم و شهود فاصله ی بیشتری دارد و البته اساسی تر نیز است.دو سؤال فوق را می توان در اصطلاحات پایایی، دقت یا صحت خلاصه نمود.

و سر انجام رویکرد سوم نیز در این سؤال خلاصه می شود:یک ابزار اندازه گیری چقدر خطای اندازه گیری دارد؟در این تعریف دو نوع واریانس قابل شناسایی است:واریانس نظام دار و خطا.واریانس نظام دار به یک سو گرایش دارد و بعکس واریانس خطا سودار می باشد.واریانس تصادفی یا واریانس خطا خود جبران کننده است:نمرات حاصل از ابزار اندازه گیری گاهی به این سووزمانی به سوی دیگر گرایش پیدا می کنند.خطاهای اندازه گیری از نوع خطاهای تصادفی نیستند.عوامل مختلفی منشاء آن می باشد ازجمله خستگی موقت یا زود گذر،شرایط اتفاقی،درزمانی خاص که به طور موقت در چیز مورد اندازه گیری یا ابزار اندازه گیری تأثیر می گذارد،نوسان های حافظه یا خلق و عامل های دیگری که موقتی و تغییر کننده هستند.به همان اندازه که خطاهای اندازه گیری در ابزار اندازه گیری وجود دارند،به همان اندازه نیز نا معتبر هستند(کرلینجر1376:ص61).

به منظور درک بهتر پایایی یک ابزار اندازه گیری،ساعتی را در نظر بگیرید.ساعت ابزاری برای سنجش دقیق زمان می باشد.بنابر این تعریف پایایی،یک ساعت دارای اعتبار و پایا می بایست زمان را به طور مداوم صحیح نشان دهد.اما در صورتی که چنین ساعتی گاهی کند و گاهی تند کار کند ،می گوییم این ساعت پایایی لازم برای نشان دادن زمان صحیح را ندارد.برای سنجش پایایی چنین ساعتی می بایست آن را با ساعت های دقیق مقایسه نمود. همچنین هنگامی می توانید بگویید فلان تست هوش پایایی لازم را دارد که طی دفعات متعدد، میزان هوش یک دانش آموز یکسان اندازه گیری شده باشد.

همان طوری که می دانیم ابزاراندازه گیری معینی که برای مقصود خاصی دارای اعتباراست نبایدچندان نگران قابلیت اعتماد آن باشیم.معنی اعتبار ابزار اندازه گیری آن است که وسیله ی مورد نظر اصولاً عاملی راکه برای سنجیدن آن ساخته شده اندازه می گیرد وعوامل مقطعی یا ثابت در آن تأثیر نداشته است.درنتیجه،بررسی پایایی وسیله ی مزبور،یعنی تعیین میزان اثر عوامل گذران در وسیله و جریان اندازه گیری مورد ندارد.

با این وجود چون محققین اکثراًدر شروع تحقیق نمی دانند که ابزار اندازه گیری مورد استفاده دارای اعتبار لازم هست یا نه،بنابر این بررسی پایایی اغلب اجتناب نا پذیر می باشد.مشخص نبودن میزان اعتبار اندازه ها منوط به انجام مطالعات مقدماتی و تعیین میزان اعتبار ابزار است.بعلاوه بندرت اتفاق می افتد که وسیله ی اندازه گیری دارای چنان اعتبار کاملی باشد که نتوان دیگر آن را افزایش داد.

پایایی ابزار اندازه گیری حتماً باید قبل از به کار بردن آن در مطالعات مختلف معین شود.تخلف از این قاعده تنها هنگامی جایز است که در مطالعات قبلی قابلیت اعتماد رضایت بخشی برای ابزار مورد نظر به دست آمده باشد.2-سنجش پایایی

برای ارزشیابی قابلیت اعتماد وسایل اندازه گیری لازم است درجه توافق اندازه های مستقل و مشابهی را که از فرد،گروه و یا موقعیت معینی به دست آمده مشخص کرد.بدیهی است که در وضع دلخواه می بایست از افراد معین تحت شرایط یکسان،اندازه های متعدد و مکرر به دست آورد و بر مبنای آن مقدار اشتباهات تصادفی اندازه گیری راتخمین زد.اما درمطالعه ی رفتار آدمی این مسأله غالباً میسر نیست.در این گونه موارد، موجبات مزاحمت و عصبانیت افراد را فراهم می آورد،بلکه در رفتار مورد نظر نیز تغییراتی ایجاد می کند.در صورت وجود این احتمال می توان تخمین قابلیت اعتماد را تنها بر اساس دو اندازه گیری از هر فرد عضو نمونه ی آماری انجام داد.اگر بتوان اندازه های به دست آمده را در معرض تجزیه و تحلیل داخلی قرار داد،می توان حتی به یک اندازه گیری نیز اکتفا کرد.برای آنکه تعداد اندازه ها به مقدار کافی برسد،برای تعیین اعتبار مناسب، می توان درعوض به دست آوردن اندازه های متعدد از هر فرد،بر تعداد افراد افزود.روش معمول در این زمینه محاسبه میزا ن اعتماد از طریق بررسی میزان توافق میان نتایج اندازه گیری های مختلف است.تعیین پایایی هر کدام به برخی از علل و منابع منابع تفاوت نمرات توجه دارند.برخی متوجه ثبات وضع فرد در اندازه گیری های مختلف بوده و مقدار تغییر صفت مورد اندازه گیری در اثر عوامل گوناگون راتعیین می کنند و برخی دیگر متوجه برابری و همسانی وضع افراد در اندازه گیری هایی است کهبه وسیله ابزارهای مختلف به عمل آمده و یا توسط یک وسیله اندازه گیری و در یک زمان،منتهی توسط افراد مختلف اجرا و یا به وسیله داوران متفاوت تصحیح و نمره گذاری شده اند.به عبارت دیگر توجه به دسته اخیراز روش ها معطوف به عدم قابلیت ناشی از نمونه گیری و یا طرز اجرا یا تجزیه و تحلیل نتایج است.

به منظور محاسبه ضریب قابلیت اعتماد ابزار اندازه گیری شیوه های مختلفی به کار برده می شود.از آن جمله می توان به موار زیر اشاره کرد:

الف)روش بازآزمایی

ب)روش فرم های هم ارز

ج)روش تنصیف(دو نیمه کردن)

د)روش کودر-ریچاردسون

ه)روش آلفای کرونباخ

روش بازآزمایی مناسب ترین روش برای محاسبه ثبات اندازه گیری است و روش های فرم های هم ارز، تنصیف ،کودر-ریچاردسون و آلفای کرونباخ به محاسبه همسانی و هماهنگی درونی ابزار اندازه گیری می پردازند.

الف)روش بازآزمایی(آزمون،بازآزمون)عبارت است از آزمون مجدد در زمان ها مختلف تحت شرایط یکسان درمورد افراد معین و همان گونه که پیش تر نیزاشاره شد برای ارزیابی ثبات ابزاراندازه گیری به کار می رود.در این روش بعد از آزمون مجدد،بین نمرات آزمودنی ها،ضریب همبستگی محاسبه می شود.در صورتی که پاسخ های پاسخگویان،دقیقاًمشابه حالت اول باشد و درآن مقداری واریانس وجود داشته باشد،همبستگی مساوی یک بوده و پایایی کامل است.به عبارت دیگر چنانچه نتایج حاصل از آزمون اول با نتایج حاصل از آزمون دوم به صورت کامل و خطی همبسته باشند،پایایی برآورد شده برابر یک است.اما اگر مجموعه پاسخ های اولین آزمون با مجموعه پاسخ های آزمون دوم همبسته نباشند،برآورد پایایی مساوی صفر می شود.روش بازآزمایی ،منطقی ترین روش برآورد پایایی مقیاس یا پرسشنامه است،اما این روش دو اشکال اساسی دارد:

اولین ومهم ترین مسأله در برآورد پایایی با استفاده از این روش،استعداد انتقال اثر یا نتیجه در فاصله ی اجرای دو آزمون می باشد.اولین اجرا شاید بر دومین آزمون اثر بگذارد.چنین تأثیری به چند طریق ممکن است اتفاق بیفتد.امکان دارد پاسخگو پاسخ هایی را که در مرحله اول داده است،به خاطر بیاورد و آنها را به راحتی تکرار کند.یا اینکه درصدد اصلاح پاسخ های قبلی خود برآید.اما تغییر در نگرش ها یا میزان اطلاعات پاسخگویان نیز می تواند علت دیگری برای انتقال باشد.عدم همکاری آزمودنی ها احتمال دارد اعتراض به دومین سنجش باشد وبه همین ترتیب اشتباه عمدی دردومین آزمون موجب می شود که ضریب پایایی بین دو آزمون کوچک ترشودیا پس ازاولین آزمون ، برخی از آزمودنی ها در صدد اصلاح پاسخ های خود برایند.ممکن است انتقال اثر،نتایج متفاوتی داشته باشد، گاهی اوقات پایایی واقعی آزمون را بیش از اندازه واقعی و برخی مواقع کمتر از اندازه واقعی آن،برآورد می کند.

مسأله دیگر در این زمینه ،مدت زمان بین اجرای دو آزمون می باشد.به احتمال زیاد فاصله ی زمانی خیلی کوتاه به دلیل وجود حافظه، تمرین وتغییرات خلقی و... موجب انتقال اثر می شود.فاصله ی زمانی زیاد احتمال تأثیرات ناشی از تغییر اطلاعات یا تغییرات خلقی را بیشتر می کند و چنین تغییراتی را نمی توان به فقدان پایایی ابزار اندازه گیری نسبت داد.اما وجود آنها تعیین میزان ثبات وسیله اندازه گیری را دشوار می کند.

انتقاد دیگری که می توان به روش بازآزمایی گرفت این است که روش بازآزمایی مستلزم صرف وقت ،هزینه و نیروی انسانی بالایی برای تست مجدد ابزار اندازه گیری می باشد و پاسخگویان ممکن است علاقه ای به پاسخگویی مجدد سؤال ها نداشته باشند ک امکان دارد فقدان علاقه ی پاسخگویان سبب شود،آنها با دقت کمتری به تکمیل پرسشنامه بپردازند و عملاًصحت آزمون پایایی پرسشنامه را خدشه دار کنند.

ب)روش موازی (فرم همتا)

در این روش از دو فرم معادل استفاده و ضریب همبستگی بین دو فرم محاسبه می شود که تحت عنوان ضریب تعادل نامیده می شود.فرض بر آن است که این فرم ها،فرم های مساوی تست واحد می باشد که در یک جلسه به افراد داده می شود.اگر چه پرسش های دو فرم عیناًیکی نیست ولی منظور و هدف هر دو دسته سؤال،اندازه گیری یک صفت است.ضریب همبستگی نمرات این فرم نشان می دهد که ابزار مورد بحث تا چه اندازه و با چه مقدار ثابت خصوصیات مورد نظر را اندازه گیری می کند.

در این روش ممکن است دو فرم معادل،همزمان یا دردو زمان متفاوت ارائه گردد.در حالت اول ضرایب همبستگی به دست آمده معادل بودن دو فرم را و در حالت دوم،پایداری و معادل بودن آنها را می سنجد.

در این روش این مشکل وجود دارد که تفاوت های میان جواب های دو آزمون احتمالاً مخلوطی از عدم قابلیت اعتماد و تفاوت های موجود در مواد به کار رفته است.در عین حال راهی نیز برای جداسازی این اثرات وجود ندارد،گرچه خطر تأثیر جواب های پرسش اول برآزمون کم است(موزر و کالتون،1367:ص77).

علاوه بر استفاده از دو فرم معادل می توان از سؤال های کنترل نیز استفاده کرد و علی رغم تکنیکی که برای پرسش این قبیل سؤال ها به کار می رود،پاسخ های یک پاسخگوی موافق باید ثابت و همسان باشد.عدم ثبات،از اشکال در جمله بندی پرسش ها ،تأثیرات سریالی محتوای سؤال ها و با دیگر منابع خطا ناشی می شود.به عنوان مثال،اگر از پاسخ گو بپرسیم که طی دو ماه هفته گذشته چند بار به سینما رفته است؟و در بخش دیگر پرسش نامه،فهرستی از فعالیت های مختلفی رابه او ارائه نماییم.مانند،ممکن است بگویید که آیا در طول هفته گذشته از اماکنی مانند موزه،نمایشگاه،سینما،باغ وحش و ... بازدید کرده اید و به دنبال آن سؤالی در مورد دفعات بازدید طرح کنیم.یا می توان از سؤال های غیر واقعی استفاده کرد.به عنوان مثال،سؤال زیر را مطرح نماییم:

عملکرد وزارت ارشاد در مدیریت صدا و سیما چگونه بوده است؟

همانگونه که می دانیم وزارت ارشاد نقشی در مدیریت صدا و سیما ندارد و پاسخ خوب یا بد پاسخگویان نشان دهنده ی بی توجهی یا حدسی عمل کردن پاسخگوست.

استفاده از سؤال های کنترل در مورد گزینه های نگرشی تقریباً غیر ممکن است زیرا این سؤال ها نسبت به تغییر عبارت سؤال،شرایط پاسخگویی،تأکیدات و مانندآن،حساس تر از پرسش های عینی است و از این رو تکرار یک سؤال،هرگز همانند سؤال نخواهد بود. بنابر این به منظور سنجش نگرش هایی که حایز اهمیت بسیار است،نباید تنها به یک سؤال اکتفا کرد،بلکه باید از مجموعه ای سؤال یا مقیاس نگرشی استفاده کرد(اوپنهایم،1375:ص55)

ج)روش تنصیف(دونیمه کردن)

یکی ازروش های متداول برای سنجش قابلیت اعتماد،روش تنصیف می باشد.در این روش از یک ابزار اندازه گیری و در یک مرحله استفاده می شود.در هنگام تجزیه و تحلیل،پرسش ها به دو نیمه تقسیم شده و از روی نمرات دو نیمه ضریب همبستگی که معرف میزان برابری دو نیمه تست است،محاسبه می شود.به عبارت دیگر در این شیوه دو نیمه ی تست به صورت دو فرم جایگزین مورد استفاده قرار می گیرند.ضریب همبستگی که بدین صورت به دست می آید معرف توافق داخلی ابزار سنجش است.بنابر این برای محاسبه قابلیت اعتماد کل آزمون،باید این مجموعه همبسته باشند(پروکتر،1993:ص 100).

معمولاً در روش تنصیف مقیاس یا تست مورد نظر به دو نیمه مساوی تقسیم می شود به طوری که همه ی صفات و مشخصات مهم آن درهر نیمه موجود باشد.روش متداول در این زمینه قرار دادن سؤال های فرد در یک نیمه و سؤال های زوج در نیمه دیگر می باشد.همچنین در این مورد کرلینجر پیسنهاد می کند از گویه های مقیاس یا تست مورد نظر یک نمونه تصادفی انتخاب کنید و سپس نمونه تصادفی دیگری از گویه های آن را برگزینید.هریک از این نمونه ها را به عنوان یک آزمون فرعی درباره گروهی از افراد جدا کنید.ضریب همبستگی نمرات دو نیمه نوعی تخمین ضریب همسازی درونی می باشد که با استفاده از فرمول اسپیرمن براون محاسبه می شود.

به عبارت دیگر در صورتی که مقیاس فوق را به نصف کاهش دهیم میزان قابلیت اعتماد مقیاس کاهش می یابد . فرمول اسپرمن-براون امکان برآورد پایایی آزمون را در صورت بلندتر یا کوتاهتر شدن آن،فراهم می آورد.در این فرمول فرض بر این است که با تغییر طول آزمون،ماهیت آن تغییر نمی کند.زیرا یک آزمون خطی طولانی باعث خستگی شده و در نتیجه پایایی آن کم می شود.از این رو با افزودن به سؤال های آزمون یا افزایش اوقات مشاهده ، احتمال تکرار همان رفتار و توانایی هایی که در آزمون اصلی ارائه شده بود،کم می شود.

د)روش کودر-ریچاردسون

در این روش،پرسشنامه تنها یک بار به اجرا در می آید و تمامی گویه های مقیاس یا آزمون مورد نظر تحلیل می شوند.کودرو ریچاردسون برای بررسی همسانی درونی مقیاس و پرسشنامه و تعیین پایایی آن دو فرمول مورد استفاده قرار داد که به KR20 و KR21 شهرت دارد.

فرمول KR20 هنگامی مورد استفاده قرار می گیرد که سؤال های مقیاس یا پرسشنامه فقط ارزش های صفر ویک می گیرند.این فرمول بیستمین فرمولی بود که توسط کودرو ریچاردسون (1937)عرضه شد و نام دیگر این فرمول «ضریب 20-α»است.این فرمول پس از تدوین به وسیله کرونباخ به (20)α تبدیل شد.

ه)روش آلفای کرونباخ

اگر همه ی سؤال های یک مقیاس با اندازه ی یک صفت یا خصوصیت را اندازه بگیرید،بایستی به جای مقایسه دو نیمهی مساوی،دو نیمه ی تصادفی مقیاس را با یکدیگر مقایسه کرد.در نتیجه این استدلال،از روشی جدید برای محاسبه ضریب همسانی استفاده شده است.ازجمله جصوصیات این ضریب همبستگی که ضریب آلفا نامیده می شود این است که معدل همه ی ضرایب همبستگی است که با دو نیمه کردن تست به طرق مختلف به دست می آید.این خاصیت مشکل تصادفی بودن سؤال های هر نیمه را حل می کند.ضریب آلفا ،ضریب دقیق همسانی تمام مقیاس یا تست را در اختیار می گذارد.

شکل کلی ضریب آلفا که توسط کرونباخ ارائه شده عبارت است از:

نمونه:

کاربرد اعتبار و پایایی در آزمایش میدانی

اعتبار بیرونی

اعتبار بیرونی،یعنی تعمیم یافته های آزمایشی به شرایط خارج از آزمایشگاه.به عبارت دیگر،اولین هدف تعمیم نتایج به موقعیتی فراتر از شرایط آزمایشگاهی است.همان طور که می دانیم شرایط دقیق،مجزا و کنترل شده ی آزمایشگاه با شرایط طبیعی بسیار متفاوت است.در نتیجه در تحقیق آزمایشگاهی همیشه این سؤال مطرح است که آیا نتایج آزمایشگاهی را می توان در شرایط طبیعی به دست آورد.آزمایش میدانی عمدتاً هدفش پاسخگویی به این سؤال است.

دومین هدف تعمیم یافته های آزمایشگاهی به گروه های مختلف مردم است که با نمونه هایی که اغلب در آزمایشها به صورت داوطلبانه انتخاب می شوند،متفاوت هستند.در غالب پژوهش های آزمایشگاهی (در حوزه روانشناسی) آزمودنی ها را دانشجویانی تشکیل می دهند که در حال گذراندن دروس روانشناسی عمومی هستند.این دانشجویان را نمی توان به عنوان نمونه ای از اعضای جامعه دانست در نتیجه تعمیم نتایج این گونه پژوهش ها امکان پذیر نیست.

اعتبار سازه

دلیل سوم برای رها کردن آزمایشگاه ممکن است این باشد که نمونه های داوطلبانه چون از مشارکت در آزمایش اطلاع دارند و چون از آزمایشی بودن فعالیت ها آگاهی دارند ممکن است پاسخ آنها واقعی و طبیعی نباشد و بیشتر جنبه ی تصنعی داشته باشد.به همین دلیل،به جای واکنش نشان دادن به شرایط آزمایشگاهی ،ممکن است شکل خاصی از پاسخ یا واکنش را که مناسب می دانند،ابراز نمایند.به عبارت دیگر،ممکن است بخواهند با رفتار خود فرضیه ی مورد آزمون را تأیید کنند.

برای آزمودنی های آزمایش میدانی تمام شرایط و فعالیت ها طبیعی هستند.این افراد قصد ندارند فرضیه ای را تأیید یا رد کنند.در واقع آنها از انجام آزمایش بی خبرند.به همین دلیل احتمال بروز پاسخ های طبیعی بسیار بیشتر است در نتیجه،سازه ی فرضی یا ساختگی،اندازه گیری و مورد آزمون قرار نمی گیرد.

دیدگاه انتقادی

عدم تضمین اعتبار بیرونی

تصور آنکه با انجام آزمایش میدانی الزاماً با آزمودنی هایی که معرف افراد واقعی هستند سر و کار خواهیم داشت،چنان امیدوار کننده نیست.در آزمایش"اتاق انتظار" آزمودنی ها را دانشجویان سال دوم تشکیل می دادند. حتی انجام آزمایش در یک فروشگاه بزرگ نیز الزاماً مؤید وجود افراد واقعی به عنوان آزمودنی نیست.در واقع،در بسیاری از آزمایش های میدانی نمی توان به درستی ادعا نمود که آزمودنی ها معرف چه گروهی از افراد هستند و تنها می توان گفت که آنها افرادی هستند که برای مثال بین ساعت 2تا 4 بعد از ظهر در مرداد ماه به فروشگاه قدس می آیند.

عدم تضمین اعتبار ساختاری

انجام آزمایش با نمونه های واقعی ممکن است چندان امیدوار کننده نباشد.نمونه های قبلی یا تماشاچیان کنجکاو، ممکن است نمونه های بعدی را از محتوای آزمایش آگاه سازند.برای فهم بهتر این موضوع،به آزمایش میدانی شافر و همکاران (1975)،در کتابخانه ی دانشگاه ایالت کنت توجه کنید.یکی از همراهان محقق در کنار آزمودنیها پشت یک میز می نشیند.پس از چند دقیقه بررسی،او از میز دور می شود.در برخی حالت،فرد همراه ،از آزمودنیها درباره ی آنچه داردسؤالاتی می پرسد و گاهی هیچ سؤالی را مطرح نمی سازد.کمی پس از رفتن فرد همراه،دزدی از راه می رسد و کیف بغل فرد همراه را می زند و سپس به سرعت دور می شود.متغیر وابسته در اینجا عبارت است از احتمال برخورد ممانعت آزمودنی از دزدی.نتایج نشان داد که 64درصد آزمودنیها در شرایطی که از آنها سؤالی پرسیده شده است،سعی نموده اند تا دزد را متوقف کنند،ولی 14درصدکه مورد هیچ پرسشی واقع نشده بودند از عمل دزد ممانعت کرده اند.

اکنون خودرا به جای شافر و همکارانش می گذاریم.در حالی که شاهد یک دزدی هستیم احتمالاًسعی می کنیم جلوی آن را بگیریم.آیا شما در چنین حالتی به کسی چیزی نمی گفتید؟در واقع،احتمالاًشما به دوست خود این موضوع را می گفتید و او نیز پاسخ می داد که چنین اتفاقی را قبلاًشنیده است.یک شب دوست شما برای مطالعه به کتابخانه می رود،پس از گذشت زمان کوتاهی او خود را در موقعیتی که شنیده است می یابد.در این حالت،نه تنها او دیگر یک آزمودنی واقعی نیست،بلکه تمام افراد مدرسه یا دانشکده نیز دیگر نمی توانند نمونه های واقعی محسوب شوند.

اگر خود را به جای تماشاگر کنجکاو بگذاریم،احتمالاً درباره ی این رخداد با مسئول کتابخانه صحبت می کنیم. شما در کنار میزی مشغول مطالعه هستید که چشمتان به دو دانشجو در کنار یک میز می افتد.یکی میز را ترک می کند و برخی از وسائل خود را بر روی میز جا می گذارد.شما به کار خود باز می گردید.ولی زمانی که متوجه می شوید فرد دیگری به وسائل دانشجوی قبلی نزدیک می شود و چیزی را از آنها برمی دارد،آنگاه چه خواهید کرد؟مثل یک فرد مسئول سعس می کنید جلوی دزد را بگیرد و به مسئولان کتابخانه نیز خبر دهید.پلیس وارد می شود تا اظهارات شما را یادداشت کند و احتمالاًبه دنبال سارق برود.آزمایشگر برای ممانعت از اقدام پلیس باید به او بگویید که این تنها یک آزمایش بوده است.دانشجویان در کتابخانه جمع می شوند تا به این مکالمه گوش دهند و دائماً از شما سؤال می کنند.طولی نمی کشد که همه ی دانشجویان از وجود آزمایش با خبر می شوند.

به همین دلیل،ممکن است انجام آزمایش میدانی وجود اعتبار ساختاری را مورد تهدید قرار دهد.بنابر این،اگر ما نیز مشغول انجام آزمایش شافر بودیم،سعی می کردیم تمام داده ها را یک شبه به دست آوریم و با این کار از برخورد احتمالی با آزمودنیهای دیگر بکاهیم.علاوه بر این،برای کاهش احتمال بروز مشکل بر اثر دخالت تماشاگران یا شاهدان نا آگاه بایستی مسئولان کتابخانه را در جریان آزمایش قرار می دادیم.


عدم تضمین اعتبار درونی

اگر در هنگام انجام آزمایش میدانی وقت کافی به کار برده نشود،علاوه بر فقدان اعتبار برونی و ساختاری ممکن است اعتبار درونی نتایج نیز مورد تردید قرار گیرد.اگرچه تمام آزمایش های میدانی باید دارای اعتبار درونی باشند، ولی برخی از آنها فاقد این ویژگی هستند؛زیرا در این آزمایشها همواره امکان تقسیم تصادفی آزمودنیها فراهم نمی شود و گاه آنها از جریان آزمایش بیرون می روند.تمام طرح هایی که تا کنون مورد آزمایش قرار گرفته اند بر تقسیم تصادفی متکی بوده اند.متأسفانه،در شرایط میدانی اعمال گمارش تصادفی کاری بسیار دشوارتر از انجام آن در آزمایشگاه است.در چنین شرایطی که آزمایش در محیط طبیعی تحقیق،صورت گیرد.گمارش تصادفی بسیار دشوار می شود.آزمودنیها در محیط طبیعی اغلب این عمل را که به شکلی تصادفی با آنها برخورد شود،ضروری نمی دانند.ودر عوض،معتقدند که مردم یا افراد طبیعی خود باید بتوانند شیوه ی برخورد را انتخاب کنند.

برای فهم دقیقتر این مشکل،فرض کنید قرار است به مطالعه ی تأثیر خشونت تصاویر تلویزیونی بر رفتار کودکان بپردازید.شما به والدین برخی کودکان میگویید که می خواهید کودکانشان برنامه های آرام و بدون خشونت را تماشا کنندو به برخی دیگر نیز می گویید که می خواهید کودکان آنها برنامه های خشونت بار را تماشا کنند.در چنین شرایطی با این مسئله رو به رو خواهید شدکه برخی از والدین بر آرایش تصادفی کودکان برای دیدن برنامه های تلویزیون تأکیید می ورزند.اگر شما بگویید قادر نیستید کودکان آنها را به طور تصادفی با برنامه ها مواجه سازید، آنها احتمالاً جواب رد به شما خواهند داد.بعضی از آنها احتمالاًخواهند گفت:"ممکن است اجازه دهم فرزند مرا به دیدن فیلم های بدون خشونت وادار کنید،ولی اجازه نخواهم داد تا او را با برنامه های خشن مواجه کنید".برخی دیگر ممکن است بگویند:"ممکن است بگذارم فرزندم کشتی تماشا کند،چون خودم همواره این برنامه را می بینم،ولی مایل نیستم او به برنامه های کسل کنننده توجه کند." البته مشکلات مواجهه با والدین در قبال مسائلی که در برخورد با کودکان پدید می آیند،کاملاً ناچیز هستند.

با وجود این،با شکیبایی کافی می توان مردم را تاحدی با آرایش تصادفی موافق ساخت؛ولی به محض تحقق این امر مشکل بسیار بزرگی پدید خواهد آمد.چطور از این مطلب اطمینان حاصل می کنید که آزمودنی ها برنامه های مورد نظرتان را تماشا می کنند؟شما نمی توانید به خانه ی همه سر بزنید.نمی توانید به کودکان در انجام دستورات خود کاملاً اعتماد کنید.نمی توانید از والدین انتظار داشته باشید که کارهای دیگر خود را رها کرده و به نظارت کودکان خود بپردازند،بنابراین،موفقیت آزمایشی باآرایش تصادفی کودکان برای دیدن برنامه های تلویزیون کاملاً جای تردید دارد.

در واقع، عقیده ی آرایش تصادفی کودکان بر مشاهده ی برنامه های تلویزیون آنقدر تردید بر انگیز است که اکثر محققان با وجود اطلاعات و شواهد سودمندی که از آزمایش میدانی کسب می کنند،از چنین اقدامی صرف نظر کرده اند.

ولی آیا این عده بسیار زود تسلیم نشده اند؟کوک و کمپل (1979) ادعا کرده اند که محققان درباره ی مسئله آرایش تصادفی خیلی زود سر تسلیم فرود آورده اند.آنها همچنین معتقدند که در صورت وجود خلاقیت از سوی محقق،امکان آرایش تصادفی مسیر می شود.

در زمینه ی تحقیق درباره ی تأثیر تلویزیون بر رفتار کودکان،محققان غالباً خیلی زود کار را رها می کنند،شاید آنها باید به کودکستان بروند.اگرکودکستان راضی به همکاری شد ورضایت والدین را نیز جلب کرد،تماشای تلویزیون می تواند درمدرسه به عنوان بخشی ازبرنامه ی روزانه ی کودکان صورت گیرد.در این حالت،شما از این بابت مطمئن هستید که کودکان با آنچه شما خواسته اید رو به رو خواهند شد.

افت آزمودنیها حتی پس از آنکه آنها در موقعیت مطلوب واقع شدند ممکن است اتفاق افتاد؛یعنی،این امکان وجود دارد که قبل از جمع آوری اطلاعات مربوط به متغیر وابسته،آزمودنیها محیط آزمایش را ترک کنند.برای مثال، فرض کنید در حال انجام آزمایش تأثیر تلویزیون بر کودکان در یک کودکستان هستید.در جریان آزمایش،متوجه می شوید که برخی از آزمودنی ها تماشای تلویزیون را کنار می گذارند(شاید این دسته بسیار خشن شده یا والدین شان تجدید نظر کرده اند)،ولی آزمودنیهایی دیگر،یعنی،افرادی که به تماشای برنامه های بدون خشونت گمارده شده اند اغلب تا به انتها به دیدن ادامه می دهند و محل آزمایش را ترک نمی کنند.این مسئله که اعضای یک گروه محل آزمایش را ترک گفته در حالی که افراد گروه دیگر تا به آخر باقی می مانند باعث از میان رفتن اعتبار درونی آزمایش می شود.

تهدید هایی برای اعتبار ساختاری

با افزایش تعداد کلاسها می توان مشکل نبودن تعداد واحدهای مستقل کافی را از میان برداشت.برای مثال،می توان 10کلاس را در یک گروه و 10کلاس دیگر را در گروهی دیگر جای داد.ولی فقدان یا کاهش استقلال تنها یکی از مسائلی است که در کار با گروه ها ی طبیعی پدید می آیند.استفاده از این گروه ها مطالعه ی شما را با سه تهدید برای اعتبار ساختاری مواجه خواهد ساخت:دلسرد شدن آزمودنیها،رفتار جبرانی آنها،انتقال شیوه ی اقدامات آزمایش.

الف)دلسردشدن آزمودنیها

اعتبار ساختاری درمطالعه ی شمازمانی کاهش می یابد که آزمودنی ها بایکدیگر صحبت کرده و از تفاوت شیوه هایی که با آنها برخورد خواهند کرد،مطلع شوند.در این حالت نباید تعجب کنید اگر شاهد آن باشید که افراد گروه بدون تلویزیون،همه دلسرد شوند.آنها ممکن است علت دلسردی خود را از آنکه نتوانسته اند تلویزیون تماشاکنند،در خشونت برنامه های آن بدانند.در نتیجه ،گروه دیگر احتمالاًرفتار بهتری از این گروه بروز خواهد داد،بدون آنکه تلویزیون موجب رفتار بهتر آنها شده باشد.در این حالت،ندیدن تلویزیون باعث کاهش خشونت نشده است،بلکه احساس آزمودنیها خشونت را کاهش داده است.

ب)رفتار جبرانی آزمودنیها

از سوی دیگر،اعضای گروه بدون تلویزیون ممکن است در اثر اطلاع از فرصت استثنایی گروه دیگر،برای تماشای تلویزیون،بخواهند به رفتاری جبرانی دست بزنند؛یعنی ،بخواهند به شکلی رفتار کنند که به آنها نیز فرصت تماشای تلویزیون داده شود.در نتیجه،احتمالاًاین گروه رفتار بهتری بروز خواهد داد.در این حالت نیز تفاوت بین دو گروه نمی تواند حاصل تماشای تلویزیون باشد.

ج)انتقال شیوه ی اقدامات آزمایش

سرانجام،ممکن است تأثیر اقدامات شما به خاطر شیوع و انتقال آنها از میان برود:هر دو گروه از اقدامات شما اطلاع حاصل می کنند.در مثال مطرح شده،ممکن است افراد گروه بدون تلویزیون نیز به شکلی از وجود تلویزیون مطلع و از آن استفاده کنند.برای مثال،امکان دارد آموزگار آنها تلویزیون را از آموزگار دیگر قرض بگیرد(این آموزگار ممکن است در مقابل خواست دانش آموزان خود تسلیم شده باشد).یا اگر هر دو کلاس در یک اتاق باشند،امکان دارد آزمودنیهای گروه بدون تلویزیون،به تصاویر آن نگاه کنند یا صدای آن را بشنوند.در نتیجه،تأثیر تلویزیون در این حال می تواند به گروه بدون تلویزیون نیز سرایت کند.