Новости События Общее

Лекция "Психометрические основы диагностики"

07-04-2020 Лекции
Лекция по учебной дисциплине "Основы психолого-педагогической диагностики", тема "Психометрические основы диагностики"

Тема «Психометричекие основы диагностики»

  1. Стадартизация.
  2. Нормы и нормативные показатели.
  3. Измерительные шкалы
  4. Психометрические критерии оценки психодиагностической методики: надежность, валидность репрезентативность.
  5. Технология создания и адаптации психодиагностических методик.

 

Стандартизация и стандартные показатели.

Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована. Стандартизация — это единообразие процедуры проведения и оценки выполнения теста. Рассматривается она в двух планах:

♦ как выработка единых требований к процедуре эксперимента;

♦ как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры эксперимента подразумевает унифика­цию инструкций, бланков обследования, способов регистрации резуль­татов, условий проведения обследования.

К числу требований, которые необходимо соблюдать при проведе­нии эксперимента, можно, например, отнести такие:

1) инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;

2) ни одному испытуемому не следует давать никаких преимуществ перед другими;

3) в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;

4) эксперимент с разными группами следует проводить в одинако­вое, по возможности, время дня, в сходных условиях;

5) временные ограничения в выполнении заданий для всех испыту­емых должны быть одинаковыми и т. д.

Обычно авторы методики в руководстве приводят точные и подроб­ные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методи­ки, так как только строгое их соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

Другим наиболее важным этапом в стандартизации методики явля­ется выбор критерия, по которому следует проводить сравнение ре­зультатов диагностических испытаний, поскольку диагностические методики не имеют заранее определенных стандартов успешности или неудачи в их выполнении.

Так, например, ребенок шести лет, выполняя тест умственного развития, получил балл, равный 117. Хорошо это или плохо? Часто ли такой показатель встречается у детей данного возраста? Количественный результат как таковой ничего не означает. Полученный дошколь­ником балл нельзя интерпретировать как показатель относительно вы­сокого, среднего или низкого развития, так как это развитие выражено в мерах, присущих данной методике, и, таким образом, абсолютного значения полученные результаты иметь не могут. Очевидно, нужно располагать точкой отсчета и какими-то дозированными мерами, что­бы с их помощью оценивать полученные при диагностировании инди­видуальные и групповые данные. Возникает вопрос, что за эту точку отсчета брать?

В традиционном тестировании такая точка добывается статистическим путем — это так называемая статистическая норма.

В общих чертах стандартизация диагностической методики, ориен­тированной на норму, осуществляется путем ее проведения на большой представительной выборке испытуемых, которая ничем не отли­чается от той, для которой данная методика предназначена. На этой группе испытуемых, называемой выборкой стандартизации, разрабатываются нормы, указывающие не только средний уровень выпол­нения, но и его относительную вариативность выше и ниже среднего уровня. В результате можно оценить разные степени успешности или неуспешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно выборки стандартизации.

Для вычисления статистической нормы психологи-диагносты об­ратились к приемам математической статистики.

Кроме статистической нормы, основой для сравнения, интерпретации результатов диагностических испытаний могут стать и такие показатели, как процентили.

Процентиль — это процентная доля индивидов из выборки стандар­тизации, первичный результат которых ниже данного первичного показателя.

 

Например, если 28 % людей правильно решат не более 15 задач в арифметическом тесте, то первичному показателю 15 соответствует 28-й про­центиль (Р28). Процентили указывают на относительное положение ин­дивида в выборке стандартизации. Их также можно рассматривать, как ранговые градации, общее число которых равно 100, с той лишь разницей, что при ранжировании принято начинать отсчет сверху, т. е. с луч­шего члена группы, получающего ранг 1. В случае же процентилей от­счет ведется снизу, поэтому чем ниже процентиль, тем хуже позиция индивида.

 

50-й процентиль (Р50) соответствует медиане — одному из показателей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50, — сравнительно низкие показатели. 25-й и 75-й процентили известны также под названием 1-го и 3-го квартилей, поскольку они выделяют нижнюю и верхнюю четверти распределения. Как и медиана, они удобны для описания распределения показателей и сравнения с другими распреде­лениями.

Процентили не следует смешивать с обычными процентными пока­зателями. Последние являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль — это производный показатель, указывающий на долю от общего числа членов группы.

Процентильные показатели обладают рядом достоинств, в частности:

♦ их легко рассчитать и понять даже сравнительно неподготовленному человеку;

♦ их применение достаточно универсально и подходит к любому типу тестов.

Однако недостаток процентилей - это существенное неравенство единиц отсчета в том случае, когда анализируются крайние точки рас­пределения. При использовании процентилей (как уже отмечалось вы­ше) определяется только относительное положение индивидуальной оценки, но не величина различий между отдельными показателями.

Выборка стандартизации. При разработке и применении любой точки отсчета следует обращать особое внимание на выборку испыту­емых, на которой проводится стандартизация диагностической мето­дики. В математической статистике принято различать такие понятия, как генеральная совокупность (популяция) и выборка.

Всякая большая совокупность людей, которую хотели бы исследо­вать или относительно которых собираются делать выводы, называет­ся генеральной совокупностью.

Выборка это часть или подмножество совокупности. Проводить исследование всей популяции не принято. Обычно из нее выделяют группу людей — выборку стандартизации — которая реально подверга­ется тестированию, и с ее помощью оценивается генеральная совокуп­ность. Чтобы оценки носили достоверный характер, выборка должна быть репрезентативна, представительна рассматриваемой популя­ции, т. е. ее вероятностные свойства должны совпадать или быть близ­кими к свойствам генеральной совокупности.

 

А. Анастази [10, т. 1] приводится пример формирования репрезентативной выборки при стандартизации шкалы Векслера. Выборка вклю­чала 1700 человек с равным количеством мужчин и женщин. Испытуе­мые в возрасте от 16 до 64 лет были распределены по семи возрастным уровням. При формировании выборки исследователи опирались на дан­ные последней переписи населения США. Учитывалось пропорциональ­ное распределение населения по географическим районам, принадлеж­ность к городскому и сельскому населению, принадлежность к белой или цветной расе, учитывались также уровень образования и профес­сия. На каждом возрастном уровне в выборку были введены один муж­чина и одна женщина, находящиеся в учреждениях для умственно от­сталых.

 

По мнению А. Анастази, подавляющее большинство диагностиче­ских методик стандартизовано не для столь широких популяций, как многие полагают. Трудно рассчитывать, что по какому-либо тесту имеются адекватные нормы для таких обширных популяций, как, напри­мер, «взрослые американцы-мужчины» или «американские дети 14-лет­него возраста». Выборки, ориентированные на широкие популяции, не всегда репрезентативны и чаще всего бывают смещены в тех или иных отношениях (т. е. некоторые подгруппы популяции могут быть пред­ставлены непропорционально своей численности). Так, если опре­делить популяцию как «14-летние дети», а выборку стандартиза­ции составить из 14-летних школьников, то ее нельзя рассматривать в качестве репрезентативной, поскольку не все 14-летние дети являют­ся школьниками. В этом случае лучше сузить определение популяции (т. е. определить ее как «14-летние школьники»), чем переносить нор­мы, полученные на школьниках, на популяцию 14-летних детей.

Таким образом, одним из способов обеспечения репрезентативно­сти выборки является ограничение популяции. Ограничить популяцию можно по разным признакам: по возрасту, полу, социальному проис­хождению, профессии, социально-экономическому статусу, здоровью и т. д. Такая популяция определяется как специфическая, и стандар­тизация диагностических методик осуществляется на узконаправлен­ных выборках, которые репрезентативны специфической популяции. Создатель диагностической методики должен всегда сообщать, для ка­кой специфической популяции были разработаны нормативные по­казатели.

Отбор испытуемых в выборку стандартизации осуществляется сле­дующим образом:

1) дается определение популяции с выделением в ее структуре пе­ременных, значимых и малозначимых для изучаемого психиче­ского явления (возраст, образование, профессия и т. д.);

2) популяция делится на части в соответствии со значимыми пере­менными;

3) испытуемые отбираются в случайном порядке и пропорциональ­но численности каждой значимой части совокупности. Случай­ный отбор может осуществляться по алфавиту, по таблице слу­чайных чисел или другим способом. Важно, чтобы у всех пред­ставителей популяции были равные шансы попасть в выборку стандартизации. Это условие подразумевает, что каждый выбор не зависит от остальных.

Объем выборки может варьироваться в широких пределах, но ее минимальный порог, необходимый для получения достоверных результатов, — порядка 200 человек .

Стандартные показатели.  Преимущественное использование в тестах стандартных показателей объясняется их пригодностью во многих отношениях. Такие показатели выражают отклонение индивидуального результата от средней нормы в единицах, пропорциональных стандартному отклонению распределения.

Стандартные показатели могут быть получены как линейным, так и нелинейным преобразованием первичных показателей. Если используется линейное преобразование, то при этом сохраняются соотношения между первичными показателями, поскольку они вычисляются вычитанием из каждого первичного показателя одной и той же величины с последующим делением результата на другую постоянную величину.

Линейно преобразованные стандартные  показатели именуются как стандартный показатель или z - показатель. Чтобы вычислить z, находят   разность  между   индивидуальным  первичным результатом и  средним  значением  для  нормативной  группы  и затем делят эту разность на σ нормативной группы.   

Z -показатели со средним значением = 50 и с σ = 10 являются точной значимой нормой.

На рисунке –кривая нормального распределения

Z  = 44+1.

 

 

 

 

 

 

Нормализованные  стандартные  показатели - это  стандартные показатели, соответствующие  распределению,  преобразованному  так,   что  оно принимает вид нормальной  кривой. 

Их  значения  могут   быть  найдены с помощью таблиц,  в  которых  приводится  процент  случаев  различных отклонений в единицах σ от  среднего  значения для  нормальной кривой. При этом сначала определяется  процент  лиц в  нормативной выборке  с тем  же или более высоким первичным  результатом. Затем этот  процент отыскивают в таблице нормального  распределения  частот  и  по  нему  находят  соответствующее значение  нормализованного  стандартного показателя.

Нормализованные стандартные   показатели  имеют   ту  же   форму,  что и линейно преобразованные  стандартные  показатели,  т.е.  при  среднем значении они равны  0,  а  при  стандартном  отклонении  равны  1.

Еще    одним    достаточно    известным   преобразованием является шкала  станайн, разработанная   во  время   второй мировой войны для использования военно-воздушными    силами США.

В этой шкале используются только однозначные числа.     Среднее  значение показателя равно  5,  а σ  - примерно 2.  Название станайн (сокращение от standart nine, т. е.  стандартная девятка)  связано с  тем, что этот показатель принимает  значения  от  1   до  9.   Использование  однозначных чисел удобно для машинной   обработки, поскольку   каждый   показатель  занимает на перфокарте всего один столбец.

Первичные   показатели   легко   преобразуются в станайны упорядочиванием   их   числовых   значений  и приписыванием им новых значений в соответствии с   нормальной   кривой   процентов, приведенной в таблице 1.

Например,  если  в группе  ровно 100  человек, то 4 из них имеющие низшие показатели,   получают   станайн 1, следующие  7 - станайн 2, следующие 12 - станайн 3 и т. д. Если группа состоит из большего или меньшего числа случаев,  то предварительно выясняется, скольким из них соответствует  каждый  из   выписанных в табл. 4 процентов.  Так, при 200 случаях станайн 1  будет  приписан 8 случаям (4%, 200),  а  при 150 случаях -6 (4% от 150).

 

Процент

4

7

12

17

20

17

12

7

4

Станайн

1

2

3

4

5

6

7

8

9

 

Таблица 1. Проценты нормального распределения для перевода первичных результатов теста в станайны.

Эта таблица была составлена для перевода рядов  случаев непосредственно в станайны  для  любой  группы от  10  до 100  случаев. Станайны, ввиду их практических и теоретических   достоинств, находят достаточно широкое применение, особенно в тестах способностей и достижений.

  1) Т-шкала Мак-Колла (тест-опросник ММРI и др. тесты, где среднее равно Х = 50, а σ = 10)

           2) Шкала IQ:  Х=100 и σ =15,

           3) Шкала "стэнайнов" (целочисленные значения от 1 до 9 - стандартная девятка):  Х=5,0 и σ=2,

           4) Шкала "стенов" (стандартная десятка, 16PF Кеттелла) предложена Р.Б. Кеттеллом. Этот способ представляет собой перевод исходных тестовых оценок в 10-балльную шкалу, путем разбиения оси значений  тестовых оценок на 10 интервалов, соответствующих долям стандартного отклонения.

Для этого среднее арифметическое по группе принимается за среднюю точку и ей приписывается значение, равное 5,5 балла по стандартной десятибалльной системе. Всякая оценка в интервале ( +0,25σ) переводится в 6 стенов, а оценка ( -0,25σ) дает стен равный 5. Любое дальнейшее увеличение или уменьшение тестовой оценки на  0,5σ увеличивает или уменьшает стандартную оценку на 1 стен.

При такой системе стандартизации к среднему диапазону (или к норме) принято относить стандартные оценки от 4 до 7 стенов. Только при получении стандартных оценок до 3 стенов и выше 8 стенов следует говорить о значимых отклонениях, выходящих за границы средней нормы [13].

Для наглядности приведем образец такой таблицы для фактора "А" - опросника 16PF:

Сырой балл

0-4

5-6

7

8-9

10-12

13

14-15

16

17-18

19-20

Стены

1

2

3

4

5

6

7

8

9

10

 

Применение стандартных шкал позволяет прибегать на практике к более грубым, приближенным  способам проверки типа распределения тестовых баллов. Применение стандартных  шкал  необходимо  для соотнесения результатов  по разным  тестам, для  построения "диагностических профилей" по батарее тестов и тому подобных целей.

Понятие и виды нормы

Одним из основных понятий в психометрике является понятие нормативного оценивания, под которым понимается подход к оценке и интерпретации измеряемых тестом показателей, отражающих какие-либо особенности личности, путем сравнения индивидуальных результа­тов со статистическими значениями нор­мативной выборки.

Основным достоинством нормативного оценивания является возможность строгого ранжирования испытуемых по результатам относительно выборочных данных, использования метрических шкал интервалов, относительная доступность интерпретации оценок пользователям психодиагностической информации.

Недостаток нормативного оценивания - эмпиричность рассчитываемых показателей, определенная условность перенесения выборочных данных на индивидуальное обследование [3].

Понятие нормы. Из основных понятий нормативного оценивания вытекает другое понятие – понятие нормы. Никакие результаты, полученные с помощью психологических тестов не имеют смысла до тех пор, пока они не будут сравнены  с тестовыми нормами, которые возникают в процессе стандартизации нового теста, при прохождении через него большого количества испы­туемых, представляющих ту популяцию, для которой данный тест был разработан. Затем полученные данные используются как стандарт для оценки показателей индивидов. Нормы могут быть выражены по-разному, например: как интеллектуальный возраст, как проценты или как стандартные значения, - но все они по­зволяют психологу  определить «по­ложение» испытуемого в выборке стандартизации.

Тестовые нормы - количественные и качественные критерии оценки результатов теста, позволяющие определить уровень достижений или степень выраженности психологических свойств, которые являются объектами измерения. В качестве таких критериев могут выступать как статистические показатели выборки стандартизации, так и различные признаки-симптомы, свидетельствующие о том или ином уровне выраженности диагностиру­емых качеств.

В психодиагностике наибольшее распространение получили количественные тестовые нормы, рассчитанные на основе определения средних величин х и дисперсии в выборке стандартизации.

В проективных техниках, в связи с затруднениями, возникающими при формализации первичных оценок и вследствие сложности учитываемых диагностических показателей, количественные тестовые нормы мало распространены.

Для каждой возрастной группы тестовые нормы обычно рассчитываются раздельно (обязательное условие для тестов общих способностей, при этом закономерное изменение нормативных показателей здесь служит своеобразным критерием валидности теста). В клинической психодиагностике, иногда разрабатываются разные тестовые нормы для отдельных контингентов больных (например, для больных разных нозологий   и нормальных). Реже встречается дифференциация норм в зависимо­сти от пола, профессиональных особенно­стей, уровня образования и т. д.

Рестандартизация и определение норм для новой социоэтнической популяции является одним из основных и обязатель­ных элементов адаптации теста.

Рассмотрим несколько более подробно некоторые виды норм.

а) Нормы развития.

Возрастные нормы. Независимо от способа выражения, показатели, основанные на возрастных нормах, довольно грубы и плохо поддаются точной статистической обработке. Тем не менее, они достаточно наглядны, особенно при клиническом обследовании, а также при решении ряда научных проблем.

Умственный возраст. Возрастные нормы используются и в тестах, не подразделенных на возрастные уровни (например, шкалы Бине-Симона). В этом случае нормы устанавливаются для значений первичного результата теста, такого, как общее число правильных ответов, время выполнения заданий, число ошибок или же некоторая комбинация таких показателей. Значения первичных результатов, полученных на выборке стандартизации для каждого возрастного уровня, и составляют возрастные нормы такого теста. Например, средний показатель 8-летних детей является нормой для возраста 8 лет. Если показатель обследуемого равен среднему значению первичного результата для этого возраста, то его умственный возраст составляет 8 лет. Подобным образом могут быть выражены любые первичные показатели такого теста.

б) Внутригрупповые нормы.

Описания большинства современных стандартизованных тестов в той или иной форме содержат данные о внутригрупповых нормах. С их помощью индивидуальный результат оценивается в соответствии с выполнением наиболее сопоставимой нормативной группы. Например, первичный показатель ребенка сравнивается с показателями детей того же возраста или того же года обучения.

в) Специфические нормы.

Специфические нормы. Потребность в них возникает, когда показатели теста заметно меняются от одной подгруппы к другой. Сами подгруппы могут формироваться по признаку возраста, года обучения, типа школьной программы, пола, географического региона, проживания в городе или в сельской местности, социоэкономического уровня и т.д. Именно характер использования теста определяет и наиболее существенный признак формирования подгрупп, и предпочтительность общих или специфических норм.

Следует также упомянуть о локальных нормах, которые нередко раз­рабатываются пользователями тестов для конкретных социальных единиц. Группы, к которым относятся такие нормы, еще более специфичны, чем даже обсуждавшиеся выше подгруппы. Например, предприниматель может выработать нормы, лучше отвечающие специфике предлагаемой работы; администрация университета - нормы, рассчитанные на обучение в данном университете;  школа может оценивать выполнение тестов своими учениками в соответствии с собственным распределением показателей. Локальные нормы такого типа в большей степени, чем какие-либо другие, отвечают таким задачам тестирования, как предсказание достижений в труде или учебе, сравнение относительного уровня знаний детей по различным предметам, исследование динамики их развития.

Относительность норм. Относительность норм становится очевидна при попытках осуществить сравнения между тестами. Хорошо известно, что независимо от вида показателей тестов, их всегда следует приводить вместе с названием теста, в котором они получены, поскольку тестовые показатели нельзя интерпретировать в отрыве от конкретного теста.  Например, если в результате тестирования Иванов получил IQ = 90, а Сидоров - IQ =110, то без последующих разъяснений эти данные ни о чем не говорят. Взаимное положение результатов этих испытуемых может оказаться обратным, если им придется "поменяться" тестами, которые они проходили.

Точно так же относительная позиция индивида по различным психическим функциям может быть неверно истолкована из-за несопоставимости тестовых норм. Допустим, учащемуся для определения уровня развития некоторых его навыков были даны тесты на понимание слов и пространственное восприятие. Если первый из этих двух тестов стандартизован на случайной выборке учеников старших классов, а второй на группе мальчиков из ремесленного училища, то можно ошибочно заключить, что индивид гораздо более развит в вербальном, чем пространственном отношении, тогда как на самом деле может иметь место обратное.

Существуют три основные причины систематических изменений результатов, полученных одним и тем же индивидом в различных тестах.

Во-первых, тесты, даже если они одинаково называются, могут различаться по содержанию. Примеры тому - тесты интеллекта, обычно фигурирующих под одним и тем же именем. И это, несмотря на то, что одни из них включают в себя только вербальные задания, другие связаны с пространственными навыками, а третьи могут содержать вер­бальные, пространственные и числовые задания.

Во-вторых, могут оказаться несравнимыми единицы измерения. Например, если IQ одного теста построен при σ =12, а другого, при σ =18, то испы­туемый, который в первом тесте получит IQ= 112, во втором, скорее все­го, будет иметь IQ=118.

В-третьих, характер выборок стандартизации, использованных при определении норм для разных тестов, может оказаться различным. Очевидно, один и тот же индивид будет выглядеть лучше на фоне более слабой, чем более сильной группы.

В психодиагностике существует и другой подход к оценке резуль­татов диагностических испытаний. В нашей стране под руководством К. М. Гуревича [35] разрабатываются тесты, в которых в качестве точ­ки отсчета выступает не статистическая норма, а независимый от результатов испытания, объективно заданный социально-психологический норматив.

Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставления индивиду­альных или групповых результатов тестирования проводятся с тем максимумом, который представляется в тесте (а это полный набор зна­ний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется разработанная схема представления групповых количественных данных.

Для анализа данных относительно их близости к социально-психо­логическому нормативу, условно рассматриваемому как 100 %-ное вы­полнение всего теста, все испытуемые подразделяются по результа­там тестирования на 5 подгрупп:

1) наиболее успешные — 10%;

2) близкие к успешным — 20 %;

3) средние по успешности — 40 %;

4) мало успешные — 20 %;

5) наименее успешные — 10%.

Для каждой из подгрупп подсчитывается средний процент правиль­но выполненных заданий. Строится система координат, где по оси аб­сцисс идут номера подгрупп, по оси ординат — процент выполненных каждой из подгрупп заданий. После нанесения соответствующих то­чек вычерчивается график, отражающий приближение каждой из под­групп к социально-психологическому нормативу. Такая обработка проводится по результатам как теста в целом, так и каждого субтеста в отдельности.

 

 

 

 

 

 

§ 2. Надежность и валидность

 

Прежде чем психодиагностические методики могут быть использо­ваны для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффек­тивность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В резуль­тате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диаг­ностическими методиками.

К числу основных критериев оценки психодиагностических мето­дик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным кри­териям.

В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рас­смотрения надежности методик.

 

Надежность

В традиционной тестологии термин «надежность» означает относительное посто­янство, устойчивость, согласованность ре­зультатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази], вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу — 80. Повторное применение надежных методик дает сходные оценки. При этом в оп­ределенной мере могут совпадать как сами результаты, так и порядко­вое место (ранг), занимаемое испытуемым в группе. И в том, и в дру­гом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной груп­пы. Таким образом, можно сказать, что надежность методики — это такой критерий, который говорит о точности психологических изме­рений, т. е. позволяет судить о том, насколько внушают доверие полу­ченные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка со­ставить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составле­на инструкция, задания по своему характеру разнородны, нечет­ко сформулированы указания, как методику предъявлять испы­туемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, на­личие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опы­ту по-разному предъявляет инструкции, по-разному стимулиру­ет выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утом­ление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испы­туемых, оцениваются ответы по степени полноты, оригинально­сти и т. п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно до­биться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики яв­ляется единообразие процедуры обследования, его строгая регламен­тация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с ис­пытуемыми, порядок предъявления заданий и т. д. При такой стандар­тизации процедуры исследования можно существенно уменьшить вли­яние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.

На характеристику надежности методик большое влияние оказыва­ет исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повтор­ном обследовании новые результаты также расположатся тесной груп­пой. Возможные изменения ранговых мест испытуемых будут незна­чительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента слу­чайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каж­дой такой выборки приводятся свои коэффициенты надежности. При­водимый показатель надежности применим только к группам, подоб­ным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

К. М. Гуревича, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надежность как комплексную характеристику, включающую:

♦ надежность самого измерительного инструмента;

♦ стабильность изучаемого признака;

♦ константность, т. е. относительную независимость результатов от личности экспериментатора.

Основные показатели он предложил обозначить следующим образом:

♦ показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности;

♦ показатель, характеризующий стабильность измеряемого свой­ства — коэффициентом стабильности;

♦ показатель оценки влияния личности экспериментатора — коэф­фициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку ме­тодики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием констант­ности.

Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания акту­ализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так назы­ваемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух получен­ных рядов коррелируются между собой. Для применения этого спосо­ба нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким по­ловинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоста­вить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечет­ные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака. Определить на­дежность самой методики — это не значит решить все вопросы, связан­ные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабиль­ность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные вы­воды об уровне представленности измеряемого признака у такого ис­пытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть исполь­зован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он зак­лючается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреля­ции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуе­мым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тес­тирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих рав­ных условиях) больше шансов, что диагностируемый признак сохра­нит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрас­тает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тести­рование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать опти­мальным для повторного эксперимента. Только исследователь, исхо­дя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В те-стологической литературе наиболее часто называются временные ин­тервалы в несколько месяцев (но не более полугода). При обследова­нии детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка несколь­ких недель.

Коэффициент стабильности методики должен быть достаточно вы­соким (не ниже 0,80).

Определение константности (относительной независимости резуль­татов от личности экспериментатора). Поскольку методика, разрабо­танная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в ка­кой мере ее результаты поддаются влиянию личности эксперимента­тора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указыва­ющими, как проводить эксперимент, однако регламентировать мане­ру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опы­ту всегда отразит то, как сам экспериментатор к этому опыту относит­ся (допускает небрежность или действует точно в соответствии с тре­бованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности поль­зуются нечасто, однако это не может служить основанием для его не­дооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагно­стической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность мето­дики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными экспери­ментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Валидность

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методи­ки решается лишь после того, как установлена достаточная ее надеж­ность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практи­чески бесполезной.

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает».

Валидность по своей сути — это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сто­рону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидно­сти включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой мето­дике, т. е. это валидность измерительного инструмента. Такая провер­ка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Обобщая, можно сказать следующее:

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (пси­хологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое мето­дикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматиче­ской, порой оказывается значительно труднее. Не вдаваясь пока в кон­кретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравнива­ются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической зна­чимости, эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. Поэто­му на ранних стадиях развития тестологии, когда концепция валидно­сти только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, про­сто очевидно;

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Принятие на веру голословных утверждений о валидности методи­ки не могло продолжаться длительное время. Первые проявления дей­ствительно научной критики развенчали такой подход: начались по­иски научно обоснованных доказательств.

Таким образом, провести теоретическую валидизацию методики — это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то дру­гие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики со­впадают.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и ана­логичной уже проверенной методикой указывает на то, что разра­ботанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более ком­пактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инстру­мент вместо старого.

Но теоретическая валидность доказывается не только путем сопо­ставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, устано­вить степень связи с родственной методикой (конвергентная валид­ность) и отсутствие этой связи с методиками, имеющими другое тео­ретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изуча­емом свойстве, анализ теоретических предпосылок и эксперименталь­ных данных, значительный опыт работы с методикой позволяет рас­крыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельно­сти. Но здесь особенно важно, чтобы методика была тщательно прора­ботана в теоретическом плане, т. е. чтобы имелась прочная, обосно­ванная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то ин­терпретация полученных показателей становится более ясной и од­нозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой име­ет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в опре­деленных видах деятельности. Ей придают большое значение особен­но там, где встает вопрос отбора.

Если опять обратиться к истории развития тестологии, то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомен­дациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Те­оретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наибо­лее продуктивная.

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий — показатель проявления изучаемого свойства в повседневной жизни. Таким кри­терием может быть и успеваемость (для тестов способностей к обу­чению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эф­фективность реальной деятельности — рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Мак-Кормик, прове­дя анализ используемых для доказательства валидности внешних кри­териев, выделяют четыре их типа [по 31):

1) критерии исполнения (в их число могут входить такие, как коли­чество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении вли­яния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давле­ние крови, электросопротивление кожи, симптомы утомления и т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, ко­торые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

♦ он должен быть релевантным;

♦ свободным от помех;

♦ надежным.

Под релевантностью имеется в виду смысловое соответствие диаг­ностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний крите­рий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородны­ми по психологической сущности. Если, например, тест измеряет ин­дивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъяв­ляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагно­стическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняе­мых операций соотносим с методикой.

Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполез­ным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех вызываются тем, что, например, учеб­ная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут при­внести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие груп­пы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический ха­рактер. Так, например, производительность следует брать не по абсо­лютным значениям, а в отношении к средней производительности ра­бочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достовер­ную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии мно­го методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик может носить количественный и каче­ственный характер.

Для вычисления количественного показателя — коэффициента ва­лидности — сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреля­ции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако луч­ше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валид­ности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним — 0,30-0,50 и высоким — свы­ше 0,60.

Достоверность

Beрбальная форма подачи тестового материала порождает  у испытуемого определенные размышления о цели тестирования. Если ситуация (например, экспертиза) диктует испытуемому необходимость фальсификации ответов, то испытуемый редко отказывается от этой возможности.

Психологические факторы, от которых зависит достоверность данных самоотчета, условно можно сгруппировать в следующие классы:

1. Факторы знания. У испытуемого может быть более или менее осознанное представление о следующем:

- свойственно или нет ему в действительности тестируемое поведение (с некоторыми ситуациями,  имплицитно  подразумеваемыми  в  вопросе тест-опросника, испытуемый мог на практике никогда не встречаться);

- какое личностное свойство скрывается за тем или иным конкретным поведением, описанным в суждении;

- как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.

2. Фактор "социальной желательности". Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию "Я-образа" и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования (диагностическая  ситуация).  Однако  эта тенденция  не будет давать систематического искажения, если испытуемые не смогут разгадать направленность опросника и связать диагностируемое свойство с тем или иным полюсом "социальной  желательности".

Таким образом, действие этого фактора до некоторой степени  опосредовано действием фактора "знание". Однако при диагностике личностных свойств, тесно связанных с психической "нормальностью" или "социальной успешностью", фактор "социальной желательности ответа" обусловливает очень серьезные искажения.

3. Факторы "индивидуальной тактики". Здесь  подразумевается действие "Я-концепции" ("Я" для  себя) и "Я-образа" ("Я" для других) на ситуативную тактику испытуемого  в момент  тестирования. Выполняя тест-опросник, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить "Я-концепцию" или фальсифицировать определенный "Я-образ" с заданными свойствами.

Как  правило,   в  ситуациях  высокого  социального риска "Я-образ" полностью   доминирует.

Например, преступник при экспертизе стремится,  прежде  всего,  предстать  больными или неприспособленным к жизни,  хотя   в  действительности   ему  было   бы  приятно думать о себе как  о  вполне  адаптированном  здоровом человеке.  Точно так же склонные подчеркивать   свои   трудности   и   проблемы  клиенты, обратившиеся за помощью к психологу-психотерапевту   (чтобы  вызвать к себе повышенное   внимание). В менее  регламентированных  ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится  подтвердить с помощью теста свои гипотезы о самом себе.

Заслуживают внимания также особые формы отказа испытуемого от  тестирования: позиционный  стиль  ответа ("соглашательство" или, наоборот,  "отрицание"),  случайные  ответы.  Для  выявления подобных отказов  обычно  достаточно  довольно простых  мер:

- для исключения влияния   соглашательства ("отрицания")  применяются перечни с "прямыми" (ответ "верно" в пользу  измеряемого свойства) и "обратными" (ответ "неверно" в пользу измеряемого свойства) пунктами. Кроме того,  производится  подсчет   баланса  "подтверждающих" и "отвергающих" ответов:  если баланс  резко нарушается,  то протокол признается бракованным;

- для  выявления  случайных ответов в большие перечни вводят вопросы-дубли (синонимические  перифразы) или прямые повторы:  если  испытуемый  слишком  часто  по-разному отвечает на одинаковые вопросы, значит он применяет случайную тактику. Вводят также  и  крайне редкие  утверждения, с  которыми испытуемые, как правило, соглашаются только по ошибке.

Более сложные методы требуются для борьбы с социальной желательностью.

 Рассмотрим три наиболее часто используемых варианта.

1. Введение  особых  шкал  "лжи" в диагностический вариант методики.  Они  составляются  из  "вопросов-ловушек":  тот или иной ответ на эти  вопросы  явно  предопределен  социальной желательностью. Если испытуемый  набирает  слишком  высокий  балл   по  шкале лжи, его протокол  бракуется.  Более  тонкий  вариант - введение шкал "коррекции" (например, в MMPI). Получение  определенного балла по этим шкалам  вызывает  внесение поправок  к баллу  по другим шкалам, скоррелированным  со  шкалой  коррекции.   Величина  поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства).

2. Использование  инструкции   на  преднамеренную фальсификацию   результатов для устранения  или   сбалансирования  "социальной желательности".  Участникам   предварительных  замеров кроме обычной инструкции дается (во вторую очередь) дополнительная: "Заполните опросник  от  лица  человека,  желающего  произвести самое благоприятное  впечатление". Затем  производится  отбор  пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (где 50% - величина,  ожидаемая  для  пунктов,  являющихся нейтральными с точки зрения "социальной желательности").

. Такие  пункты  должны  быть  либо  полностью  исключены  из опросника (что редко  удается),  либо  число "положительных" и "отрицательных" должно быть уравновешено.

Подобным образом,  могут  быть   отобраны  и   пункты  для   шкалы  лжи. В качестве критерия  разделения   испытуемых  на   шкале  лжи выбирается такая  точка,  которая  позволяет  минимизировать  ошибки типа "пропуск" (зачисление "лживых" испытуемых в число  "правдивых") и ошибки типа  "ложная  тревога" (зачисление "правдивых" в число "лживых").  Положение  критической  точки  на шкале  можно менять в зависимости от баланса  цены  двух  типов  ошибок:  в некоторых случаях "пропуск" гораздо опаснее, чем "ложная тревога".

Фальсифицирующая инструкция используется также  и   для  исследования степени "скрытности-открытости" формулировок  вопросов.  Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику Тейлор. В этом случае, ответы на многие пункты значимо изменяются.

Такие пункты являются слишком открытыми - информируют испытуемого об измеряемом свойстве и позволяют ему вносить тенденциозные искажения в результаты в своих интересах.

3. Стратегия "сбалансирования социальной желательности" стала применяться с распространением факторного анализа. Ставиться цель обеспечить дискриминативную валидность теста относительно шкалы "социальной желательности". Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ, в применении к одномерному тест-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности.

 Из перечисленных выше трех методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы "лжи". Методы  2 и 3 позволяют отобрать только такие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становится ортогональным (независимым) к социальной желательности.

При необходимости диагностики свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна.

Однако, в ситуациях, когда сам испытуемый заинтересован в точных результатах ("ситуация клиента"), психодиагност может пользоваться опросниками, не опасаясь артефакта социальной желательности.

При подготовке особенно значимого психодиагностического обследования, в котором надо принципиально исключить всякую возможность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы "лжи" еще одним  критерием,  основанным  на  использовании  "фальсифицирующей" инструкции.  Для  этого  после обычной  инструкции той же самой пилотажной  выборке  психолог  дает инструкцию: "А теперь снова выполните задание, но старайтесь описать  себя так,  чтобы выглядеть максимально благоприятно  в  глазах  большинства  других  людей". В результате применения  такой  инструкции  психолог  получает дополнительную таблицу, содержащую фальсифицированные данные.

В  таком  случае кроме  подсчета очень грубого индекса "желательности" ( )  у психолога  возникает возможность поэлементного  сравнения  ответов  испытуемых на один и  тот же вопрос в обычной и "фальсифицированной" диагностической ситуации. Очевидно,  что недостоверным  следует считать  вопрос, ответы на который будут изменены в "фальсифицированной" ситуации в определенном систематическом  направлении. 

Без указанных предосторожностей тест-опросник неизбежно будет давать систематические искажения результатов всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.

Другой путь - управление процессами категоризации в ходе самой диагностики. В так называемой "репертуарной модификации" теста-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного  репертуара ролей - "большинство людей", "моральный человек", "преуспевающий человек" и т.п.

Однако применение таких методов требует сложной компьютерной обработки, а, следовательно, не всегда доступны.

 

Технология создания и адаптации методик.

Рассмотрим некоторые аспекты целостной стратегии  конструирования,  эмпирической апробации  и внедрения методики в практику. В  реальном  случае создание оригинальной методики   или   адаптация  зарубежной   методики  не могут сводиться только  к  проверке  (или  перепроверке)   отдельных психометрических свойств  -  репрезентативности,   надежности,  валидности, достоверности  -  в  произвольной  последовательности.   В  одних случаях целесообразно начинать с одного, в других - с другого этапа работы.

По существу любая  реальная  ситуация использования теста не  является  ситуацией  только  "конструирования" или "применения". Можно без  преувеличения сказать,  что существует континуум между крайними полюсами:

  "создание"------------ "применение"

и  каждая  ситуация  до  определенной   ступени  удалена от обоих полюсов.  Трудно  назвать  такой  случай, когда  бы конструирование совершенно  нового  теста  начиналось  "с нуля", "на пустом месте". Также трудно найти и такие случаи,  когда все  аспекты тестирования были бы полностью  неизменными  и  воспроизводили  бы  уже совершенно исследованную  нормативную  ситуацию  применения  готового  теста.

Однако на практике, все многообразие  ситуаций, всю  комбинаторику независимых  параметров психологи,  как   правило,  пытаются свести к двум-трем типовым ситуациям [15].

 1. Ситуация применения. Тест кем-то разработан (возможно, в других социокультурных условиях), известны тестовые нормы, полученные на  представителях  данной языковой  культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).

2. Ситуация адаптации. Тест кем-то разработан - проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.

3. Ситуация создания. Есть  концепция психического  свойства, но нет "подходящей"  процедуры   его   измерения,  удовлетворяющей требованиям места,  времени,  возможностям  количественного  анализа и ограничениям  прочих  ресурсов.  Необходимо разработать измерительную процедуру, проверить ее  надежность, валидность,  построить тестовые нормы.

Но уже к середине 80-х  годов стала  совершенно очевидна  несостоятельность такой упрощенной системы представлений.

Прежде всего  остановимся  на вопросах  адаптации  "переводных" тестов. Данный путь быстрого пополнения репертуара методик кажется многим психологам наиболее экономичным, кратчайшим к надежной и валидной психодиагностике.

Однако, если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на  веру,  а   теоретическая  концепция автора теста и содержание  использованных  им  критериев  валидности просто переносятся  в  наши  условия  без  изменений  (ведь  для любой, в том числе и для невалидной  и  ненадежной  методики,  можно получить распределение).

Подобный перенос   дает   пренебрежимые  погрешности   только  для тестирования относительно  элементарных  психических  свойств  (таких, как свойства нервной  системы,  функциональные  состояния, сенсомоторные параметры,  элементарные  когнитивные  функции, т. е. структурно-динамические характеристики  психической деятельности),  причем с использованием объективных  процедур   (психофизиологическая  регистрация, тесты с "физическими" критериями  успеха  и  т. п.). 

При тестировании интегральных психических  свойств  личности  и  индивидуального сознания (черты,  мотивы,  установки,  самооценка,  общие  способности, стиль общения,  ценностные  ориентации,  интересы  и  т. п.), а также употреблении любых лингвистических  средств  в  самой процедуре тестирования,  - во всех этих  случаях ограничиваться только сбором тестовых норм при адаптации недопустимо!

Требуется серьезная  эмпирическая  работа  по   проверке  надежности и валидности в новых  социокультурных  условиях,  работа, фактически соответствующая по своему объему созданию  оригинальной методики.

С этой точки зрения заимствование   зарубежных  диагностических тестов способностей, черт характера,  интересов и  т. п. вовсе не оказывается  кратчайшим  путем  к психодиагностике.  Рассмотрим в качестве примера необходимые этапы эмпирико-статистической работы при адаптации многомерного переводного тест-опросника.

1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в  зарубежной  методике  он  применялся   в  качестве средства самого  конструирования   методики.   Этот   анализ   призван показать, что некое  (еще  неясно   какое  именно) общее  диагностическое свойство, "лежащее  на пересечении всех эмпирических   индикаторов",   действительно существует.

Такой анализ   обязателен   по   отношению   ко   всем   тестовым  шкалам, полученным с помощью факторного анализа,  например   к  тест-опросникам Айзенка EPI и 16РF Кеттелла.  В то время, как  к  опроснику  "локус контроля" или ко многим  основным клиническим    шкалам    MМPI требование внутренней согласованности  применять необязательно,  поскольку  пункты в эти шкалы подбирались  по  внешнему  критерию  и  не  связаны   в  один фактор. Анализ   внутренней   согласованности   может    быть   применен и к одномерным,  и  к  многомерным  тестам.   

2. Проверка  устойчивости к  перетестированию. Совершенно необходима  при  диагностике  свойств,  по отношению  к которым теоретически  ожидается  инвариантность  во  времени.

Анализ ретестовой надежности  может  быть (так  же как  анализ надежности - согласованности) совмещен с исследованием  информативности отдельных пунктов теста, а также, возможно, и устойчивости  отдельных пунктов. Без сведений о ретестовой надежности  психолог не  имеет права использовать тест  для  построения любого элементарного статического экстраполирующего прогноза.

3. Анализ  корреляций с  релевантным внешним критерием. Этот этап  адаптации совершенно  необходим, если  тест разрабатывался изначально как критериально-ориентированный, т.  е. отбор пунктов производился  на  основании их  корреляций с  каким-то критерием валидности.  Например, подобная  работа проделана  для сокращенной модифицированной  версии  MMPI коллективом  Ф. Б. Березина.

4. Рестандартизация  тестовых норм. До недавнего времени  только этот этап работы по адаптации тестов признавался всеми психологами как необходимый. Но и в  этом случае  далеко не  всегда воспроизводилась необходимая статистическая работа по  проверке устойчивости полученного   распределения   тестовых   баллов   к  расщеплению выборки.

5. Проверка воспроизводимости   структуры   отношений   между  шкалами является специфичным  этапом для  многомерных тестов. Например, для теста Айзенка принципиальна  ортогональность, статистическая независимость  факторов "экстраверсия - интроверсия" и "нейротизм - эмоциональная стабильность". На  воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторичных факторов.

Пять указанных этапов адаптации позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы конструированию оригинальных методик.

Несколько другие задачи ставит перед психологом ситуация "внутрикультурного переноса" теста  на  новую  популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В этом случае необходимо:

1. Проверить валидность методики, если методика чувствительна по своему содержанию  к профессиональной или региональной  специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подразумевающие типичные ситуации из жизни студента, обучающегося в крупном городе европейской части?). Для того надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по проверке валидности должны быть таковы, чтобы можно было бы надеяться на  получение   статистических  значимых   связей  между тестовым показателем  и  критерием  валидности (это, как  правило, не менее 30 испытуемых).

Если результаты проверки валидности оказываются неудовлетворительными (коэффициент  корреляции явно ниже 0,5 и дальнейшее наращивание выборки все равно не оправдает  применение теста со столь низким показателем  валидности), то по собранным  результатам следует произвести  простейший "анализ пунктов" - посмотреть, не оказались вторые пункты явно неинформативными (все испытуемые отвечают одинаково), не оказались ли некоторые вопросы явно бессмысленными и слишком "прямыми", социально значимыми в данной ситуации. Не  исключено,  что  при удалении  неудачных пунктов из подсчета тестового балла необходимая валидность будет обнаружена.

В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности методики.

2. Проверить соответствие тестовых норм. Только после позитивного результата в проверке валидности целесообразно расширять тестовых баллов.

Квантили  этого распределения  необходимо сравнить с квантилями   нормативного   распределения:   если  расхождения оказываются пренебрежимыми (например, не превышают ошибки измерения), то можно  принять  вывод  о   приложимости  к   данной  популяции универсальных тестовых  норм. Однако  на практике  чаще возникают значимые отличия.

В этом  случае психолог  должен построить так называемые "частные" тестовые  нормы.

Итак, при создании нового теста психолог должен придер­живаться определенного алгоритма действий. Рассмотрим коротко его суть. Алгоритм создания нового теста сводится к следующим основным этапам:

— формирование информационной базы исследования;

— конструирование интегральных показателей;

— классификация испытуемых на однородные группы.

Формирование информационной базы исследования. Сфор­мировать информационную базу для создания теста - это зна­чит выделить систему признаков (характеризующих измеряемый психический феномен), построить на их основе «пробный» вариант теста и с его помощью провести пилотажное исследо­вание.

При этом наиболее сложной и трудно формализуемой час­тью этого этапа является выявление системы исходных призна­ков, т. к. предмет измерения изначально определяется, как пра­вило, в довольно общем виде. Как отмечает Л. Т. Ямпольский, наилучшим основанием для содержательной разработки предмета тестирования является наличие хорошо развитой пси­хологической теории (что в психологии бывает довольно редко). В связи с этим, конечным результатом содержательного анализа должно быть четкое вербальное определение анализи­руемого конструкта и расчленение его на составные части.

После этого переходят к поиску системы признаков, реле­вантно отражающих основное содержание конструкта. Систе­ма признаков должна удовлетворять следующим общим требо­ваниям:

- полнота описания - система должна охватывать все ас­пекты измеряемого понятия;

- экономичность описания - требование, которое дик­туется временными ограничениями, трудностями сбора, обра­ботки и анализа больших по объему массивов данных;

- четкая структурированность системы признаков - при­знаки должны группироваться достаточно равномерно относи­тельно ранее выделенных аспектов измеряемого понятия;

- количественная определенность отбираемых призна­ков - признаки должны допускать последующую формали­зацию (математическую обработку).

На основе этих требований должен быть составлен список заданий (пунктов) и создан первоначальный вариант теста.

Поскольку качество отдельных заданий (вопросов, утверждений) является определяющим для всего опросника, рассмотрим трудности, возникающие при формулировании заданий, а также преимущества различных типов заданий.

При разработке заданий для личностных опросников необходимо учитывать следующие проблемы, которые, если их не обойти, неизбежно приведут к низкой валидности тестов.

1. Установка на согласие. Это тенденция испытуемого соглашаться с утверждениями или отвечать на вопросы "да" независимо от их содержания. Чаще всего проявляется, когда утверждения (вопросы) неоднозначны и неопределенны.

2. Установка на социально одобряемые ответы. Это тенденция испытуемых отвечать на вопросы теста так, чтобы выглядеть "социально положительным": если возможен "социально желательный" ответ, то весьма вероятно, что испытуемые будут его давать. Эта установка оказывает, в частности, влияние на результаты теста ММРI.

3. Установка на неопределенные или средние ответы. Если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (например, "не уверен", "не знаю", или "затрудняюсь ответить"), то многие испытуемые склонны к ней прибегать, как к безопасному компромиссу. Это приводит к снижению валидности заданий, поскольку большинство методов анализа вопросов основывается на крайних значениях показателей.

4. Установка на "крайние" (расположенные по краям шкалы) ответы. Эта установка может проявляться при использовании многоэлементной рейтинговой шкалы. Некоторые испытуемые, независимо от содержания вопросов, предпочитают выбирать крайние ответы.

5. Выборка из генеральной совокупности вопросов. В тестах интеллекта и специальных способностей относительно легко убедиться в том, что задания принадлежат или с высокой степенью вероятности выглядят принадлежащими к подразумеваемой для них генеральной совокупности. Лингвистические задания нелегко перепутать с математическими или какими-либо другими. Однако, в области особенностей диагностики личности и темперамента все гораздо сложнее.

В самом деле, иногда даже опытные разработчики вопросов обнаруживают,  что вопросы нагружены не теми факторами, для выявления которых они были созданы или, что вопросы вообще не нагружены ни одним из факторов. Эта проблема с точки зрения классической теории тестов состоит в трудности определения конкретной выборочной совокупности вопросов. В результате возникает проблема подбора адекватной выборки из выборочной совокупности вопросов или утверждений для теста, а без этого тест не может быть валидным.

6. Выборка из генеральной совокупности испытуемых. Известно [8], что в личностных тестах труднее обеспечить адекватность выборки из выборочной совокупности, чем в тестах способностей. При использовании тестов способностей обычно известна вполне определенная категория лиц (популяция), для которой данный тест предназначен, и таким образом, по крайней мере, в принципе, можно эффективно подбирать выборки.

В личностных тестах, в отличие от тестов, разрабатывающихся для испытуемых с той или иной патологией, в идеале нужны выборки из общей популяции (т.е. всего населения страны), в которой встречаются все возможные показатели. Такие выборки, как показано, должны быть большими, и их обычно трудно получить.

7. Проблемы в установлении адекватного критерия валидности. Существует, как отмечалось выше в разделе о валидности, значительная трудность в нахождении адекватного критерия. Например, если мы пытаемся измерить авторитаризм, то будем вынуждены полагаться на рейтинги, поскольку нет никаких других внешних мерил (в отличие от, например, школьных экзаменов в случае диагностики способностей). Рейтинги - это неадекватный инструмент, а если бы они подходили, тест был бы не нужен. Аналогично, если существуют высокоэффективные тесты авторитаризма, которые могут быть использованы в качестве критерия валидности, вероятно, в новом тесте нет необходимости.

Таковы основные сложности, возникающие при конструировании личностных опросников, и следует отчетливо их себе представлять, прежде чем приступать к формулированию вопросов или утверждений. Две последние проблемы, хотя они и являются определяющими, выходят на первый план уже после того, как подобраны задания теста.

Рассмотрим далее основные принципы формулирования вопросов (утверждений) для личностных опросников.  Для тестов личности имеет большое значение то, чтобы ответы на вопросы могли быть объективно и с высокой надежностью оценены. Прежде всего, этого необходимо добиваться путем разработки формы вопросов. Ниже приведены формы вопросов, используемых опросниках, которые оказались наиболее эффективными на практике.

1. Вопросы с ответом типа "да-нет". Такие вопросы легко формулировать, они понятны испытуемым и ответы на них даются быстро. Такова, например, форма вопросов личностных тестов Айзенка. Типичный дихотомический вопрос: "Вам нравятся шумные компании?"

2. Вопросы с ответами типа "да - не знаю - нет", "да-затрудняюсь ответить - нет". Это вариант вопросов типа "да-нет", описанных выше, с добавлением категории неопределенности, потому что некоторые испытуемые становятся раздражительными и несговорчивыми, если их заставляют отвечать либо "да", либо "нет" на вопросы, в ответах на которые они не очень уверены.

Трудность с такими вопросами состоит в том, что эта "средняя" категория очень привлекательна для испытуемых, однако  редко бывает информативной. Практика показала, что дихотомические вопросы более предпочтительны, поскольку они заставляют преодолевать нежелание делать выбор.

3. Альтернативные задания (с ответами типа "правда-ложь"). Эти задания состоят из утверждений (часто от первого лица), которые испытуемые должны отметить как верные или неверные для них. Примером альтернативного задания является: "Я ненавижу втискиваться в переполненный автобус". Это форма утверждений, используемая в ММРI. По существу, она ненамного отличается от дихотомических вопросов, хотя формулирование их как альтернативных утверждений, а не как дихотомических вопросов, может до некоторой степени повлиять на языковую представленность задания.

4. Задания с ответами типа "нравится - не нравится" (одно слово или фраза). Испытуемые должны указать, нравится им предложенное или не нравится. Такой тип заданий чаще всего применяется в проективных методиках , однако, он может оказаться чрезвычайно полезным, хотя и необычным, и в обычных тестах-опросниках.

5. Задания с рейтинговыми шкалами. Эти задания состоят из предложений, к которым прилагаются рейтинговые шкалы. В них преодолеваются трудности, связанные с коррелирующими дихотомическими заданиями и испытуемым они кажутся более разумными, чем дихотомические задания, хотя и в этом случае, может проявиться установка на крайние ответы. Чаще всего используются две семибалльные шкалы, крайними значениями которых являются: "всегда-никогда" и "определенно да - определенно нет", в зависимости от формулировки задания. Типичным примером может быть: "Мне нравится смотреть мелодраматические фильмы: всегда, очень часто, часто, от случая к случаю, редко, очень редко, никогда". Очевидной проблемой для этой шкалы является различная интерпретация индивидуумами терминов частоты.

6. Разнообразные трихотомические задания. В действительности это варианты трихотомической формы вопроса типа "да-нет" (тип 1 в данном списке). Их использует тогда, когда они более подходят по смыслу в отношении некоторых утверждений, чем "да - затрудняюсь ответить - нет". Примерами трихотомий являются: "обычно - иногда - никогда", "верно - не знаю - неверно", "согласен - не уверен - не согласен ". Эти варианты предоставляют большую гибкость при формулировании заданий, чем жесткие формы типа "да-нет" (дихотомическая) или альтернативные.

7. Трихотомические задания с выбором. Это варианты типа (6), позволяющие вложить в лаконичную форму задания почти любую мысль. В них используются три завершающих предложение фразы, одну из которых испытуемый должен выбрать. Вот типичный пример: "Когда мне нечего делать, я могу: (а) позвонить другу, чтобы поболтать; (б) заняться разгадыванием трудного кроссворда; (в) пойти на джазовый концерт".

8. Другие формы. Основные типы заданий, описанные в пунктах (1) - (7), - это те, которые в основном используются в наиболее известных личностных опросниках. Все они, с точки зрения формы (в отличие от содержания), довольно легко формулируются, лаконичны,  просты в работе, а также для подсчетов.

Удовлетворение этим требованиям обеспечивает содержа­тельную валидность теста. По другому говоря, содержательная валидность должна рассматриваться лишь как начальный этап в конструировании теста.

Конструирование интегральных показателей (шкал). На этом этапе решаются две основных подзадачи:

- оценка того, насколько удачно исходная система при­знаков описывает содержание измеряемого свойства;

- на базе отобранных признаков строится обобщающий показатель.

Обобщающий (интегральный) показатель представляет из себя, по сути, «шкалу», «ось» или «фактор», который содержит в себе весь континуум многообразных оценок по всем пунктам теста.

Этапы конструирования теста

1. Определение количества заданий.

Прежде  чем приступать  к созданию  теста, необходимо  четко  знать, для чего он нужен. Ясный  ответ на этот вопрос  — необходимое  условие для работы.  Поэтому первым   шагом  будет формулирование цели будущего теста. После этого  следует обратиться к разработке   спецификации будущего  теста. Наиболее  удобно  сделать это в виде таблицы, в которой  по горизонтали   будут располагаться   содержательные области, которые  предполагается измерять, а по вертикали   — их манифеста ции, или пути, по которым  содержательные   области  могут проявляться.

Далее необходимо  определить, сколько  заданий, например  вопросов, должно быть создано для каждой из ячеек.  При решении  этой задачи следует руководствоваться  тем, насколько  важным  представляется   исследователю  измерение  одного из параметров  сравнительно   с другим  или другими.

После того как определен  процентный   вес каждой из ячеек решетки  и установ- лено общее  количество  заданий  для пилотажной   версии  теста, нетрудно  подсчи- тать, сколько  заданий  должно быть разработано  для каждой ячейки.  

2. Разработка заданий

Прежде  всего нужно указать на то, что в каждом задании  может быть задан толь ко один вопрос  или сформулировано   одно утверждение.  Нельзя  допускать  появления заданий, в которых присутствуют  формулировки   типа: «для этого человека и других людей»,  «как и другие» и т. п.  Каждое  задание  (вопрос)  должны  быть сформулированы предельно ясно и просто. Необходимо   избегать двусмысленных формулировок   и придерживаться, насколько   это возможно, наиболее  простых вариантов  ответов.  В то же время необходимо  стремиться  к тому, чтобы обследуе- мые не могли догадаться о том, для измерения  какой  черты предназначено   то или иное задание.  В противном  случае ответы будут отражать  их точку зрения  на вы- раженность   у себя  этой  черты, а не реальное  положение   дел.

Задания  должны  отражать  конкретные,  а не общие  аспекты  изучаемой  области поведения.   Например, вместо  задания  «Нравится  ли вам спорт?»  лучше использовать  более  конкретный   вопрос:  «Вы регулярно  играете  в какую-нибудь спортивную   игру?».

Везде, где только  возможно, следует  избегать употребления  таких слов, как «часто», «редко» и т. п. Иначе говоря, в формулировке  заданий  нужно очень осторожно  прибегать  к словам, указывающим   на частоту действий.  То, что одним  испытуемым  интерпретируется   как  «часто», для другого  совсем  не так.  Примером может служить вопрос  «Часто ли вы употребляете  спиртные  напитки?», ответ на этот вопрос  не отражает реального  положения  дел, а характеризует  субъективное мнение  обследуемого  (разумеется, в ряде случаев именно  это мнение  и интересует исследователя!).Также следует избегать терминов, выражающих чувства. Лучше представить  задание  в контексте  поведения.  Например, задание  «Нравится  ли вам чтение  художественной   литературы»  лучше  заменить  на  «Читаете  ли вы художественную   литературу  постоянно?».

Очень важно, чтобы любой из предлагаемых  вариантов  ответа воспринимался испытуемым  как возможный, вероятный.   Ответ, воспринимаемый    обследуемым как неправильный,  будет иметь  малую вероятность   выбора.

3. Оформление теста

В любом  опроснике   должен быть представлен блок основной информации, который  включает  его название, а также вопросы, касающиеся   имени, пола, возраста, образования   и некоторых  других необходимых  для исследователя данных.  Обязательно  указывается  дата заполнения   опросника.

Инструкция должна быть ясной, доступной  для понимания.   В ней должно быть указано, как выбирать  ответ и каким  образом  отмечать  его в опроснике.   Здесь же содержится  дополнительная   информация, которую  разработчик  считает  необходимым сообщить  обследуемому.  Например, «отвечайте так быстро, насколько  это возможно»  или «отвечайте  на каждый  вопрос  искренне, это очень важно для того, чтобы мы имели  возможность  оказать  вам необходимую  помощь».  Следует выделить ту информацию, которая  может способствовать   эффективной   работе испытуемого, например  о соблюдении  конфиденциальности.

Для  компоновки текста  опросника   следует  руководствоваться    такими   реко мендациями.

1.   Нумеруется  каждое задание.

2.   Каждая  строка на странице  должна быть короткой  и содержать не более 10-12 слов.

3.  Все задания  располагаются   по прямой  вертикальной   полосе  сверху вниз  в левом  углу страницы.

.  Варианты  ответов должны  быть представлены   так, чтобы получилась  пря- мая вертикальная   полоса  сверху вниз  в правом  углу страницы.   Необходимо обеспечить  ясную визуальную  связь между каждым  заданием  и вариантами ответа на него. Это может быть сделано с помощью  введения  пунктир ной линии  от колонки  заданий  к их вариантам  ответов.

5.   Каждое  задание  нужно  отделить  друг от друга, лучше это сделать, исполь- зуя свободное  пространство, а не горизонтальную   линию.

6.  Если используется  более чем один тип заданий, одинаковые  задания  группируются  вместе. Каждый  тип заданий  требует разных инструкций   и своих вариантов  ответов.

7.  Опросник  печатается  так, чтобы он имел эстетически  привлекательный   вид.

Современные   компьютеры   позволяют  сравнительно   легко добиться  опти- мального  варианта текста. Дизайн  опросника  может способствовать  воспри- ятию его как формального  документа  или приближать  к игре (особенности шрифта, цвет бумаги и расположение   заданий).

4. Пилотажное исследование

Проведение   пилотажного   исследования   предполагает  выполнение   заданий  теста лицами, которые  имеют сходные  особенности   с теми, для обследования   которых он предназначается.    Анализ  полученных  данных  поможет  отобрать  наилучшие задания  для окончательной   версии  опросника.

Пилотажную  версию опросника  следует предъявить  как можно  большему  количеству  испытуемых. Минимальное    количество   респондентов, которое   требуется  для  пилотажного исследования, должно быть в два раза больше, чем количество заданий. Если невозможно получить такое количество испытуемых, лучше все-таки привлечь к исследованию меньшее количество людей, чем вообще отказаться от проведения пи- лотажной стадии исследования.

5. Анализ заданий

Анализ заданий по результатам, полученным в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной  версии опросника  и включает  в себя определение доли ответивших правильно (в соответствии   с ключом)  и дискриминантности каждого задания. 

Следующим шагом будет вычисление показателя, определяющего долю испытуемых, ответивших в соответствии  с «ключом» опросника  или индекса эффективности задания1. Этот показатель  подсчитывается  делением количества  обследуемых, давших правильный  (так называемый  «ключевой») ответ, на их общее количество.  

В идеале этот индекс для каждого задания должен располагаться  в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника.  

6. Определение надежности, валидности теста.

7. Определение стандартных нормативных показателей теста.

 

сессия

Похожие публикации


Лекция "Основные подходы к диагностике личности"

07-04-2020 Лекции
Лекция по учебной дисциплине "Основы психолого-педагогической диагностики", тема "Основные подходы к диагностике личности"
сессия
подробнее

Лекция "Современные методы диагностики личности"

07-04-2020 Лекции
Лекция по учебной дисциплине "Основы психолого-педагогической диагностики", тема "Современные методы диагностики личности"
сессия
подробнее