Đây là một phần khó, chính là bởi toán thống kê không phải là lĩnh vực quen thuộc với tất cả chúng ta. Đào tạo y khoa về phần này cũng khá yếu, do tầm quan trọng của nó chưa được nhấn mạnh đúng đắn. Hiện nó chỉ được nhấn mạnh trong môn học Nghiên cứu khoa học, mà như tên gọi, nó khiến các bác sĩ điều trị cho rằng chẳng liên quan gì. Bản thân môn Toán Xác xuất thống kê, do bộ môn Toán đảm nhiệm, bì chìm lấp trong các quan điểm về việc giáo dục phổ thông hiện dạy quá nhiều thứ thừa thãi, như Toán cao cấp chẳng hạn. Trong chương trình lớp 11- 12 của Mĩ, bạn có thể học Toán thống kê như một môn học, mà không cần học các phần toán cao cấp khác. Nhưng khi học ngành Thống kê ở cấp độ Đại học, dĩ nhiên phải học Toán cao cấp.
Mặt khác, việc học các thang đo hiện đang hot và khá đắt, mặc dù nhiều khóa học không thực sự được giảng dạy tốt. Vì vậy, các nhà chuyên môn cần chuẩn bị kiến thức nền tốt thì việc học tập mới hữu ích.
Lựa chọn thước đo: Chúng ta sẽ đánh giá như thế nào?
Có một số phương pháp để kiểm tra chức năng ngôn ngữ: các bài kiểm tra tiêu chuẩn hóa, thang đo phát triển, phỏng vấn và bảng câu hỏi, các thủ tục tham chiếu không chuẩn hoặc dựa trên tiêu chí và quan sát hành vi, bao gồm các thủ tục dựa trên chương trình học và các thủ tục động. Mỗi cái đều có một vị trí trong quá trình lượng giá, mỗi cái hoàn thành một số chức năng nhất định, nhưng mỗi cái cũng có những hạn chế nhất định. Mục đích của nhà lâm sàng là học cách nhận biết dụng cụ phù hợp để thực hiện công việc trong phạm vi chuyên môn.
Các bài test tiêu chuẩn hóa
Các bài test tiêu chuẩn hóa hoặc tham chiếu quy chuẩn là định dạng chính thức nhất, được chia thành các tiểu mục để đánh giá chức năng ngôn ngữ. Chúng được phát triển bằng cách đưa ra một loạt các tiểu mục được thực hiện (lý tưởng là) trên các nhóm lớn trẻ em có sự phát triển ngôn ngữ bình thường và sau đó tính toán phạm vi biến động có thể chấp nhận được về điểm số cho độ tuổi được đề cập trong bài kiểm tra. Lợi thế của các bài test tiêu chuẩn, khi chúng được xây dựng tốt, là chúng cho phép so sánh biểu hiện có ý nghĩa giữa các trẻ (xem Betz, Eickhoff, & Sullivan, 2013; Charman, Hood, & Howlin, 2008; và Pindzola, Plexica, & Haynes, 2016, để thảo luận). Chúng làm như vậy vì (lý tưởng) chúng có các thuộc tính sau:
l. Tiêu chí quản trị và chấm điểm rõ ràng. Điều làm cho một bài test chuẩn hóa trở thành “tiêu chuẩn” là nó luôn được đưa ra theo cùng một cách, bất kể ai sử dụng, và nó luôn được cho điểm theo cùng một cách, bất kể ai chấm điểm hay làm bài. Khi đánh giá một bài test tiêu chuẩn, điều khôn ngoan là đọc các hướng dẫn trong sách hướng dẫn và tự hỏi bản thân xem bạn có hiểu chính xác những gì cần làm khi thực hiện và cho điểm bài kiểm tra hay không. Nếu các câu hỏi trong đầu bạn không thể được giải quyết bằng cách đọc lại cẩn thận hướng dẫn sử dụng, thì các quy trình kiểm tra có thể đã không được trình bày đủ rõ ràng để chứng minh/ hướng dẫn cho việc sử dụng nó.
2. Hợp lệ. Điều này đề cập đến mức độ mà một bài kiểm tra đo lường những gì nó có ý định đo lường. Một bài kiểm tra được coi là hợp lệ/ có hiệu lực nếu sai số hệ thống hoặc độ chệch của nó là nhỏ. Nhiều loại hiệu lực khác nhau có thể được báo cáo. Hiệu lực bề mặt đề cập đến sự phù hợp phổ quát giữa mục đích dự kiến của kiểm tra và nội dung thực tế của nó. Ví dụ, PPVT-IV (Dunn & Dunn, 2007) có hiệu lực bề mặt, bởi vì nó yêu cầu các đối tượng chỉ vào những hình ảnh mà giám khảo nêu tên, điều này dường như là một cách hợp lý để xác định xem một người biết những từ đó có nghĩa là gì. Hiệu lực nội dung liên quan đến việc liệu công cụ có các mục đại diện cho miền nội dung được thử nghiệm lấy mẫu hay không (Friberg, 2010). Điều này thường được đánh giá bằng cách các chuyên gia trong lĩnh vực này đánh giá tổng thể công cụ. Hiệu lực cấu trúc liên quan đến việc liệu công cụ có đo lường cấu trúc lý thuyết mà nó được thiết kế để đo lường. Điều này có thể được đánh giá định tính hoặc định lượng và một lần nữa, thường được thực hiện bằng cách trưng cầu ý kiến chuyên gia (Friberg, 2010). Hiệu lực liên quan đến tiêu chí phân loại, liên quan đến việc liệu công cụ có thể hiện mối tương quan chặt chẽ với các công cụ khác được cho là đo lường cùng một tiêu chí hay không. Có hai loại giá trị liên quan đến tiêu chí: đồng thời và dự đoán. Một bài test có giá trị đồng thời khi cung cấp bằng chứng cho thấy bài kiểm tra đồng ý với các công cụ hợp lệ khác trong việc phân loại trẻ em là bình thường hay bị rối loạn. Một bài test có giá trị dự đoán khi có bằng chứng cho thấy bài kiểm tra này dự đoán trẻ sẽ thực hiện như thế nào sau này đối với một đo lường về nói hoặc ngôn ngữ hợp lệ khác. Những kiểu giá trị này thường được coi là những dạng mà bằng chứng toán học phải được trình bày trong sổ tay hướng dẫn. Các test không báo cáo một số dữ liệu định lượng về tính hiệu lực liên quan đến tiêu chí phân loại thì không được coi là công cụ được xây dựng tốt (Friberg, 2010).
3. Độ tin cậy. Một công cụ đáng tin cậy nếu các phép đo của nó nhất quán và chính xác hoặc gần với giá trị “thực”. Một cách khác để nói điều này là lượng sai số ngẫu nhiên trong phép đo là nhỏ. Độ tin cậy cũng có thể được đánh giá theo một số cách. Độ tin cậy của bài kiểm tra-kiểm tra lại, liên quan đến việc đưa bài kiểm tra vào hai thời điểm khác nhau cho cùng một người và tính toán mối quan hệ của hai điểm số. Các bài kiểm tra đo lường cao trên máy tính này được coi là ổn định. Độ tin cậy giữa các người đánh giá liên quan đến việc có hai giám khảo khác nhau đưa ra một bài kiểm tra cho cùng một người hoặc cho điểm bài kiểm tra của cùng một người. Việc đo điểm cao của thuộc tính này cho thấy rằng một bài kiểm tra không bị ảnh hưởng quá nhiều bởi các đặc điểm của người kiểm tra. Salvia và Ysseldyke (2000) cho rằng cần phải báo cáo cả hai kiểu giá trị này và để một phép thử được coi là đáng tin cậy, cả hai phải vượt quá hệ số tương quan 0,90 với khoảng tin cậy 95%. Độ tin cậy nhất quán nội bộ có nghĩa là các bài kiểm tra phụ của các đối tượng xếp hạng công cụ tương tự nhau hoặc rằng các phần của bài kiểm tra đang đo lường một cái gì đó tương tự với những gì được đo bằng tổng thể. Độ tin cậy của phân nửa, trong đó điểm của nửa đầu của bài kiểm tra được so sánh với điểm ở nửa sau và độ tin cậy chẵn lẻ, trong đó điểm số trên các mục số lẻ được so sánh với điểm số trên các mục số chẵn, là các biến thể của các thước đo tính nhất quán nội bộ. Độ tin cậy của biểu mẫu phổ biến phương trình có nghĩa là hai dạng của một công cụ (chẳng hạn như Dạng A và Dạng B của PPVT-IV; Dunn & Dunn, 2007) đo lường về cơ bản giống nhau.
4. Độ chính xác của chẩn đoán. Dollaghan (2004) đã thảo luận về yêu cầu các bài kiểm tra chứng minh mức độ chính xác mà họ chỉ định khách hàng vào các hạng mục chẩn đoán. Khi một bài kiểm tra hoặc công cụ khác được sử dụng với mục đích quyết định xem trẻ có mắc một chứng rối loạn cụ thể nào hay không, thì các biện pháp chẩn đoán chính xác là rất quan trọng để quyết định mức độ tin cậy của chúng ta về kết quả. Vấn đề này thường được gọi là thực hành lượng giá dựa trên bằng chứng. Các biện pháp báo cáo các thống kê này trong sổ tay của họ cung cấp cho chúng tôi thông tin mà chúng tôi cần để đưa ra quyết định về độ chính xác của chúng.
5. Tiêu chuẩn hóa. Điều này đề cập đến một tập hợp các nghiên cứu được thực hiện để xác định cách công cụ hoạt động trong một tập hợp hoặc mẫu định mức đã biết. Các đặc tính của mẫu định mức là rất quan trọng khi đánh giá một test tiêu chuẩn hóa. Mẫu phải đủ lớn, với đủ các cá thể ở từng độ tuổi được kiểm tra, để cho phép rút ra các kết luận thống kê. Hầu hết các cơ quan có thẩm quyền về xây dựng thử nghiệm (Salvia & Ysseldyke, 2000) đặt tối thiểu 100 đối tượng cho mỗi nhóm tuổi làm giới hạn thấp về cỡ mẫu thích hợp. Mẫu cũng phải đại diện hoặc chứa các cá nhân giống như đối tượng sẽ được làm bài test. Điều này có nghĩa là mẫu chuẩn phải (lý tưởng) phải được lấy từ nhiều hơn một khu vực địa lý, cả hai giới tính và một loạt các nền tảng kinh tế xã hội và dân tộc. Các bài test được tiêu chuẩn hóa chỉ ở một khu vực hoặc trên trẻ em từ một phạm vi hẹp về kinh tế hoặc chủng tộc ít mang tính đại diện hơn. Điều này có nghĩa là chúng chỉ dùng để so sánh công bằng cho những đứa trẻ giống như những đứa trẻ trong mẫu định mức. Pena, Spaulding và Plante (2006) đã thảo luận về tác động của việc đưa không chỉ những trẻ điển hình mà còn cả những trẻ có đầy đủ các khả năng ngôn ngữ vào các mẫu định mức, cho thấy rằng nếu mục đích của việc đánh giá là xác định các khả năng ngôn ngữ bị suy giảm, bao gồm cả trẻ với sự khiếm khuyết về ngôn ngữ trong mẫu định mức có thể làm giảm độ chính xác của nhận dạng. Các nhà lâm sàng nên kiểm tra các test chuẩn hóa một cách cẩn thận, tìm kiếm bằng chứng về kích thước, tính đại diện và thành phần của mẫu chuẩn khi xem xét tính hiệu lực của test được chuẩn hóa.
6. Các thước đo về độ hội tụ và sự biến thiên. Nếu một dân số tham gia bài test đủ lớn, điểm số của những người làm kiểm tra sẽ tạo thành một phân phối chuẩn, hoặc đường cong hình chuông. Đây là một lý do tại sao điều quan trọng đối với các test tiêu chuẩn là phải có các mẫu định mức lớn. Nếu không, phân phối điểm sẽ không nhất thiết gần đúng với đường cong phổ quát và chúng sẽ khó diễn giải hơn. Tuy nhiên, khi sử dụng các bài test chuẩn hóa, chúng ta thường giả định rằng điểm số trong dân số chuẩn được phân phối phổ quát. Khi đúng như vậy, hầu hết các điểm số sẽ gần với mức trung vị hoặc trung bình cộng của điểm cho bài kiểm tra. Đây là điểm số thu được bằng cách cộng tất cả các điểm số và chia cho số người đã làm kiểm tra. Chúng ta càng di chuyển ra xa mức trung bình theo một trong hai hướng, thì càng ít người trong dân số nhận được điểm số đó. Đó là lý do tại sao diện tích bên dưới đường cong hình chuông, đại diện cho phần trăm dân số đạt mỗi điểm, nhỏ hơn khi chúng ta di chuyển ra khỏi trung tâm. Giá trị trung bình là thước đo độ hội tụ- xu hướng trung tâm, hoặc xu hướng của hầu hết các điểm số giảm xuống gần giữa phân phối, thay vì xa hơn về phía đuôi hoặc kết thúc của nó. Nếu chúng ta đưa ra một bài kiểm tra cho 100 trẻ 4 tuổi có chức năng ngôn ngữ bình thường, hầu hết các trẻ sẽ đạt điểm gần bằng điểm trung bình của 100 điểm. Nhưng gần như thế nào là gần, và bao xa thì coi là xa? Việc chỉ biết thước đo xu hướng trung tâm, hoặc điểm trung bình, không cho chúng ta biết khi nào một điểm trở nên thực sự khác với một điểm thông thường. Đó là lý do tại sao chúng ta cũng cần một thước đo về sự thay đổi của điểm số của bài kiểm tra.
Hầu hết các bài kiểm tra tiêu chuẩn báo cáo, ngoài điểm trung bình cho mỗi nhóm tuổi, độ lệch chuẩn (SD). SD thể hiện sự khác biệt trung bình của điểm so với điểm trung bình. Nó cho biết điểm số điển hình giảm bao xa so với điểm trung bình. Trong một đường cong phổ quát, chúng ta kỳ vọng 68% điểm nằm trong khoảng 1 SD ở hai bên của giá trị trung bình cho bài test. Một nửa số điểm này cao hơn mức trung bình và một nửa thấp hơn. Chín mươi sáu phần trăm điểm số nằm trong khoảng 2 SD so với giá trị trung bình. Kết hợp thông tin từ điểm trung bình và điểm SD của một bài kiểm tra cho phép chúng ta đưa ra quyết định về mức điểm số của một đứa trẻ giảm đủ xa so với điểm trung bình, để đảm bảo rằng nó thực sự khác biệt đáng kể so với bình thường.
7. Sai số/phương sai tiêu chuẩn của phép đo. Bất kỳ điểm nào mà chúng ta thu được từ khách hàng trong một bài test thực sự chỉ là ước tính của điểm “thực” của khách hàng đó. Thật không may, chúng ta không bao giờ có thể biết được điểm số thực sự với độ tin cậy 100%, bởi vì bất cứ khi nào chúng ta đo bất kỳ thứ gì trong thế giới thực, luôn có một số sai số đo lường liên quan. Ví dụ, nếu bạn cân chính mình ba lần trong 1 ngày, ngay cả trên cùng một chiếc cân, các số đo sẽ khác nhau một chút. Cái nào trong số đó là cân nặng “thật” của bạn? Nếu bạn giống chúng tôi, bạn sẽ nói là người thấp nhất! Nhưng trên thực tế, không có điều nào là đúng cả. Tất cả chúng đều là ước tính do sai số vốn có đối với hành động đo lường.
Sai số đo lường xảy ra bởi vì hành vi của con người không bao giờ là bất biến. Giả sử bạn làm bài kiểm tra đánh máy. Nếu bạn làm như vậy ba lần, một lần nữa, bạn sẽ nhận được ba điểm hơi khác nhau. Không có điểm thực sự của bạn, nhưng cả ba đều là ước tính của nó. Một thử nghiệm được xây dựng tốt sẽ tính đến sự biến đổi không thể tránh khỏi này của con người bằng cách báo cáo sai số đo lường tiêu chuẩn (SEM). SEM đại diện cho SD có được nếu một người có năng lực trung bình làm bài kiểm tra nhiều lần và phân phối điểm của người đó được vẽ biểu đồ.
Về mặt lý thuyết, chúng sẽ tạo thành một đường cong phân phối chuẩn , với giá trị trung bình là điểm “thực”. Sáu mươi tám phần trăm số lần, điểm quan sát của đối tượng nằm trong khoảng 1 SD hoặc 1 SEM của điểm thực lý thuyết này. Chín mươi sáu phần trăm số lần, điểm số quan sát được nằm trong khoảng 2 SD hoặc 2 SEM của điểm thực này. Trong thực tế, SEM được tính toán từ các hệ số tin cậy được báo cáo cho kiểm tra. Bởi vì trong thực tế, chúng ta không bao giờ có thể biết được điểm số thực sự của một người, chúng ta sử dụng SEM để xác định dải tin cậy hoặc khoảng tin cậy xung quanh điểm số quan sát được. Chúng ta sử dụng khoảng này để ước tính vị trí của điểm thực. Công thức toán học cho ước tính này như sau:
Khoảng tin cậy cho điểm thực= điểm số quan sát ± SEM
Các bài test tiêu chuẩn được xây dựng tốt, cung cấp thông tin về SEM trong sổ tay hướng dẫn của mình, và thảo luận cách sử dụng nó để tính khoảng tin cậy cho điểm thực của một đối tượng. Những bài test này cho phép chúng ta phát biểu với một mức độ tin cậy nhất định rằng, dựa trên điểm số quan sát được, điểm “thực sự” của đối tượng nằm trong một khoảng nhất định. Thông thường, các thử nghiệm cung cấp thông tin SEM cung cấp một biểu đồ trên biểu mẫu thử nghiệm mà trên đó khoảng này có thể được vẽ dưới dạng khoảng tin cậy.
SEM và khoảng tin cậy rất quan trọng, bởi vì chúng nhắc nhở chúng ta rằng điểm của khách hàng thực sự đại diện cho một loạt biểu hiện có thể xảy ra, thay vì một điểm duy nhất. Chúng cũng rất quan trọng để so sánh biểu hiện theo thời gian. Giả sử một khách hàng đạt điểm tiêu chuẩn là 86 trên PPVT-IV. Nếu sách hướng dẫn kiểm tra cho chúng ta biết rằng SEM xung quanh điểm này là 7 điểm, thì với độ tin cậy 90%, hoặc 9 lần trên 10, chúng ta có thể nói rằng điểm thực sự của đối tượng là từ 79 đến 93. Điều gì sẽ xảy ra nếu chúng ta kiểm tra sau một khóa học can thiệp và nhận thấy rằng điểm số của khách hàng tăng lên 92? Sự can thiệp có mang lại lợi ích thực sự không? Chà, nếu chúng ta tính đến SEM, chúng ta không thể thực sự khẳng định rằng can thiệp đã làm được, bởi vì điểm số thứ hai nằm trong khoảng tin cậy cho điểm số đầu tiên. Để thực sự tin rằng tiến bộ đã diễn ra, chúng ta sẽ cần thấy điểm kiểm tra sau đã di chuyển lên trên khoảng tin cậy. Nói chung, do cấu trúc của chúng và khả năng không tránh khỏi của sai số đo lường, các bài test tiêu chuẩn hóa không phải là cách tốt nhất để đo lường sự thay đổi trong một chương trình can thiệp (McCauley & Swisher, 1984), mặc dù chúng có thể được sử dụng nếu có sẵn thông tin SEM. Một số phương pháp tốt hơn để xem xét sự tiến bộ trong can thiệp được thảo luận khi chúng ta nói về các cách tiếp cận khác để lượng giá.
8. Điểm tham chiếu định mức. Điểm thô, số tiểu mục mà khách hàng đã nhận trong một bài kiểm tra tiêu chuẩn, không thể được giải thích nếu không tham chiếu đến các chỉ tiêu được đưa ra trong sổ tay hướng dẫn. Chỉ bằng cách so sánh điểm thô của khách hàng với điểm của các chủ đề khác trong mẫu định mức thì điểm kiểm tra mới có ý nghĩa. Có thể thực hiện ba loại so sánh: điểm tiêu chuẩn, thứ hạng phần trăm và điểm tương đương.
a. So sánh tiêu chuẩn. Những điều này liên quan đến việc so sánh điểm số thô của một đứa trẻ với điểm số của những đứa trẻ trong cùng một quần thể, nghĩa là cùng độ tuổi, tuổi trí tuệ hoặc lớp học. Ưu điểm chính của những điểm số này là chúng đại diện cho các đơn vị bằng nhau trong phạm vi điểm số. Điểm tiêu chuẩn 85 cũng khác với 100 vì điểm tiêu chuẩn 115 là từ 130. Đặc tính này làm cho những điểm này dễ thao tác về mặt thống kê, vì vậy chúng tốt nhất cho mục đích nghiên cứu.
Chúng cũng hữu ích để quyết định xem hai điểm số (chẳng hạn như điểm số trước can thiệp và sau can thiệp) thực sự chênh lệch như thế nào. Có một số kiểu so sánh tiêu chuẩn:
(1) Điểm Z. Điểm Z chỉ đơn giản là số đơn vị SD mà điểm của khách hàng rơi vào điểm trung bình cho dân số đó. Nhắc nhở rằng một đơn vị SD phản ánh độ lệch trung bình so với trung bình trong dân số chuẩn. Trong hình dưới, bạn có thể thấy rằng khoảng 34 % trẻ em làm bài kiểm tra, về mặt lý thuyết, sẽ kiếm được điểm giữa trung bình và 1 SD cao hơn nó, và 34% sẽ nhận được điểm giữa trung bình và 1 SD thấp hơn nó. Vì vậy, về mặt lý thuyết, khoảng 68% dân số sẽ đạt điểm trong vòng 1 SD ở cả hai phía của điểm trung bình hoặc điểm trung bình cho bài kiểm tra. Điểm Z có giá trị trung vị là 0 và SD là 1, do đó, điểm Z là +1 có nghĩa là một đứa trẻ đạt 1 SD cao hơn trung vị đối với dân số tham chiếu của mình. Điểm Z là -2 có nghĩa là điểm số giảm 2 SD xuống dưới trung bình.
(2) Điểm T. Điểm T rất giống điểm Z. Giá trị trung được đặt tùy ý ở 50 và SD là 10. Vì vậy, một khách hàng có điểm T là 35 sẽ thực hiện ở 1,5 SD dưới mức trung bình, tương đương với điểm Z là -1,5.
(3) Điểm tỷ lệ. Thông thường, một bài kiểm tra chỉ định điểm trung bình cho một giá trị cụ thể, chẳng hạn như 100 và SD cho một giá trị, chẳng hạn như 15 điểm. Nhiều bài kiểm tra IQ được xây dựng theo cách này, với điểm tiêu chuẩn là 100 đại diện cho điểm trung bình và 15 điểm đại diện cho SD. Mẫu này của điểm theo tỷ lệ được gọi là tối thiểu được gọi là chỉ số độ lệch IQ hoặc thương số phát triển (DQ). (Nhớ lại rằng chỉ số IQ là viết tắt của “chỉ số thông minh” và được tính bằng cách chia tuổi trí tuệ cho tuổi sinh học và nhân kết quả với 100.) Đó là lý do tại sao một đứa trẻ có độ tuổi trí tuệ bằng với tuổi của nó sẽ có chỉ số IQ hoặc DQ là 100 : nếu tuổi tâm thần [MA] và tuổi sinh học [CA] bằng nhau, thì: MA/CA=1; 1×100= 100
Nhiều bài kiểm tra ngôn ngữ cũng mang lại điểm DQ. Trong một bài kiểm tra với hình thức cho điểm tiêu chuẩn này, điểm từ 85 đến 115 sẽ nằm trong khoảng 1 SD so với trung bình, rõ ràng là trong phạm vi bình thường. Điểm tiêu chuẩn từ 70 đến 84 sẽ giảm hơn 1 nhưng thấp hơn 2 SD dưới trung bình, v.v.
(4) Stanine. Các điểm Stanine, là một cách để dịch lại điểm thô thành thang điểm chín, là điểm số tiêu chuẩn được chuẩn hóa với trung là 5 và SD là 2. Ngoại trừ hai điểm cực trị (1 và 9), mỗi stanine đại diện cho khoảng ½ SD. Stanine 1 và 9 bao gồm tất cả các điểm có từ 1¾ SD trở lên so với trung bình. Stanine thứ năm bao gồm 20% giữa của phân phối. Các ngăn thứ sáu và thứ tư, mỗi ngăn chứa 17% dân số, và cứ tiếp tục như vậy đến ngăn thứ nhất và thứ chín, mỗi ngăn chứa 4 % (xem Hình 2.11). Điểm số Stanine là một cách tốt để tóm tắt thành tích của một đứa trẻ một cách rộng rãi, nhưng chúng có ý nghĩa tốt nhất khi điểm số của đứa trẻ rơi vào gần giữa của mỗi điểm Stanine. Dunn và Dunn (2006) đã thảo luận thêm về các cách sử dụng khác nhau của những điểm số này.
(5) Đường cong thông thường tương đương. Những điểm số này thường được các chương trình giáo dục của tiểu bang Mĩ sử dụng như một phương pháp báo cáo. Tương đương đường cong thông thường (NCE) nằm trong khoảng từ 1 đến 99, với giá trị trung bình là 50 và SD là 21,06. NCE là 1, 50 và 99 tương ứng với các cấp phân vị 1, 50 và 99, nhưng các giá trị NCE khác không xếp thẳng hàng với các cấp phân vị (Williams, 2006).
b. Xếp hạng phần trăm. Xếp hạng phần trăm cho biết tỷ lệ dân số bình thường đạt điểm thấp hơn trong các chủ đề của bài kiểm tra. Điểm trung bình cho một bài kiểm tra phải là điểm ở phân vị thứ 50. Điểm ở phân vị thứ 10 có nghĩa là chỉ có 10% dân số mẫu chuẩn đạt được dưới điểm của khách hàng. Hình dưới cho cách điểm số phân vị phù hợp với các điểm số tiêu chuẩn khác bằng cách chỉ ra cách điểm số phân vị liên quan đến sự phân bố lý thuyết của các điểm số trong một đường cong chuẩn. Điểm xếp hạng phần trăm dễ hiểu và dễ hình dung, và cũng dễ diễn giải, thường rất hữu ích để thảo luận về thành tích của trẻ với cha mẹ và giáo viên. Nhưng chúng không đại diện cho một thang đo khoảng bằng nhau, như các thang điểm số tiêu chuẩn. Như vậy, khoảng cách giữa các cấp- bậc không có lượng bằng nhau.
c. Điểm tương đương. Loại so sánh thứ ba mà một bài kiểm tra tiêu chuẩn hóa có thể thực hiện dựa trên điểm số tương đương. Chúng phân loại điểm số thô theo cấp độ, chẳng hạn như tuổi (điểm tương đương với tuổi) hoặc cấp (điểm tương đương với lớp). Điểm tương đương đại diện cho điểm thô, mà nó là điểm trung vị hoặc điểm ở giữa [trên vạch chia], nghĩa là các đối tượng trong mẫu quy chuẩn đạt được ở độ tuổi hoặc cấp/ lớp nào đó. Điều quan trọng cần lưu ý là trong các phép so sánh điểm tương đương, đứa trẻ không được so sánh với những đứa khác trong một quần thể tương tự, tức là với những đứa trẻ cùng tuổi hoặc cùng lớp. Thay vào đó, điểm của trẻ được gán cho mức độ đại diện cho độ tuổi hoặc lớp mà điểm thô là điển hình. Vì vậy, một đứa trẻ đạt điểm thô là 55 trong PPVT-IV, chẳng hạn, sẽ nhận được điểm tương đương với độ tuổi là 4 tuổi, 4 tháng. Nếu đứa trẻ này thực sự 7 tuổi, nó sẽ không được so sánh với những đứa trẻ 7 tuổi khác khi điểm số tương đương tuổi được báo cáo.
Sự khác biệt quan trọng nhất giữa điểm tương đương và điểm tiêu chuẩn là chỉ có điểm tiêu chuẩn mới bao gồm một số thước đo của sự thay đổi bình thường. Nếu chúng ta cần quyết định xem điểm của một đứa trẻ có thấp hơn đáng kể so với kỳ vọng về độ tuổi hay độ tuổi tâm thần phi ngôn ngữ hay không, chúng ta cần biết sự thay đổi bình thường xung quanh ý nghĩa của bài kiểm tra liên quan đến điều gì. Nếu không, chúng ta không biết điểm cần thấp đến mức nào để nó thể hiện mức khiếm khuyết đáng kể. Hãy xem điều này có thể hoạt động như thế nào trong thực tế.
Giả sử một đứa trẻ nhận được điểm thô là 29 trong PPVT IV (Dunn & Dunn, 2007). Điểm này tương ứng với độ tuổi tương đương là 2 tuổi, 4 tháng. Điều gì sẽ xảy ra nếu khách hàng của chúng tôi đã dùng PPVT-IV là 3 tuổi, 6 tháng?
Rõ ràng điểm số của trẻ thấp hơn tuổi. Điều đó có nghĩa là trẻ bị khiếm khuyết vốn từ vựng hiểu? Chúng ta thực sự không thể biết được, bởi vì điểm số tương đương với độ tuổi không đưa ra bất kỳ thước đo nào về sự biến thiên bình thường được thấy ở trẻ em trong quần thể khách hàng, tức là ở cùng độ tuổi. Có lẽ mức độ thay đổi đó là điển hình của những đứa trẻ 3 ½ tuổi làm bài kiểm tra này. Chỉ một điểm số tiêu chuẩn mới có thể cho chúng ta biết liệu thành tích của đứa trẻ có khác biệt đáng kể so với điểm số của những đứa trẻ khác ở độ tuổi đó hay không. Trên thực tế, điểm tiêu chuẩn tương ứng với điểm thô là 29 đối với trẻ 3 tuổi rưỡi là 87, với thứ hạng phần trăm là 19. Điểm này, như đã thấy, nằm trong phạm vi bình thường, trong vòng 1 SD so với mức vị ở độ tuổi của trẻ đó và cao hơn phân vị thứ 10, và không biện minh cho việc dán nhãn đứa trẻ là khiếm khuyết vốn từ vựng hiểu.
Cũng nên nhớ rằng điểm tương đương, không giống như điểm tiêu chuẩn, không đại diện cho các khoảng số lượng thời gian bằng nhau trên thang điểm. Trẻ 3 tuổi chậm 1 năm không giống như trẻ 9 tuổi chậm 1 năm. Vì những lý do này, điểm số tương đương với độ tuổi đơn giản là không thích hợp để quyết định xem một đứa trẻ có bị khiếm khuyết đáng kể hay không. Chỉ một phép so sánh tiêu chuẩn mới cho phép chúng ta đưa ra phán đoán rằng thành tích của trẻ thấp hơn đáng kể so với mức bình thường. Khi mức khiếm khuyết đáng kể này đã được thiết lập, chúng ta có thể sử dụng điểm số tương đương tuổi làm thước đo dễ hiểu để thảo luận về hoạt động của trẻ với cha mẹ và giáo viên và như một phương tiện để xác định khả năng trên các lĩnh vực ngôn ngữ (xem Hình 2.2 và 2.3). Nhưng điều này chỉ được chấp nhận khi điểm chuẩn của trẻ có thể được chứng minh là dưới mức bình thường đáng kể. Nếu thước đo so sánh tiêu chuẩn nằm trong phạm vi bình thường, thì không có lý do gì để sử dụng hoặc thảo luận về điểm tương đương với độ tuổi. Đứa trẻ đang hoạt động trong phạm vi biến thiên bình thường trong bài kiểm tra này và không cần phải nói gì thêm về nó. Báo cáo độ tuổi tương đương trong trường hợp này sẽ gây hiểu lầm.
HÌNH Mối quan hệ giữa điểm thu được và đường cong chuẩn.

Các test tiêu chuẩn hóa, như chúng ta đã thấy, cần được đánh giá để quyết định xem liệu chúng có đáp ứng các tiêu chí được chấp nhận hay không để biện minh cho việc sử dụng chúng. Nếu họ không cung cấp các hướng dẫn và thông tin rõ ràng, rõ ràng về độ tin cậy, tính hợp lệ, SEM và điểm so sánh được tiêu chuẩn hóa, chúng ta thực sự không có lý khi sử dụng chúng vì chúng không hoàn thành vai trò mà chúng có ý định phục vụ. Mặc dù cách đây vài năm, rất khó để tìm thấy các test trong lĩnh vực của chúng ta đáp ứng các tiêu chí này, nhưng tình hình đang được cải thiện khi chúng ta trở thành người sử dụng có hiểu biết hơn về nội dung test. Chỉ khi các nhà lâm sàng yêu cầu các công cụ được tiêu chuẩn hóa tốt thì thị trường mới cung cấp chúng. Chúng tôi có trách nhiệm xem xét các test có sẵn và chỉ chọn những công cụ được xây dựng tốt nhất. Friberg (2010); Pena, Spaulding, và Plante (2006); và Salvia và Ysseldyke (2000) cung cấp hướng dẫn hữu ích cho các nhà lâm sàng trong việc đánh giá các test tiêu chuẩn hóa.
Nhưng ngay cả khi một test được xây dựng tốt, các test tiêu chuẩn hóa có thể cung cấp một lượng giá công bằng không? Nhiều bài đã được viết về những nguy hiểm cố hữu của việc sử dụng các bài kiểm tra tiêu chuẩn để đo lường hiệu quả ngôn ngữ (Bishop & MacDonald, 2009; Friberg, 2010; Spaulding, Plante, & Farinella, 2006). Có nên bãi bỏ hoàn toàn test tiêu chuẩn hóa? Bất kỳ ai đã từng phải xem xét xem trẻ có đủ điều kiện nhận các dịch vụ bằng cách ghi hồ sơ các khiếm khuyết đều biết rằng việc dùng test tiêu chuẩn là điều cần thiết cho mục đích này. Trên thực tế, test tiêu chuẩn là cách duy nhất hợp lệ, đáng tin cậy và công bằng để xác định rằng một đứa trẻ khác biệt đáng kể so với những đứa trẻ khác.
Chúng ta có thể làm ba điều để giúp đảm bảo tính công bằng của test tiêu chuẩn hóa với khách hàng của chúng ta. Điều đầu tiên là liên quan đến việc lựa chọn các bài test đáp ứng các tiêu chí được chấp nhận, để được coi là hợp lý về mặt tâm lý học. Điều thứ hai là đòi hỏi việc giải thích các kết quả kiểm tra một cách hợp lý và thận trọng. Nếu chúng ta hiểu các khái niệm liên quan đến test tiêu chuẩn hóa được nêu trong phần này, chúng ta sẽ có khả năng giải quyết cả hai vấn đề này. Điều thứ ba liên quan đến việc sử dụng các kết quả test tiêu chuẩn hóa được đưa ra.
Các bài test tiêu chuẩn hóa được thiết kế để cho biết liệu một đứa trẻ có khác biệt đáng kể so với một quần thể bình thường hay không. Để quyết định liệu có sự khác biệt có ý nghĩa giữa điểm của khách hàng và điểm của các bạn cùng lứa hay không, một bài test tiêu chuẩn hóa là phương pháp được ưa chuộng (Spaulding, Swartwout Szulga, & Figueroa, 2012). Nhưng một khi sự khác biệt đáng kể đó đã được thiết lập, các hình thức lượng giá khác là cần thiết để thiết lập cơ sở về chức năng, xác định mục tiêu can thiệp và đo lường tiến độ trong một chương trình can thiệp. Các test tiêu chuẩn hóa không được thiết kế cho bất kỳ mục đích nào trong số này và chúng không phải là phương pháp tiếp cận hợp lệ hoặc hiệu quả để thu thập loại hình này. Một khi sự khiếm khuyết là đáng kể trong hoạt động giao tiếp, đã được thiết lập thông qua việc sử dụng một số hạn chế các thử nghiệm tiêu chuẩn hóa, thì nên sử dụng các công cụ khác. Các phần sau đây mô tả một số công cụ khác này.
Phỏng vấn và bảng câu hỏi
Cha mẹ, giáo viên và những người lớn khác biết rõ về một đứa trẻ có thể cung cấp nhiều thông tin để bổ sung cho lượng giá lâm sàng trực tiếp của chúng ta. Ngoài các cuộc phỏng vấn và bảng câu hỏi do nhà lâm sàng phát triển mà chúng ta đã thảo luận trước đó, có rất nhiều công cụ được thiết kế để thu thập thông tin từ người lớn sống cùng của trẻ. Nhiều phương pháp có cùng đặc tính đo lường tâm lý của một bài test được tiêu chuẩn hóa tốt, bao gồm độ tin cậy, tính hợp lệ, độ nhạy và độ đặc hiệu đã được thiết lập. Các công cụ có các đặc tính này có thể rất hữu ích trong phần đánh giá của quá trình thẩm định, trong việc giúp điền vào bức tranh về mức độ hoạt động của trẻ, ngoài những gì có thể thu thập được trong “ảnh chụp nhanh” lâm sàng. Thông tin thu được từ các cuộc phỏng vấn và bảng câu hỏi tiêu chuẩn cũng có thể hữu ích trong phần đánh giá của quá trình thẩm định, bằng cách đưa ra bức tranh chân dung chi tiết hơn về hoạt động cơ bản mà chúng ta có thể đạt được trong thời gian giới hạn với trẻ. Dưới đây là một vài ví dụ về các công cụ tiêu chuẩn này.
| Các ví dụ về các công cụ phỏng vấn và bảng câu hỏi tiêu chuẩn -Bản kiểm kê phát triển giao tiếp MacArthur-Bates-III (Penson và cộng sự, 2007) -Danh sách Kiểm tra Hành vi Trẻ em (Achenbach & Edelbrook, 2000) -Danh sách Kiểm tra Giao tiếp Trẻ em-2 Ấn bản Hoa Kỳ (Bishop, 2006) -Bảng kiểm tra Giao tiếp và Hành vi Tượng trưng cho Trẻ sơ sinh (Wetherby & Prizant, 2003) -Khảo sát phát triển ngôn ngữ (Rescorla, 1989) -Bảng câu hỏi về giao tiếp xã hội (Rutter, Bailey, & Lord, 2003) -Thang đo phản ứng xã hội (Constantino, 2005) -Thang đo hành vi thích ứng Vineland -II (Sparrow, Cicchetti, & Balla, 2005) |
Các thang phát triển
Thang đo phát triển là công cụ phỏng vấn hoặc quan sát lấy mẫu các hành vi từ một giai đoạn phát triển cụ thể. Thông thường chúng không được tiêu chuẩn hóa hoàn toàn, ở chỗ chúng không cung cấp điểm số so sánh tiêu chuẩn, vì vậy chúng không thích hợp để đưa ra quyết định ban đầu về việc liệu một đứa trẻ có khiếm khuyết đáng kể trong giao tiếp hay không. Nhưng chúng là các thủ tục chính thức theo nghĩa là chúng cung cấp một số hướng dẫn được nêu rõ ràng để quản lý và thường cung cấp một số loại điểm tương đương. Các thang đo phát triển như Bản kiểm kê có trình tự về phát triển giao tiếp đã được sửa đổi (Hedrick, Prather, & Tobin, 1984), Bài kiểm tra về kỹ năng ngôn ngữ tổng hợp và kỹ năng đọc viết của sinh viên (Nelson, Howes, & Anderson, 2016), và Thang điểm đo ngôn ngữ nổi bật về khả năng diễn đạt – hiểu -3 (Bzoch, League, & Brown, 2003) thường được các nhà trị liệu ngôn ngữ sử dụng. Sẽ là lạm dụng các công cụ này, khi nhầm chúng với các bài test tiêu chuẩn hóa hoặc các thước đo chính thức về nhận thức. Bởi vì chúng chỉ cung cấp thông tin về điểm số tương đương, chúng không thể được sử dụng để ghi lại sự tồn tại của một khiếm khuyết đáng kể. Tuy nhiên, khi đã xác định được khiếm khuyết đó, các thang đo này có thể hữu ích cho việc thiết lập chức năng cơ bản bằng cách hiển thị mức độ tương đương chung về độ tuổi mà trẻ đang hoạt động trong các lĩnh vực mà thang này đánh giá.