Thế nào là Điều kiện hóa từ kết quả (Operant Conditioning)

Thế nào là Điều kiện hóa từ kết quả (Operant Conditioning)?
Điều kiện hóa từ kết quả (đôi khi còn được gọi là điều kiện hóa công cụ) là một phương thức
học tập xuất hiện thông qua quá trình thưởng phạt các hành vi. Qua điều kiện hóa từ kết quả,
một liên kết được tạo dựng giữa hành vi và một kết quả do hành vi đó mang lại.
Operant conditioning (sometimes referred to as instrumental conditioning) is a method of

learning that occurs through rewards and punishments for behavior. Through operant
conditioning, an association is made between a behavior and a consequence for that behavior.
Nguồn: loadtve
Ví dụ, khi một con chuột trong phòng thí nghiệm nhấn
nút màu xanh, nó sẽ nhận được các viên thức ăn coi như
phần thưởng, khi nó nhấn nút màu đỏ, cái nó nhận được
là một cú sốc điện.
For example, when a lab rat presses a blue button, he receives a food pellet as a reward, but
when he presses the red button he receives a mild electric shock.
Kết quả là nó học cách bấm nút màu xanh và tránh bấm nút màu đỏ.
As a result, he learns to press the blue button but avoid the red button.
Lịch sử Điều kiện hóa từ kết quả. The History of Operant Conditioning
Điều kiện hóa từ kết quả được gọi tên lần đầu tiên bởi nhà tâm lý học hành vi B. F. Skinner, bởi
vậy đôi lúc quá trình này còn được gọi là Điều kiện hóa Skinner. Là một nhà tâm lý học hành vi,
Skinner tin rằng không cần thiết cứ phải đào sâu vào những suy nghĩ hay động lực bên trong để
giải thích hành vi. Thay vào đó, ông cho rằng ta chỉ nên nhìn vào cái thể hiện ra bên ngoài,
những nguyên nhân có thể quan sát được từ hành vi con người.
Operant conditioning was coined by behaviorist B.F. Skinner, which is why you may
occasionally hear it referred to as Skinnerian conditioning. As a behaviorist, Skinner believed
that it was not really necessary to look at internal thoughts and motivations in order to explain
behavior. Instead, he suggested, we should look only at the external, observable causes of
human behavior.
Suốt nửa đầu thế kỷ XX, thuyết hành vi trở thành phân ngành chủ đạo trong tâm lý học. Những
ý tưởng của John B. Watson đã thống lĩnh trường phái tư tưởng này từ những ngày đầu. Watson
tập trung vào những nguyên lý của điều kiện hóa cổ điển, ông rất nổi tiếng với phát biểu cho
rằng mình có thể khiến bất cứ người nào, với bất kỳ nền tảng học vấn nào, trở thành điều ông
muốn thông qua huấn luyện.
Through the first part of the 20th-century, behaviorism had become a major force within
psychology. The ideas of John B. Watson dominated this school of thought early on. Watson
focused on the principles of classical conditioning, once famously suggesting that he could take
any person regardless of their background and train them to be anything he chose.
Nguồn: My Room
Trong khi những nhà tâm lý học hành vi đời đầu tập trung
mối quan tâm của họ vào quá trình học tập thông qua liên
kết thì Skinner lại hứng thú hơn với cách mà kết quả có
được từ hành động của con người ảnh hưởng lên hành vi
của họ.
Where the early behaviorists had focused their interests on associative learning, Skinner was
more interested in how the consequences of people’s actions influenced their behavior.
Skinner sử dụng thuật ngữ “operant” để chỉ tất cả “các hành vi chủ động được thực hiện trong
một bối cảnh nhất định nhằm đưa đến một kết quả.” Nói cách khác, học thuyết của Skinner giải
thích cách ta tiếp thu và thực hiện được một loạt các hành vi qua học tập mà có, mỗi hành vi này
đều có thể được quan sát hàng ngày.
Skinner used the term operant to refer to any “active behavior that operates upon the
environment to generate consequences.” In other words, Skinner’s theory explained how we
acquire the range of learned behaviors we exhibit each and every day.
Học thuyết của ông bị ảnh hưởng lớn từ công trình của nhà nghiên cứu Edward Thorndike,
người đã đề xuất “Định luật về hiệu quả”.
His theory was heavily influenced by the work of psychologist Edward Thorndike, who had
proposed what he called the law of effect.
Theo như nguyên lý này, hành động đưa đến những kết quả mong muốn sẽ dễ có khả năng lặp
lại hơn trong khi những hành động đưa đến kết quả không mong muốn sẽ ít có khả năng lặp lại.
According to this principle, actions that are followed by desirable outcomes are more likely to
be repeated while those followed by undesirable outcomes are less likely to be repeated.
Điều kiện hóa từ kết quả dựa trên một giả thuyết khá đơn giản – những hành động theo sau bởi
một tác nhân củng cố sẽ trở nên vững chắc hơn và dễ có khả năng xuất hiện trở lại trong tương
lai. Nếu bạn kể một câu chuyện cười trong lớp và tất cả mọi người đều cười thì bạn sẽ có khả
năng kể lại câu chuyện đó trong tương lai.
Operant conditioning relies on a fairly simple premise – actions that are followed by
reinforcement will be strengthened and more likely to occur again in the future. If you tell a
funny story in class and everybody laughs, you will probably be more likely to tell that story
again in the future.
Ngược lại, hành động theo sau đó bởi một hình phạt hoặc một hậu quả xấu sẽ bị yếu đi và ít có
khả năng xuất hiện lại trong tương lai. Nếu bạn kể cũng câu chuyện đó ở một lớp mà mà lần này
chẳng ai cười thì lần tới khả năng cao là bạn sẽ không kể câu chuyện đó nữa.
Conversely, actions that result in punishment or undesirable consequences will be weakened

and less likely to occur again in the future. If you tell the same story again in another class but
nobody laughs this time, you will be less likely to repeat the story again in the future.
Các dạng hành vi. Types of Behaviors
Skinner phân biệt 2 dạng hành vi. Skinner distinguished between two different types of
behaviors
– Hành vi phản ứng là những hành vi xuất hiện một cách tự động và linh hoạt, như rụt tay khi
chạm vào bếp nóng hoặc giật giật chân khi bác sĩ gõ vào khớp đầu gối. Bạn không cần phải học
những hành vi dạng này, đơn giản là chúng xuất hiện một cách tự động không cần sự điều khiển
của ý thức.
Respondent behaviors are those that occur automatically and reflexively, such as pulling your
hand back from a hot stove or jerking your leg when the doctor taps on your knee. You don’t
have to learn these behaviors, they simply occur automatically and involuntarily.
– Các hành vi hình thành từ kết quả, mặt khác, lại là những hành vi có được dưới sự kiểm
soát có ý thức của con người. Một số có thể xuất hiện khá tự phát và số khác lại có mục đích rõ
ràng, nhưng kết quả/hay hậu quả của những hành động này sẽ tác động đến khả năng xuất hiện
hay không xuất hiện lại những hành động này trong tương lai. Hành động của chúng ta đặt trong
một bối cảnh và những kết quả của hành động đóng một vai trò quan trọng trong quá trình học
tập.
Operant behaviors, on the other hand, are those under our conscious control. Some may occur
spontaneously and others purposely, but it is the consequences of these actions that then
influence whether or not they occur again in the future. Our actions on the environment and the
consequences of that action make up an important part of the learning process.
Mặc dù điều kiện hóa cổ điển có thể bao quát được các hành vi của đối tượng phản ứng nhưng
Skinner nhận ra rằng nó không thể thể hiện toàn bộ quá học tập rộng lớn. Thay vào đó, Skinner
cho rằng điều kiện hóa từ kết quả nắm giữ một vai trò lớn lao hơn rất nhiều.
While classical conditioning could account for respondent behaviors, Skinner realized that it
could not account for a great deal of learning. Instead, Skinner suggested that operant
conditioning held far greater importance.
Skinner phát minh ra nhiều thiết bị khác nhau khi ông còn trẻ và chính những kỹ năng này đã
được áp dụng rất nhiều trong các nghiên cứu sau này về điều kiện hóa từ kết quả.
Skinner invented different devices during his boyhood and he put these skills to work during his
studies on operant conditioning.
Ông tạo ta một thứ gọi là Hộp điều kiện hóa từ kết quả, mà nay ta vẫn gọi là Hộp Skinner. Hộp
này về cơ bản là một cái hộp có thể nhốt các con vật nhỏ như chuột hay bồ câu. Hộp này cũng
có một then chắn hay chốt sắt mà con vật nó thể nhấn để nhận được phần thưởng.
He created a device known as an operant conditioning chamber, most often referred to today as
a Skinner box. The chamber was essentially a box that could hold a small animal such as a rat
or pigeon. The box also contained a bar or key that the animal could press in order to receive a
reward.
Để theo dõi phản ứng, Skinner cũng đã chế tạo ra một thiết bị có tên máy ghi lũy tích. Thiết bị
này ghi lại những phản ứng bằng đường vẽ hướng dần lên trên, từ đây ta có thể đọc được các
mức độ phản ứng thông qua độ dốc của đường ghi này.
In order to track responses, Skinner also developed a device known as a cumulative recorder.
The device recorded responses as an upward movement of a line so that response rates could be
read by looking at the slope of the line.
Hộp Skinner và Máy ghi tích lũy. Nguồn: Learning-
Theorists
Các thành tố của Điều kiện hóa từ kết quả. Components
of Operant Conditioning
Có một số khái niệm cơ bản trong Điều kiện hóa từ kết quả. There are several key concepts in
operant conditioning.
Củng cố trong điều kiện hóa từ kết quả. Reinforcement in Operant Conditioning
Củng cố là bất kỳ sự kiện nào làm gia tăng hoặc thúc đẩy hành vi theo sau nó. Có 2 loại củng
cố: Reinforcement is any event that strengthens or increases the behavior it follows. There are
two kinds of reinforcers:
– Củng cố tích cực là những sự kiện hay kết quả tốt thể hiện sau khi hành vi được thực hiện.
Trong những tình huống củng cố tích cực, một phản ứng hoặc hành vi được củng cố bằng cách
thêm thứ gì đó, như một lời khen hay một phần thưởng trực tiếp. Ví dụ, nếu bạn làm tốt ở chỗ
làm và sếp bạn cho bạn tiền thưởng.
Nguồn: Greycaps
Positive reinforcers are favorable events or outcomes that are
presented after the behavior. In situations that reflect positive
reinforcement, a response or behavior is strengthened by the
addition of something, such as praise or a direct reward. For
example, if you do a good job at work and your manager gives you a bonus.
– Củng cố tiêu cực là việc loại bỏ một sự kiện hay kết quả không mong muốn sau khi một hành
vi được thực hiện. Trong những tình huống này, một phản ứng được củng cố bởi việc loại bỏ
thứ gì đó khó chịu. Ví dụ, nếu con bạn la hét giữa tiệm tạp hóa, nhưng lại ngừng la hét khi bạn
đưa cho nó thứ gì đó hay ho nó thích, thì lần tới nếu con khóc, bạn sẽ lại đưa cho con một thứ
tương tự. Hành vi của bạn được dẫn dắt bởi việc loại bỏ đi sự kiện khó chịu (tiếng la khóc của
con), nhân tố tiêu cực ảnh hưởng lên hành vi của bạn.
Negative reinforcers involve the removal of an unfavorable events or outcomes after the display
of a behavior. In these situations, a response is strengthened by the removal of something
considered unpleasant. For example, if your child starts to scream in the middle of the grocery
store, but stops once you hand him a treat, you will be more likely to hand him a treat the next
time he starts to scream. Your action led to the removal of the unpleasant condition (the child
screaming), negatively reinforcing your behavior.
Ở cả hai trường hợp củng cố trên, hành vi đều có sự gia tăng. In both of these cases of
reinforcement, the behavior increases.
Trừng phạt trong điều kiện hóa từ kết quả. Punishment in Operant Conditioning
Trừng phạt là sự hiện diện của một sự kiện hoặc kết quả bất lợi làm giảm thiểu hành vi đi kèm
sau đó. Có 2 loại trừng phạt:
Punishment is the presentation of an adverse event or outcome that causes a decrease in the
behavior it follows. There are two kinds of punishment:
– Trừng phạt tích cực, có lúc được gọi là trừng phạt ứng dụng, là đưa ra một sự kiện hay kết
quả khó chịu để làm giảm đi phản ứng đi kèm sau đó. Phát vào mông con trẻ khi chúng cư xử
không đúng là ví dụ về củng cố ứng dụng.
Positive punishment, sometimes referred to as punishment by application, presents an

unfavorable event or outcome in order to weaken the response it follows. Spanking for
misbehavior is an example of punishment by application.
– Trừng phạt tiêu cực, còn được gọi là trừng phạt loại bỏ, xuất hiện khi một sự kiện hay kết
quả dễ chịu bỏ loại bỏ sau khi hành vi được thực hiện. Lấy lại máy chơi game sau khi con trẻ cư
xử không đúng là ví dụ về củng cố tiêu cực.
Nguồn: revistaik.com
Negative punishment, also known as punishment by
removal, occurs when a favorable event or outcome is
removed after a behavior occurs. Taking away a child’s
video game following misbehavior is an example of negative
punishment.
Ở cả hai trường hợp trừng phạt, hành vi đều giảm đi. In both of these cases of punishment, the
behavior decreases.
Khung thời gian củng cố. Reinforcement Schedules
Skinner cũng phát hiện ra rằng thời gian và cách thức làm xuất hiện hành vi được củng cố cũng
đóng một vai trò quyết định tốc độ và mức độ lĩnh hội (học tập) của chủ thể. Ông đã chỉ ra một
số khung thời gian củng cố khác nhau:
Skinner also found that when and how often behaviors were reinforced played a role in the
speed and strength of acquisition. He identified several different schedules of reinforcement:
– Củng cố liên tục là thực hiện củng cố mỗi lúc phản ứng xuất hiện. Việc học tập có xu hướng
xuất hiện tương đối nhanh, tuy nhiên mức phản ứng là khá thấp. Sự biến mất (hay dập tắt) cũng
xuất hiện khá nhanh ngay khi ngưng củng cố.
Continuous reinforcement involves delivery a reinforcement every time a response occurs.

Learning tends to occur relatively quickly, yet the response rate is quite low. Extinction also
occurs very quickly once reinforcement is halted.
– Khung thời gian củng cố tỷ lệ cố định là một dạng củng cố bán phần. Phản ứng chỉ được
củng cố ngay khi một số phản ứng đã xuất hiện. Điều này thường sẽ đưa đến mức phản ứng khá
ổn định.
Fixed-ratio schedules are a type of partial reinforcement. Responses are reinforced only after a
specific number of responses have occurred. This typically leads to a fairly steady response
rate.
– Khung thời gian củng cố theo quãng cố định là một dạng củng cố bán phần khác. Củng cố
chỉ xuất hiện sau một quãng thời gian nhất định nào đó trôi qua. Mức độ phản ứng cũng khá ổn
định và bắt đầu tăng dần khi thời gian củng cố đến gần, và chậm dần ngay sau khi củng cố đã
được thực hiện.
Fixed-interval schedules are another form of partial reinforcement. Reinforcement occurs only
after a certain interval of time has elapsed. Response rates remain fairly steady and start to
increase as the reinforcement time draws near, but slow immediately after the reinforcement
has been delivered.
– Khung thời gian củng cố tỷ lệ linh hoạt cũng là một dạng củng cố bán phần, củng cố lên
hành vi sau khi một số lượng (không cố định) phản ứng nào đó đã xuất hiện. Nó sẽ đưa đến mức
phản ứng cao và mức dập tắt hành vi chậm.
Variable-ratio schedules are also a type of partial reinforcement that involve reinforcing
behavior after a varied number of responses. This leads to both a high response rate and slow
extinction rates.
– Khung thời gian củng cố theo quãng linh hoạt là dạng cuối cùng trong củng cố bán phần do
Skinner mô tả. Ở dạng này, củng cố được thực hiện sau một số khoảng thời gian (không cố
định) nào đó trôi qua. Điều này đưa đến mức phản ứng nhanh và mức dập tắt chậm.
Variable-interval schedules are the final form of partial reinforcement Skinner described. This
schedule involves delivering reinforcement after a variable amount of time has elapsed. This
also tends to lead to a fast response rate and slow extinction rate.
Ví dụ về Điều kiện hóa từ kết quả. Examples of Operant Conditioning
Ta có thể thấy khá nhiều ví dụ về điều kiện hóa từ kết quả trong cuộc sống quanh ta. Hay thử
nghĩ đến con trẻ làm xong bài tập về nhà để được cha mẹ hay thầy cô giao khen thưởng, hoặc
nhân viên hoàn thành công việc được giao để được tuyên dương hoặc thăng tiến.
We can find examples of operant conditioning at work all around us. Consider the case of
children completing homework to earn a reward from a parent or teacher, or employees
finishing projects to receive praise or promotions.
Một số các ví dụ khác về điều kiện hóa từ kết quả trong thực tế: Some more examples of operant
conditioning in action:
Nếu trẻ quấy phá trong lúc đi mua đồ, bạn có thể cho con cái gì con thích để chúng ngưng la
hét. Vì lúc đó bạn đã thực hiện củng cố tích cực thói hư tật xấu đó nên lần tới có thể con sẽ lại la
hét quấy phá để lại được bạn cho đồ.
If your child acts out during a shopping trip, you might give him a treat to get him to be quiet.
Because you have positively reinforced the misbehavior, he will probably be more likely to act
out again in the future in order to receive another treat.
Sau khi hoàn thành một vai trong vở kịch ở rạp hát, bạn được khán giả vỗ tay tán thưởng.
Những tràng pháo tay đóng vai trò như củng cố tích cực khuyến khích bạn thử thêm nhiều vai
diễn khác.
After performing in a community theater play, you receive applause from the audience. This
acts as a positive reinforcer inspiring you to try out for more performance roles.
Bạn dạy chú chó ở nhà cách tìm lấy đồ cho bạn bằng cách khen ngợi và vỗ đầu nó những lúc nó
làm được.
Nguồn: Heritage Pet

You train your dog to fetch by offering him praise and a pat
on the head whenever he performs the behavior correctly.
Một giáo sư nói sinh viên rằng nếu chúng đi học đầy đủ trong
cả học kỳ thì chúng sẽ không phải thi bài cuối khóa. Bằng
cách bỏ đi kích thích khó chịu (bài thi cuối khóa) sinh viên đã
bị củng cố tiêu cực để đến lớp thường xuyên.
A professor tells students that if they have perfect attendance all semester, then they do not have
to take the final comprehensive exam. By removing an unpleasant stimulus (the final test)
students are negatively reinforced to attend class regularly.
Nếu bạn không thể nộp đồ án đúng hạn, sếp bạn sẽ tức giận và phê bình hiệu suất làm việc của
bạn trước mặt đồng nghiệp. Đây chính là trừng phạt tiêu cực giúp hạn chế việc nộp trễ trong
tương lai.
If you fail to hand in a project on time, your boss becomes angry and berates your performance
in front of your co-workers. This acts as a positive punisher making it less likely that you will
finish projects late in the future.
Một cô gái trẻ không dọn dẹp phòng khi mẹ nhắc nhở, bố mẹ cô đã tịch thu điện thoại của cô
cho đến hết ngày. Đây chính là một ví dụ về trừng phạt tiêu cực, trong đó một kích thích tích
cực bị lấy đi.
A teen girl does not clean up her room as she was asked, so her parents take away her phone
for the rest of the day. This is an example of a negative punishment in which a positive stimulus
is taken away.
Trong những ví dụ trên, lời hứa hẹn hay khả năng nhận phần thưởng khiến hành vi gia tăng,
nhưng điều kiện hóa từ kết quả cũng có thể được áp dụng để giảm thiểu hành vi. Việc áp dụng
loại bỏ kết quả dễ chịu hoặc tiêu cực có thể được sử dụng để giảm hay ngăn ngừa những hành vi
không mong muốn. Ví dụ, thông báo với trẻ rằng chúng sẽ nhận được ít đặc quyền hơn trong
giờ giải lao nếu chúng nó nói leo, trả treo trong lớp. Kiểu trừng phạt này có thể làm giảm những
hành vi gây rối ở trẻ.
In some of these examples, the promise or possibility of rewards causes an increase in behavior,
but operant conditioning can also be used to decrease a behavior. The removal of a desirable
outcome or negative outcome application can be used to decrease or prevent undesirable
behaviors. For example, a child may be told they will lose recess privileges if they talk out of
turn in class. This potential for punishment may lead to a decrease in disruptive behaviors.
Kết luận. A Word From Verywell
Mặc dù thuyết hành vi có thể đã mất đi vị thể thống trị như nó đã từng trong những năm đầu thế
kỷ XX, điều kiện hóa từ kết quả vẫn đóng vai trò khá quan trọng và thường là công cụ được sử
dụng trong quá trình học tập và điều chỉnh hành vi. Đôi khi, hệ quả xuất hiện tự nhiên sẽ đưa
đến thay đổi trong hành vi. Trong những trường hợp khác, phần thưởng và trừng phạt có thể
được tích hợp dần dần giúp tạo điều kiện thay đổi.
While behaviorism may have lost much of the dominance it held during the early part of the
20th-century, operant conditioning remains an important and often utilized tool in the learning
and behavior modification process. Sometimes natural consequences lead to changes in our
behavior. In other instances, rewards and punishments may be consciously doled out in order to
create a change.
Điều kiện hóa từ kết quả là thứ mà bạn có thể ngay lập tức nhận ra trong cuộc sống của chính
bạn, dù là dạy dỗ con trẻ những điều hay lẽ phải hay huấn luyện chú chó cưng ngưng nhai gặm
giày dép. Điều quan trọng cần nhớ là với kiểu học tập nào đi chăng nữa thì tất thảy đều cần thời
gian. Hãy cân nhắc loại củng cố hay trừng phạt nào phù hợp nhất cho tình huống hiện tại và
đánh giá lựa chọn khung thời gian củng cố phù hợp sẽ giúp đưa đến kết quả tối ưu.
Operant conditioning is something you may immediately recognize in your own life, whether it
is in your approach to teaching your children good behavior or in training the family dog to
stop chewing on your favorite slippers. The important thing to remember is that with any type of
learning, it can sometimes take time. Consider the type of reinforcement or punishment that may
work best for your unique situation and assess which type of reinforcement schedule might lead
to the best results.
Tài liệu tham khảo. Sources:
Coon, D & Mitterer, JO. Psychology: A Journey. Belmont, CA: Wadsworth; 2014.
Domjan, M. The Principles of Learning and Behavior, Seventh Edition. Stamford, CT; Cengage
Learning; 2015.

Thế nào là Điều kiện hóa từ kết quả (Operant Conditioning)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thế nào là Điều kiện hóa từ kết quả (Operant Conditioning)

Uploaded by

Copyright:

Available Formats

Thế nào là Điều kiện hóa từ kết quả (Operant Conditioning)?

Operant conditioning (sometimes referred to as instrumental conditioning) is a method of

Conversely, actions that result in punishment or undesirable consequences will be weakened

Positive punishment, sometimes referred to as punishment by application, presents an

Continuous reinforcement involves delivery a reinforcement every time a response occurs.

Nguồn: Heritage Pet

You might also like