Makine öğrenimi (MÖ), yapay zekâ alanında bir çalışma dalıdır. İstatistiksel algoritmaların verilerden öğrenebilmesini, görünmeyen verilere genelleme yapabilmesini ve bu sayede açık talimatlar olmadan görevleri yerine getirmesini konu alır.[1] Derin öğrenme alanındaki gelişmeler, sinir ağlarının birçok önceki yaklaşımı performans anlamında geride bırakmasını sağlamıştır.[2]
Makine öğrenimi, doğal dil işleme, bilgisayarlı görü, konuşma tanıma, e-posta filtreleme, tarım ve tıp gibi birçok alanda uygulama bulmaktadır.[3][4] MÖ’nün iş problemlerine uygulanmasına öngörücü analitik adı verilir.
İstatistik ve matematiksel optimizasyon (matematiksel programlama) yöntemleri, makine öğreniminin temellerini oluşturur. Veri madenciliği, ilişkili bir çalışma alanı olup, gözetimsiz öğrenme aracılığıyla keşifsel veri analizi (KDA) üzerine yoğunlaşır.[6][7]
Kuramsal açıdan, “yaklaşık olarak doğru olasılıkla” (PAC) öğrenme, makine öğrenimini açıklamak için bir çerçeve sunar.
Tarihçe
Ayrıca bakınız: Makine öğrenimi zaman çizelgesi
"Makine öğrenimi" terimi, 1959 yılında IBM çalışanı ve bilgisayar oyunları ile yapay zekâ alanında öncü olan Arthur Samuel tarafından ortaya atılmıştır.[8][9] Bu dönemde, “kendi kendine öğretme yetisine sahip bilgisayarlar” şeklinde eş anlamlı ifadeler de kullanılmıştır.[10][11]
Her ne kadar ilk makine öğrenimi modeli 1950’lerde Arthur Samuel’in damaların her iki tarafının kazanma şansını hesaplayan bir program icat ettiği dönemde tanıtılmış olsa da, makine öğreniminin temelleri insan bilişsel süreçlerini anlama arzu ve çabalarına dayanan on yıllar öncesine kadar uzanır.[12] 1949’da Kanadalı psikolog Donald Hebb, sinir hücreleri arasındaki etkileşimlerle oluşan teorik bir sinir yapısını tanıttığı "The Organization of Behavior" (Davranışın Organizasyonu) adlı kitabını yayımladı.[13] Hebb’in nöron modelinin birbiriyle etkileşimi, yapay zekâ ve makine öğrenimi algoritmalarının, bilgisayarların veri iletişimi için kullandığı yapay nöronlar veya düğümler ile çalışma prensiplerine zemin hazırladı.[12] İnsan bilişsel sistemlerini inceleyen diğer araştırmacılar da modern makine öğrenimi teknolojilerine katkıda bulunmuştur. Örneğin mantıkçı Walter Pitts ve Warren McCulloch, insan düşünce süreçlerini yansıtmak amacıyla erken matematiksel sinir ağı modelleri önermişlerdir.[12]
1960’ların başlarında Raytheon Şirketi tarafından manyetik bantlı hafızaya sahip deneysel bir “öğrenme makinesi” olan Cybertron geliştirildi. Bu aygıt, basit pekiştirmeli öğrenme yöntemleriyle sonar sinyalleri, elektrokardiyogramlar ve konuşma örüntülerini analiz ediyordu. Bir insan operatör/öğretmen tarafından tekrar tekrar “eğitildi” ve yanlış kararlar için onu tekrar değerlendiren bir “hata” (goof) düğmesine sahipti.[14] 1960’lar boyunca makine öğrenimi araştırmalarını yansıtan önemli kitaplardan biri, ağırlıklı olarak örüntü sınıflandırma için makine öğrenimine odaklanan Nilsson’ın "Learning Machines" adlı kitabıdır.[15] Desen tanımaya yönelik ilgi, Duda ve Hart’ın 1973 tarihli çalışmasında gösterildiği üzere, 1970’lerde de devam etti.[16] 1981’de bir yapay sinir ağının 40 karakteri (26 harf, 10 rakam ve 4 özel sembol) bir bilgisayar terminalinden tanıyacak şekilde öğretim stratejilerinin kullanıldığı bir rapor yayımlandı.[17]
Tom M. Mitchell, makine öğrenimi alanında incelenen algoritmalar için sıkça alıntılanan daha resmi bir tanım vermiştir: “Bir bilgisayar programının, T görev sınıfına ve P performans ölçüsüne göre, deneyim E’den öğrendiği söylenir; eğer T’deki görevler için P ile ölçülen performansı, deneyim E arttıkça iyileşiyorsa o program öğreniyor demektir.”[18] Makine öğreniminin ilgilendiği görevlerin bu tanımı, alanı bilişsel terimlerle tanımlamak yerine temelde işlemsel bir yaklaşım sunar. Bu, Alan Turing’in “Computing Machinery and Intelligence” (Hesaplama Mekanizması ve Zekâ) adlı makalesindeki, “Makineler düşünebilir mi?” sorusunun yerine “Makineler, bizim (düşünen varlıklar olarak) yapabildiklerimizi yapabilir mi?” sorusunu koyma önerisini izler.[19]
Günümüz makine öğreniminin iki temel hedefi vardır. Biri, geliştirilmiş modellere dayalı olarak verileri sınıflandırmaktır; diğeri ise bu modellerden gelecekteki sonuçları tahmin etmektir. Örneğin, verileri sınıflandırmaya özgü varsayımsal bir algoritma, kanserli benleri sınıflandırmak için bilgisayarla görü ve gözetimli öğrenmeyi kullanarak eğitilebilir. Bir hisse senedi alım-satım makine öğrenimi algoritması, gelecekteki potansiyel tahminler hakkında yatırımcıyı bilgilendirebilir.[20]
Diğer Alanlarla İlişkiler
Yapay zekâ
Makine öğrenimi, yapay zekânın bir alt alanı olarak görülebilir[21]. Yapay zekâ akademik bir disiplin olarak ilk ortaya çıktığında, bazı araştırmacılar makinelerin verilerden öğrenmesine ilgi duyuyordu. Bu probleme yaklaşmak için çeşitli sembolik yöntemler ile o dönemde “sinir ağları” olarak adlandırılan yöntemler denendi; bunlar esasen istatistiğin genelleştirilmiş doğrusal modellerinin yeniden keşfinden ibaretti.[22] Otomatik tıbbi tanıda da olasılık temelli çıkarımlar kullanıldı.[23]: 488
Ancak yapay zekâda mantıksal, bilgi tabanlı yaklaşımlara verilen artan önem, yapay zekâ ile makine öğrenimi arasında bir yarık oluşturdu. Olasılıkçı sistemler, veri edinimi ve temsil konusundaki kuramsal ve pratik sorunlardan muzdaripti.[23]: 488 1980’e gelindiğinde uzman sistemler yapay zekâyı domine ederken istatistik gözden düşmüştü.[24] Sembolik/bilgi tabanlı öğrenme üzerindeki çalışmalar yapay zekâ içinde, indüktif mantık programlama (ILP) alanında devam etti. Ancak daha istatistiksel araştırma hattı artık yapay zekâ alanı dışında, örüntü tanıma ve bilgi erişim gibi alanlarda sürdürülüyordu.[23]: 708–710, 755 Sinir ağları araştırması da yaklaşık aynı dönemlerde yapay zekâ ve bilgisayar bilimi tarafından terk edildi. Bu hat, “bağlantıcılık” adıyla John Hopfield, David Rumelhart ve Geoffrey Hinton gibi diğer disiplinlerden araştırmacılarca sürdürüldü. En büyük başarılarını 1980’lerin ortalarında geri yayılımın yeniden keşfiyle elde ettiler.[23]: 25
Makine öğrenimi, kendi alanı olarak yeniden yapılandı ve 1990’larda gelişmeye başladı. Alanın hedefi yapay zekâyı başarmaktan, pratik doğadaki çözülebilir sorunları ele almaya doğru kaydı. Sembolik yaklaşımlardan istatistik, bulanık mantık ve olasılık teorisi tabanlı yöntem ve modellere doğru yöneldi.[24]
Veri sıkıştırma
Bu bölüm, Veri sıkıştırma § Makine öğrenimi makalesinden alınmıştır.[edit]
Makine öğrenimi ile veri sıkıştırma arasında yakın bir ilişki vardır. Bir dizgenin (sequence) ardıl olasılıklarını, tüm geçmişi dikkate alarak tahmin eden bir sistem, çıktı dağılımında aritmetik kodlama kullanarak optimal veri sıkıştırma için kullanılabilir. Tersine, optimal bir sıkıştırıcı, tahmin için de kullanılabilir (geçmişe dayanarak en iyi hangi sembolün sıkıştırılabildiğini bularak). Bu eşdeğerlik, veri sıkıştırmayı “genel zekâ” için bir kıyas ölçütü olarak kullanmak için bir gerekçe olmuştur.[25][26][27]
Alternatif bir görüş ise, sıkıştırma algoritmalarının dolaylı olarak dizgeleri örtük özellik uzayı vektörlerine eşlediğini ve sıkıştırma tabanlı benzerlik ölçütlerinin bu özellik uzaylarında benzerliği hesapladığını gösterir. Her bir C(.) sıkıştırıcısı için bir ℵ vektör uzayı tanımlanır, böylece C(.) bir giriş dizgesini x, ilgili vektör normu ||~x|| ile eşleştirir. Tüm sıkıştırma algoritmalarının altında yatan özellik uzaylarının kapsamlı bir incelemesi alana sığmaz; bunun yerine, örnekleme amacıyla üç temsilci kayıpsız sıkıştırma yöntemi (LZW, LZ77 ve PPM) incelenmiştir.[28]
AIXI teorisine (Hutter Ödülü ile daha doğrudan açıklanan bir bağlantı) göre, x’in en iyi olası sıkıştırması x’i üreten yazılımın en küçük boyutlu hâlidir. Örneğin, bu modelde bir zip dosyasının sıkıştırılmış boyutu, hem zip dosyasını hem de açma yazılımını içerir, çünkü her ikisi olmadan açamazsınız. Ancak belki daha küçük bir birleşik form da bulunabilir.
NVIDIA Maxine, AIVC gibi yapay zekâ destekli ses/video sıkıştırma yazılımlarına örnek olarak gösterilebilir.[29] Yapay zekâ destekli görüntü sıkıştırması yapabilen yazılımlara OpenCV, TensorFlow, MATLAB’ın Görüntü İşleme Araç Kutusu (IPT) ve High-Fidelity Generative Image Compression örnek verilebilir.[30]
Gözetimsiz makine öğreniminde k-ortalama kümeleme, benzer veri noktalarını kümelere gruplandırarak verileri sıkıştırmak için kullanılabilir. Bu teknik, önceden tanımlanmış etiketlerin olmadığı büyük veri setleriyle çalışmayı basitleştirir ve resim sıkıştırma gibi alanlarda yaygın biçimde kullanılır.[31]
Veri sıkıştırma, veri dosyalarının boyutunu azaltmayı amaçlayarak depolama verimliliğini artırır ve veri iletimini hızlandırır. K-ortalama kümeleme, bir gözetimsiz makine öğrenimi algoritması olarak bir veri setini belirlenen sayıdaki k kümeye ayırır. Her bir küme, noktalarının merkezi (centroid) ile temsil edilir. Bu işlem, büyük veri setlerini daha kompakt bir temsil noktaları kümesine indirger. Özellikle görüntü ve sinyal işleme alanlarında yararlı olan bu yaklaşım, bir veri noktasının yerini merkezin almasıyla temel bilgiyi korurken gerekli depolama alanını önemli ölçüde azaltır.[32]
Büyük dil modelleri (LLM’ler) de kayıpsız veri sıkıştırması yapabilme yeteneğine sahiptir. DeepMind’ın Chinchilla 70B modeliyle yaptığı araştırmalar bunu göstermiştir. DeepMind tarafından geliştirilen Chinchilla 70B, görüntü ve ses verilerini geleneksel Portable Network Graphics (PNG) ve Free Lossless Audio Codec (FLAC) yöntemlerinden daha iyi sıkıştırmayı başarmıştır. Görüntü ve ses verilerini orijinal boyutlarının sırasıyla %43,4’üne ve %16,4’üne düşürmüştür.[33]
Veri madenciliği
Makine öğrenimi ve veri madenciliği genellikle aynı yöntemleri kullanır ve önemli ölçüde örtüşür, ancak makine öğrenimi, eğitim verilerinden öğrenilen bilinen özelliklere dayalı olarak tahminlere odaklanırken, veri madenciliği verideki önceden bilinmeyen özelliklerin keşfine (veri tabanlarında bilgi keşfinin analiz adımı) odaklanır. Veri madenciliği, birçok makine öğrenimi yöntemini kullanır, ancak farklı amaçlarla; öte yandan makine öğrenimi de veri madenciliği yöntemlerini “gözetimsiz öğrenme” ya da öğrenicinin doğruluğunu artırmak için bir ön işleme adımı olarak kullanır. Bu iki araştırma topluluğu arasındaki (ç often ayrı konferanslar ve dergilerle temsil edilen, ECML PKDD bir istisnadır) kafa karışıklığı, temel varsayımlarından kaynaklanır: Makine öğreniminde performans genellikle bilinen bilgiyi yeniden üretme yeteneği ile değerlendirilir, oysa bilgi keşfi ve veri madenciliğinde (KDD) temel görev, daha önce bilinmeyen bilginin keşfidir. Bilinen bilgi ile değerlendirildiğinde, bilgisiz (gözetimsiz) bir yöntem, kolayca diğer gözetimli yöntemler tarafından geride bırakılabilir. Oysa tipik bir KDD görevi için gözetimli yöntemler kullanılamaz, zira eğitim verisi mevcut değildir.
Makine öğrenimi aynı zamanda optimizasyonla da yakından ilişkilidir: Birçok öğrenme problemi, bir eğitim örnekleri kümesi üzerindeki bir kayıp fonksiyonunun en aza indirilmesi şeklinde formüle edilir. Kayıp fonksiyonlar, modelin tahminleri ile gerçek problem örnekleri arasındaki uyumsuzluğu ifade eder (örneğin sınıflandırmada, bir örneğe etiket atamak istenir ve modeller, bir dizi örneğin önceden atanan etiketlerini doğru tahmin etmek için eğitilir).[34]
Genelleme
Farklı öğrenme algoritmalarının genelleme yeteneğini karakterize etmek, özellikle derin öğrenme algoritmaları için güncel bir araştırma konusudur.
İstatistik
Makine öğrenimi ve istatistik, yöntemler açısından yakından ilişkili ancak temel amaçlarında farklılık gösteren alanlardır: İstatistik, bir örneklemeden popülasyon çıkarımları yaparken, makine öğrenimi, eğitim verilerinden öğrenilen kalıpları yeni durumlara genelleştirmeye odaklanır.[35] Michael I. Jordan’a göre, makine öğreniminin fikirleri, yöntemsel prensiplerden teorik araçlara kadar istatistikte uzun bir ön geçmişe sahiptir.[36] Jordan ayrıca, tüm alanı adlandırmak için “veri bilimi” terimini bir geçici isim olarak önermiştir.[36]
Klasik istatistiksel analizler, çalışılan veri setine en uygun modelin a priori seçilmesini gerektirir. Ayrıca, önceki deneyimlere dayalı olarak sadece anlamlı veya kuramsal olarak ilgili değişkenler analize dahil edilir. Buna karşılık, makine öğrenimi önceden yapılandırılmış bir modele dayanmaz; veriler, altta yatan kalıpları algılayarak modeli kendileri şekillendirir. Modelin eğitimi için kullanılan değişken (girdi) sayısı arttıkça, nihai modelin doğruluğu da artar.[37]
Leo Breiman, iki istatistiksel modelleme paradigması arasında ayrım yapmıştır: veri modeli ve algoritmik model.[38] Buradaki “algoritmik model” terimi, Random Forest gibi makine öğrenimi algoritmalarını ifade eder.
Bazı istatistikçiler, makine öğrenimi yöntemlerini benimseyerek “istatistiksel öğrenme” adını verdikleri birleşik bir alan oluşturmuşlardır.[39]
İstatistiksel fizik
Bozuk (düzensiz) sistemler fiziğinden türetilen analitik ve hesaplamalı teknikler, makine öğrenimi de dahil olmak üzere büyük ölçekli problemlere uygulanabilir. Örneğin, derin sinir ağlarının ağırlık uzayını analiz etmek için kullanılabilir.[40] Dolayısıyla istatistiksel fizik, tıbbi tanı alanında da uygulama bulmaktadır.[41]
Kuram
Ana makaleler: Hesaplanabilir öğrenme kuramı ve İstatistiksel öğrenme kuramı
Bir öğrenicinin temel amacı, deneyiminden genelleme yapmaktır.[5][42] Burada genelleme, bir öğrenme makinesinin, deneyimlediği bir öğrenme veri setinden sonra yeni, görülmemiş örnekler/görevler üzerinde doğru performans gösterme yeteneğidir. Eğitim örnekleri genellikle bilinmeyen bir olasılık dağılımından gelir (bu dağılım, gerçekleşmeler uzayını temsil eder) ve öğrenici, bu uzay hakkında genel bir model inşa etmek zorundadır. Bu model, yeni durumlarda yeterince doğru tahminler üretmeyi sağlar.
Makine öğrenimi algoritmalarının ve performanslarının hesaplamalı analizi, “Yaklaşık Olarak Doğru Olasılıkla Öğrenme” (PAC) modeli ile bilinen teorik bilgisayar bilimi dalı, hesaplanabilir öğrenme kuramı kapsamında incelenir. Eğitim kümeleri sonlu ve gelecek belirsiz olduğu için öğrenme kuramı genellikle algoritmaların performans garantileri vermez. Onun yerine, performans üzerine olasılıkçı sınırlar oldukça yaygındır. Sapma-varyans ayrışımı (bias-variance decomposition) genelleştirme hatasını nicelleştirmenin bir yoludur.
Genelleştirme bağlamında en iyi performans için hipotezin karmaşıklığı, verinin altındaki işlevin karmaşıklığına uygun olmalıdır. Hipotez işlevden daha az karmaşıksa model veriye aşırı genelleştirme yapamaz (underfitting). Model karmaşıklığı artırıldığında eğitim hatası azalır. Ancak hipotez çok karmaşıklaşırsa model aşırı uyumlanır (overfitting) ve genelleştirme zayıflar.[43]
Performans sınırlarına ek olarak, öğrenme kuramcıları öğrenmenin zaman karmaşıklığını ve uygulanabilirliğini de inceler. Hesaplanabilir öğrenme kuramında, bir hesaplama, polinomsal zaman içinde yapılabiliyorsa uygulanabilir kabul edilir. İki tür zaman karmaşıklığı sonucu vardır: Olumlu sonuçlar, belirli işlev sınıflarının polinomsal zamanda öğrenilebileceğini gösterirken, olumsuz sonuçlar, bazı sınıfların polinomsal zamanda öğrenilemeyeceğini gösterir.
Yaklaşımlar
Gözetimli öğrenmede, eğitim verileri beklenen cevaplarla etiketlenirken; gözetimsiz öğrenmede model, etiketlenmemiş verideki yapıları veya desenleri bulmaya çalışır. Makine öğrenimi yaklaşımları, geleneksel olarak üç geniş kategoriye ayrılır. Bu kategoriler, öğrenme sistemine sunulan "sinyal" veya "geri bildirim" türüne göre belirlenir:
- Gözetimli öğrenme: Bilgisayara, örnek girişler ve bunların istenen çıktıları ("öğretmen" tarafından) sunulur. Amaç, girdileri çıktılara eşleyen genel bir kural öğrenmektir.
- Gözetimsiz öğrenme: Öğrenme algoritmasına herhangi bir etiket verilmez ve algoritma kendi başına girdi verisindeki yapıları bulmaya çalışır. Bu, gizli desenlerin keşfi veya bir amaç doğrultusunda özellik öğrenme olabilir.
- Pekiştirmeli öğrenme: Bir bilgisayar programı, dinamik bir ortamda belirli bir hedefi gerçekleştirmeye çalışır (örneğin bir aracı sürmek veya bir rakibe karşı oyun oynamak). Program, problem uzayında gezinirken ödüllere benzer geribildirim alır ve bu ödülleri maksimize etmeye çalışır.[5]
Her algoritmanın avantajları ve sınırlamaları vardır. Hiçbir tek algoritma tüm problemler için en iyi çözüm değildir.[44][45][46]
Gözetimli öğrenme
Ana makale: Gözetimli öğrenme
Bir destek-vektör makinesi (SVM), verileri lineer bir sınırla ayrılan bölgelere bölen bir gözetimli öğrenme modelidir. Burada lineer sınır, siyah daireleri beyaz olanlardan ayırır. Gözetimli öğrenme algoritmaları, girdi ve istenen çıktıları içeren bir veri kümesinden bir matematiksel model oluşturur.[47] Bu veriler, eğitim verileri olarak adlandırılır ve bir dizi eğitim örneğinden oluşur. Her eğitim örneği bir veya birden fazla girdi ve istenen çıktıyı (denetleyici sinyal) içerir. Matematiksel modelde, her eğitim örneği genellikle bir dizi veya vektörle (özellik vektörü) temsil edilir ve eğitim verisi bir matrisle gösterilir. Amaç fonksiyonunun yinelemeli optimizasyonu yoluyla, gözetimli öğrenme algoritmaları yeni girdiler için çıktıların tahmin edilebileceği bir fonksiyon öğrenir.[48] Optimal bir fonksiyon, eğitim verisinde olmayan yeni girdilerin çıktısını doğru bir şekilde belirlemesini sağlar. Zamanla çıktıların doğruluğunu artıran bir algoritmaya, o görevi öğrendiği söylenir.[18]
Gözetimli öğrenme algoritmaları arasında etkin öğrenme, sınıflandırma ve regresyon yer alır.[49] Sınıflandırma algoritmaları, çıktıların sınırlı bir değer kümesine ait olduğu durumlarda kullanılır, regresyon algoritmaları ise çıktının herhangi bir sayısal değere sahip olabildiği durumlarda kullanılır. Örneğin, e-posta filtreleme yapan bir sınıflandırma algoritmasında giriş gelen e-posta, çıktı ise e-postanın hangi klasöre atılacağıdır. Regresyona örnek olarak bir kişinin boyunun tahmin edilmesi veya gelecekteki sıcaklığın öngörülmesi verilebilir.[50]
Benzerlik öğrenimi, denetimli makine öğrenimine yakın bir alandır. Amaç, iki nesnenin ne kadar benzer veya ilişkili olduğunu ölçen bir benzerlik fonksiyonuyla örneklerden öğrenmektir. Bu, sıralama, öneri sistemleri, görsel kimlik takibi, yüz doğrulama ve konuşmacı doğrulamada kullanılabilir.
Gözetimsiz öğrenme
Ana makale: Gözetimsiz öğrenme
Ayrıca bakınız: Kümeleme analizi
Gözetimsiz öğrenme algoritmaları, etiketlenmemiş, sınıflandırılmamış veya kategorize edilmemiş verideki yapıları bulur. Geri bildirime yanıt vermek yerine, verideki ortak özellikleri belirler ve her yeni veri parçasına bu ortaklıkların varlığına veya yokluğuna göre tepki verir. Gözetimsiz makine öğreniminin temel uygulamaları arasında kümeleme, boyut indirgeme[7] ve yoğunluk tahmini yer alır.[51]
Kümeleme analizi, bir gözlem kümesinin, belirlenmiş bir benzerlik ölçütüne göre birbirine benzer öğeleri içeren alt kümelere (kümelere) ayrılmasıdır. Farklı kümeleme teknikleri, veri yapısı hakkında farklı varsayımlarda bulunur; benzerlik metriklerine, iç kompaktlık (küme içi benzerlik) veya kümeler arası ayrışma (farklı kümeler arasındaki ayrım) gibi değerlere dayanırlar. Diğer yöntemler, yoğunluk tahmini ve grafik bağlantısına dayanır.
Veriden denetim sinyalinin kendiliğinden üretildiği özel bir gözetimsiz öğrenme türü olan kendini denetimli öğrenme de mevcuttur.[52][53]
Yarı-gözetimli öğrenme
Ana makale: Yarı-gözetimli öğrenme
Yarı-gözetimli öğrenme, tamamen etiketlenmemiş verilerle yapılan gözetimsiz öğrenme ile tamamen etiketlenmiş verilerle yapılan gözetimli öğrenme arasında bir yerdedir. Bazı eğitim örneklerinin etiketleri eksiktir. Ancak birçok makine öğrenimi araştırmacısı, etiketlenmemiş verilerin, az miktarda etiketlenmiş verilerle birlikte kullanıldığında, öğrenme doğruluğunda önemli bir iyileşme sağlayabileceğini keşfetmiştir.
Zayıf gözetimli öğrenmede, eğitim etiketleri gürültülü, sınırlı veya belirsizdir; ancak bu etiketler genellikle daha ucuza elde edildiği için daha büyük etkili eğitim kümeleri oluşturur.[54]
Pekiştirmeli öğrenme
Ana makale: Pekiştirmeli öğrenme
Pekiştirmeli öğrenme, bir yazılım ajanının, maksimum toplam ödülü sağlamak için bir ortamda nasıl hareket etmesi gerektiğiyle ilgilenir. Bu alanın genelliği nedeniyle, oyun teorisi, kontrol teorisi, yöneylem araştırması, bilgi teorisi, benzetim tabanlı optimizasyon, çok-etmenli sistemler, sürü zekâsı, istatistik ve genetik algoritmalar gibi birçok disiplinde incelenir. Pekiştirmeli öğrenmede, ortam genellikle bir Markov karar süreci (MDP) olarak temsil edilir. Birçok pekiştirmeli öğrenme algoritması dinamik programlama tekniklerini kullanır.[55] Pekiştirmeli öğrenme algoritmaları, MDP’nin tam matematiksel modelini bilmeye gerek duymaz ve tam modellerin uygulanabilir olmadığı durumlarda kullanılır. Otonom araçlar veya bir insan rakibe karşı oyun oynamayı öğrenmek için pekiştirmeli öğrenme algoritmaları kullanılır.
Boyut indirgeme
Boyut indirgeme, dikkate alınan rasgele değişken sayısını azaltarak bir dizi temel değişken elde etme sürecidir.[56] Başka bir deyişle, özellik sayısını azaltma sürecidir. Çoğu boyut indirgeme tekniği, özellik eleme veya özellik çıkarma olarak düşünülebilir. Popüler bir boyut indirgeme yöntemi, Temel Bileşenler Analizi’dir (PCA). PCA, yüksek boyutlu verileri (örneğin 3B) daha küçük bir uzaya (örneğin 2B) dönüştürür. Manifold hipotezi, yüksek boyutlu veri kümelerinin düşük boyutlu manifoldlar üzerinde yattığını öne sürer ve birçok boyut indirgeme tekniği bu varsayımı yapar. Bu durum, manifold öğrenme ve manifold düzenlileştirme alanlarına yol açmıştır.
Diğer Türler
Üçlü ayrımına tam uymayan veya birden fazlasını kullanan başka yaklaşımlar da geliştirilmiştir. Örneğin konu modelleme, meta-öğrenme.[57]
Kendi kendine öğrenme
Kendi kendine öğrenme, bir makine öğrenimi paradigması olarak 1982’de tanıtılmış ve kendini öğrenebilen bir sinir ağı olan crossbar adaptive array (CAA) ile ortaya çıkmıştır.[58] Bu, dış ödül veya dış öğretmen tavsiyesi olmaksızın öğrenmedir. CAA’nın kendini öğrenme algoritması, her yinelemede hem eylemler hem de duygu durumlarını hesaplayarak bir bellek matrisi W =||w(a,s)|| günceller:
- Durum s’de eylem a’yı gerçekleştir
- Sonuç durumu s' alınır
- s' durumunda olmanın duygusu v(s') hesaplanır
- Çapraz çubuk (crossbar) belleği güncellenir w'(a,s) = w(a,s) + v(s')
Bu sistemde sadece bir girdi (durum) ve bir çıktı (davranış veya eylem a) vardır. Ortamdan ayrı bir pekiştirme ya da tavsiye girişi yoktur. Geri yayılan değer (ikincil pekiştirme), sonuç durumuna yönelik duygudur. CAA, iki ortamda var olur: Biri davrandığı davranışsal ortam, diğeri ise genetik ortamdır. Genetik ortamdan, davranışsal ortamda karşılaşacağı durumlarla ilgili ilk ve tek seferlik duyguları (genom türü vektörü) aldıktan sonra, CAA arzu edilen durumları arayan bir davranış geliştirir.[59][60]
Özellik öğrenme
Ana makale: Özellik öğrenme
Bazı öğrenme algoritmalarının amacı, eğitimde verilen girdi verilerinin daha iyi temsillerini keşfetmektir.[61] Klasik örnekler arasında PCA ve kümeleme analizi bulunur. Özellik öğrenme algoritmaları, temsil öğrenme olarak da adlandırılır ve genellikle girdi bilgisini korurken onu, sınıflandırma veya tahmin gibi spesifik bir görevi gerçekleştirmede faydalı olacak bir biçime dönüştürür. Bu yaklaşım, elle özellik çıkarma gereksinimini ortadan kaldırır ve bir makinenin, özellikleri hem öğrenmesini hem de bunları belirli bir görevi gerçekleştirmek için kullanmasını sağlar.
Özellik öğrenme, gözetimli veya gözetimsiz olabilir. Gözetimli özellik öğrenmede, özellikler etiketli girdi verilerini kullanarak öğrenilir. Örnekler: Yapay sinir ağları, çok katmanlı algılayıcılar ve denetimli sözlük öğrenimi. Gözetimsiz özellik öğrenmede, özellikler etiketsiz girdi verileriyle öğrenilir. Örnekler: sözlük öğrenimi, bağımsız bileşen analizi, otomatik kodlayıcılar, matris faktörizasyonu[62] ve çeşitli kümeleme türleri.[63][64][65]
Manifold öğrenme algoritmaları, öğrenilen temsilin düşük boyutlu olması kısıtlaması altında çalışır. Seyrek kodlama (sparse coding) algoritmaları ise modeli birçok sıfıra sahip olacak şekilde seyrekleştirme kısıtıyla çalışır. Çok-doğrusal altuzay öğrenimi (multilinear subspace learning) algoritmaları, çok boyutlu verilerden (tensör temsilleri) doğrudan düşük boyutlu temsiller öğrenmeye çalışır.[66] Derin öğrenme algoritmaları, çok seviyeli temsil keşfederler, yani bir özellik hiyerarşisi oluştururlar; üst seviyedeki daha soyut özellikler, alt seviyedekilerin tanımlanmasıyla ifade edilir. Zeki bir makinenin, gözlenen verileri açıklayan temel değişim faktörlerini çözerek, verileri anlamlandıran bir temsil öğrenmesi gerektiği öne sürülmüştür.[67]
Özellik öğrenme, sınıflandırma gibi makine öğrenimi görevlerinde, girdi verilerinin matematiksel ve hesaplamalı olarak uygun biçimde işlenebilmesini amaçlar. Ancak gerçek dünya verileri (görüntüler, videolar, sensör verileri) belirli özelliklerin açık algoritmalarla tanımlanamadığı karmaşıklıktadır. Bu nedenle özellikler, inceleme yoluyla keşfedilir.
Seyrek sözlük öğrenimi
Ana makale: Seyrek sözlük öğrenimi
Seyrek sözlük öğrenimi, bir eğitim örneğini bir taban fonksiyonları doğrusal birleşimi olarak ifade eden ve seyrek bir matris varsayan bir özellik öğrenme yöntemidir. Yöntem, güçlü NP-zordur ve yaklaşık olarak çözmek de zordur.[68] Seyrek sözlük öğrenimi için popüler bir yaklaşım k-SVD algoritmasıdır. Seyrek sözlük öğrenimi, çeşitli bağlamlarda uygulanmıştır. Sınıflandırmada amaç, yeni bir eğitim örneğinin hangi sınıfa ait olduğunu belirlemektir. Her sınıf için bir sözlük oluşturulduğunda, yeni bir eğitim örneği en seyrek şekilde temsil edildiği sözlükle ilişkilendirilir. Seyrek sözlük öğrenimi ayrıca görüntü gürültü giderme işleminde de uygulanır. Temel fikir, temiz bir görüntü yaması bir görüntü sözlüğüyle seyrek şekilde temsil edilebilirken, gürültünün böyle bir temsili olmamasıdır.[69]
Anomali tespiti
Ana makale: Anomali tespiti
Veri madenciliğinde, anomali tespiti (aykırı değer tespiti olarak da bilinir), çoğunluktan önemli ölçüde farklılık gösteren nadir öğelerin, olayların veya gözlemlerin saptanmasıdır.[70] Genellikle anormal öğeler, banka dolandırıcılığı, yapısal kusurlar, tıbbi sorunlar veya bir metindeki hatalar gibi sorunları temsil eder. Anomaliler; aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılır.[71]
Özellikle istismar ve ağ saldırısı tespitinde ilginç nesneler her zaman nadir değildir, bazen beklenmedik etkinlik patlamaları da olabilir. Bu tür desenler, istatistiksel olarak nadir nesneler tanımına uymayabilir. Birçok aykırı değer tespit yöntemi (özellikle gözetimsiz algoritmalar) bu verilerde uygun toplulaştırma yapılmadıkça başarısız olabilir. Bu durumda bir kümeleme algoritması, bu desenlerin oluşturduğu mikro kümeleri tespit edebilir.[72]
Üç geniş anomali tespiti tekniği kategorisi vardır.[73] Gözetimsiz anomali tespiti, etiketlenmemiş bir test veri kümesinde çoğunluğun normal olduğu varsayımıyla, verinin geri kalanına en az uyan örnekleri arar. Gözetimli anomali tespiti, “normal” ve “anormal” olarak etiketlenmiş bir veri kümesi gerektirir ve bir sınıflandırıcı eğitir. Yarı-gözetimli anomali tespiti ise verilen bir normal eğitim veri kümesinden normal davranışı temsil eden bir model çıkarır ve test örneklerinin bu modelden üretilme olasılığını test eder.
Robot öğrenmesi
Robot öğrenmesi, gözetimli öğrenme, pekiştirmeli öğrenme[74][75] ve sonunda meta-öğrenme (ör. MAML) gibi birçok makine öğrenimi yönteminden ilham almıştır.
İlişki kuralları
Ana makale: İlişki kuralı öğrenimi
Ayrıca bakınız: İndüktif mantık programlama
İlişki kuralı öğrenimi, büyük veritabanları arasında değişkenler arası ilişkilerin keşfedilmesi için kullanılan kural tabanlı bir makine öğrenimi yöntemidir. “İlgi çekicilik” ölçütü kullanarak veritabanlarında bulunan güçlü kuralları belirleme amacındadır.[76]
Kural tabanlı makine öğrenimi, herhangi bir makine öğrenimi yöntemini kapsayan genel bir terimdir. Bu yöntem, bilgiyi depolamak, işlemek veya uygulamak için “kuralları” keşfeder, öğrenir veya geliştirir. Kural tabanlı bir makine öğrenimi algoritmasının tanımlayıcı özelliği, bilginin bir bütün halinde evrensel olarak uygulanabilecek tek bir model yerine, bağıntılı kurallar kümesi ile temsil edilmesidir. Bu, sıklıkla tüm örneklere uygulanabilen tek bir model tanımlayan diğer makine öğrenimi algoritmalarından ayrılır.[77] Kural tabanlı makine öğrenimi yaklaşımları arasında öğrenici sınıflandırıcı sistemler, ilişki kuralı öğrenimi ve yapay bağışıklık sistemleri bulunur.
Güçlü kurallar kavramına dayalı olarak Rakesh Agrawal, Tomasz Imieliński ve Arun Swami, büyük ölçekli işlem verilerinde (örneğin süpermarket satış verileri) ürünler arasındaki ilişki kurallarını keşfetmek için ilişki kuralları geliştirmişlerdir.[78] Örneğin:
{soğan, patates} ⇒ {köfte}
kuralı, bir müşteri soğan ve patatesi birlikte satın alırsa, büyük olasılıkla köfte de alacağını gösterir. Bu bilgi, pazarlama stratejileri (promosyon fiyatlandırması veya ürün konumlandırma) için kullanılabilir. Pazar sepeti analizinin yanı sıra, ilişki kuralları günümüzde web kullanım madenciliği, izinsiz giriş tespiti, kesintisiz üretim ve biyoenformatik gibi alanlarda da kullanılmaktadır. Sıra madenciliği ile karşılaştırıldığında, ilişki kuralı öğrenimi, bir işlem içindeki veya işlemler arasındaki öğelerin sırasını genellikle dikkate almaz.
Öğrenici sınıflandırıcı sistemler (LCS), bir keşif bileşeni (genetik algoritma) ile bir öğrenme bileşenini (gözetimli, pekiştirmeli veya gözetimsiz öğrenme) birleştiren kural tabanlı makine öğrenimi algoritmaları ailesidir. Bu sistemler, bilgiyi parça parça depolayan ve uygulayan bir dizi bağlam bağımlı kural kümesini keşfetmeyi amaçlar.[79]
İndüktif mantık programlama (ILP), örnekler, arka plan bilgisi ve hipotezler için mantık programlamayı tek tip bir gösterim olarak kullanan bir kural öğrenme yaklaşımıdır. Bilinen arka plan bilgisinin bir mantıksal gerçekler veritabanı şeklinde, pozitif ve negatif örneklerle birlikte verildiğini varsayarsak, bir ILP sistemi, tüm pozitif ve hiçbir negatif örneği içermeyen varsayımsal bir mantık programı çıkarır. İndüktif programlama, hipotezleri temsil etmek için sadece mantık programlama değil, her türlü programlama dilini dikkate alan ilgili bir alandır.
İndüktif mantık programlama, özellikle biyoenformatik ve doğal dil işleme alanlarında yararlıdır. Gordon Plotkin ve Ehud Shapiro, mantıksal bir bağlamda indüktif makine öğreniminin ilk kuramsal temelini attılar.[80][81][82] Shapiro, 1981’de, pozitif ve negatif örneklerden mantık programlarını tümevarımsal olarak çıkaran bir Prolog programı (Model Inference System) geliştirdi.[83]
Burada “tümevarım” (induction) terimi, felsefi anlamda bir tümevarımı ifade eder, yani gözlemlenen olguları açıklayan bir teori önermeyi, matematiksel tümevarımdan farklı olarak iyi tanımlanmış bir kümenin tüm üyeleri için bir özelliği ispat etmek anlamında değildir.
Modeller
Bir makine öğrenimi modeli, belirli bir veri kümesinde “eğitildikten” sonra yeni veri üzerinde tahmin veya sınıflandırma yapmak için kullanılabilen bir tür matematiksel modeldir. Eğitim sürecinde öğrenme algoritması, modelin iç parametrelerini, tahmin hatalarını en aza indirecek şekilde yinelemeli olarak ayarlar.[84] Bu anlam genişletilerek, “model” terimi, genel bir model sınıfından ve ilgili öğrenme algoritmalarından, tüm iç parametreleri ayarlanmış tam eğitilmiş bir modele kadar çeşitli özgüllük düzeylerini ifade edebilir.[85]
Makine öğrenimi sistemleri için çeşitli model türleri kullanılmış ve araştırılmıştır; belirli bir görev için en iyi modeli seçme işlemine model seçimi adı verilir.
Yapay sinir ağları
Ana makale: Yapay sinir ağı
Ayrıca bakınız: Derin öğrenme
Yapay bir sinir ağı, hayvan beynindeki geniş nöron ağlarına benzer şekilde birbirine bağlı düğümler grubudur. Burada her dairesel düğüm yapay bir nöronu, oklar ise bir yapay nöronun çıktısından diğerine olan bağlantıyı temsil eder. Yapay sinir ağları (YSA) veya bağlantıcı sistemler, hayvan beyinlerinin biyolojik sinir ağlarından esinlenmiş bilişim sistemleridir. Bu sistemler, genellikle önceden tanımlanmış özel kurallar olmadan, örnekleri dikkate alarak görevleri yerine getirmeyi “öğrenirler.”
Bir YSA, yapay nöron adı verilen ve biyolojik beyinlerdeki nöronları kabaca modelleyen birimlerin veya düğümlerin oluşturduğu bir modeldir. Bu yapay nöronlar arasındaki bağlantılar, tıpkı biyolojik beyinlerdeki sinapslar gibi bilgi (sinyal) iletir. Her yapay nöron, aldığı sinyali işleyip başka yapay nöronlara iletebilir. Tipik YSA uygulamalarında, yapay nöronlar arasındaki sinyal gerçek bir sayıdır ve her yapay nöronun çıktısı, girişlerinin toplamına uygulanan doğrusal olmayan bir fonksiyonla hesaplanır. Yapay nöronlar ve bağlantılar, öğrenme ilerledikçe ayarlanan ağırlıklara sahiptir. Genellikle yapay nöronlar katmanlar hâlinde düzenlenir. Farklı katmanlar, girdilere farklı türde dönüşümler uygular. Sinyaller, giriş katmanından çıkış katmanına ulaşana kadar bu katmanlardan geçer.
YSA yaklaşımının ilk amacı, sorunları insan beyninin çözdüğü gibi çözmekti. Ancak zamanla hedef, özgül görevleri çözmeye kaydı. Yapay sinir ağları, bilgisayarla görü, konuşma tanıma, makine çevirisi, sosyal ağ filtreleme, oyun oynama ve tıbbi tanı gibi çeşitli görevlerde kullanılmıştır.
Derin öğrenme, bir yapay sinir ağında birden çok gizli katmana sahiptir. Bu yaklaşım, insan beyninin ışık ve sesi işleyerek görme ve işitme oluşturmasına benzer şekilde çalışmayı amaçlar. Derin öğrenmenin başarılı uygulamaları arasında bilgisayarla görü ve konuşma tanıma yer alır.[86]
Karar ağaçları
Ana makale: Karar ağacı öğrenimi
Titanik yolcularının hayatta kalma olasılığını gösteren bir karar ağacı Karar ağacı öğrenimi, gözlemlerden (dallar) hedef değeri (yapraklar) tahmin etmeyi sağlayan bir karar ağacı kullanır. İstatistik, veri madenciliği ve makine öğreniminde kullanılan kestirimsel modelleme yaklaşımlarından biridir. Hedef değişkenin alabileceği değerler sınırlıysa (ayrık) bu ağaçlar sınıflandırma ağacı olarak adlandırılır; yapraklar bir sınıf etiketini, dallar ise o etiketlere götüren özelliklerin birleşimlerini temsil eder. Hedef değişken sürekli değerler alabiliyorsa (genellikle gerçek sayılar) regresyon ağacı adını alır. Karar analizinde bir karar ağacı, kararları ve karar verme süreçlerini görsel ve açık bir şekilde temsil etmek için kullanılabilir. Veri madenciliğinde, bir karar ağacı veriyi tanımlar, ancak ortaya çıkan sınıflandırma ağacı karar verme sürecine de girdi olarak kullanılabilir.
Destek-vektör makineleri
Ana makale: Destek-vektör makinesi
Destek-vektör makineleri (DVM), sınıflandırma ve regresyon için kullanılan, gözetimli öğrenmeye dayalı bir dizi ilgili yöntemdir. Eğitilmiş bir DVM modeli, yeni bir örneğin hangi kategoriye ait olacağını tahmin eder. DVM eğitimi, olasılıksal olmayan, ikili, doğrusal bir sınıflandırıcı üretir; ancak Platt ölçeklendirmesi gibi yöntemlerle DVM, olasılıksal sınıflandırma için de uyarlanabilir. Doğrusal sınıflandırmaya ek olarak, DVM’ler çekirdek hilesi (kernel trick) kullanarak doğrusal olmayan sınıflandırmayı da verimli biçimde gerçekleştirebilir.
Regresyon analizi
Ana makale: Regresyon analizi
Bir veri kümesi üzerinde lineer regresyonun gösterimi Regresyon analizi, girdiler ile bunların ilişkili çıktıları arasındaki ilişkiyi tahmin etmeye yönelik çeşitli istatistiksel yöntemleri içerir. En yaygın biçimi olan lineer regresyonda, belirli bir istatistiksel ölçüte (örneğin en küçük kareler) göre en iyi uyan doğru veri üzerinde çizilir. Aşırı uydurma ve önyargıları hafifletmek için ridge regresyon gibi düzenlileştirme yöntemleri de kullanılabilir. Doğrusal olmayan sorunlar için, polinomal regresyon (örneğin Microsoft Excel’de trend çizgisi uyarlamada), lojistik regresyon (çoğunlukla istatistiksel sınıflandırmada) veya çekirdek regresyon gibi yöntemler kullanılabilir. Çekirdek regresyon, giriş değişkenlerini daha yüksek boyutlu uzaya örtük olarak eşlemek için çekirdek hilesinden yararlanır.
Bayesçi ağlar
Ana makale: Bayesçi ağ
Basit bir Bayesçi ağ örneği. Yağmur, fıskiyenin çalıştırılmasını etkiler ve hem yağmur hem de fıskiye, çimin ıslak olmasını etkiler. Bayesçi ağlar, inanç ağı veya yönlendirilmiş asiklik grafiksel model, rasgele değişken kümeleri ile bunların koşullu bağımsızlıklarını yönlendirilmiş asiklik bir grafik (DAG) üzerinden gösteren bir olasılık grafik modelidir. Örneğin, bir Bayesçi ağ, hastalıklar ile semptomlar arasındaki olasılıksal ilişkileri temsil edebilir. Semptomlar verildiğinde, ağ çeşitli hastalıkların var olma olasılığını hesaplamak için kullanılabilir. Verimli çıkarım ve öğrenme algoritmaları mevcuttur. Konuşma sinyalleri veya protein dizileri gibi değişken dizilerini modelleyen Bayesçi ağlar dinamik Bayesçi ağlar olarak adlandırılır. Karar sorunlarını belirsizlik altında temsil eden ve çözebilen Bayesçi ağ genellemelerine ise etki diyagramları denir.
Gauss süreçleri
Ana makale: Gauss süreçleri
Gauss Süreç Regresyonu’nun (tahmin) diğer regresyon modelleriyle karşılaştırılması örneği[89] Bir Gauss süreci, süreçteki rasgele değişkenlerin her sonlu alt kümesinin çok değişkenli normal dağılıma sahip olduğu bir stokastik süreçtir. Bu yaklaşım, noktalar arası ilişkileri, onların konumlarına bağlı olarak modelleyen önceden tanımlı bir kovaryans fonksiyonu ya da çekirdeğe dayanır.
Gözlemlenmiş noktalar (giriş-çıkış örnekleri) verildiğinde, yeni, gözlemlenmemiş bir noktanın çıktısının dağılımı, gözlemlenen noktalar ve yeni nokta arasındaki kovaryanslar aracılığıyla doğrudan hesaplanabilir.
Gauss süreçleri, hiperparametre optimizasyonu yapmak için Bayesçi optimizasyonda popüler vekil modellerdir.
Genetik algoritmalar
Ana makale: Genetik algoritma
Genetik algoritma (GA), doğal seçilim sürecini taklit eden bir arama algoritması ve sezgisel tekniktir. Mutasyon ve çaprazlama gibi yöntemler kullanarak yeni genotipler üretir ve verilen bir problem için iyi çözümler bulmaya çalışır. Makine öğreniminde, genetik algoritmalar 1980’lerde ve 1990’larda kullanılmıştır.[90][91] Tersi olarak, genetik ve evrimsel algoritmaların performansını artırmak için makine öğrenimi teknikleri de kullanılmıştır.[92]
İnanç fonksiyonları
Ana makale: Dempster–Shafer teorisi
İnanç fonksiyonları teorisi, kanıt teorisi veya Dempster–Shafer teorisi olarak da bilinen, belirsizlikle akıl yürütme için genel bir çerçevedir. Olasılık, olabilirlik ve kesin olmayan olasılıklar gibi diğer çerçevelerle bağlantılıdır. Bu teorik çerçeveler, bir tür öğrenici olarak düşünülebilir ve olasılıksal Bayesian yaklaşımı gibi, kanıtların nasıl birleştirileceğine dair bazı benzer özellikleri vardır (örn. Dempster’in kombinasyon kuralı). Ancak bu inanç fonksiyonlarının Bayesçi yaklaşımlara kıyasla cehalet ve belirsizlik nicemlemesini dâhil etmek için birçok nüansı vardır. Bu inanç fonksiyonu yaklaşımları, makine öğrenimi alanında, topluluk (ensemble) yöntemlerini birleştirerek özellikle düşük örnek sayıları ve belirsiz sınıf sorunlarıyla başa çıkmada kullanılır.[4][9] Ancak bu algoritmaların hesaplama karmaşıklığı, önermelerin (sınıfların) sayısına bağlıdır ve diğer makine öğrenimi yaklaşımlarına göre çok daha yüksek olabilir.
Modellerin Eğitimi
Genellikle makine öğrenimi modellerinin doğru tahmin yapabilmesi için yüksek miktarda güvenilir veriye ihtiyaç vardır. Bir makine öğrenimi modelini eğitirken, mühendislerin büyük ve temsil edici bir veri örneği hedeflemesi ve toplaması gerekir. Eğitim kümesindeki veriler, metinler, resimler, sensör verileri veya bir hizmetin bireysel kullanıcılarından toplanan veriler gibi çeşitli biçimlerde olabilir. Aşırı uyum (overfitting), model eğitimi sürecinde dikkat edilmesi gereken bir konudur. Eğitilmiş modeller, önyargılı veya değerlendirilmemiş verilerden türetilmişse, çarpık veya istenmeyen tahminlerle sonuçlanabilir. Önyargılı modeller, toplumda olumsuz etkilere neden olabilir. Bu nedenle algoritmik önyargı, veri eğitimi tam olarak hazırlanmamışsa ortaya çıkabilecek potansiyel bir sorundur. Makine öğrenimi etiği, giderek bir çalışma alanı haline gelmektedir ve özellikle makine öğrenimi mühendisliği ekiplerine entegre edilmektedir.