bookmate game
ru
Хенрик Бринк,Джозеф Ричардс,Марк Феверолф

Машинное обучение

Obavesti me kada knjiga bude dodata
Da biste čitali ovu knjigu otpremite EPUB ili FB2 datoteku na Bookmate. Kako da otpremim knjigu?
  • Анастасия Мещеряковаje citiraoпре 2 године
    конечном счете, для обхода этой проблемы из набора данных была попросту удалена вся информация об оплаченных наличными поездках. Изначально поставленная задача изменилась — теперь мы прогнозировали частоту чаевых только для случаев оплаты картой. Отказываться от части информации никогда не хочется. Но предположение о недостаточной достоверности сведений при оплате наличными нашло подтверждение в данных, соответственно мы поняли, что лучше всего использовать только проверяемые сведения и немного поменять формулировку задачи. Разумеется, гарантия корректности остальных записей о чаевых тоже отсутствует, но можно по крайней мере проверить новое распределение сумм
  • Анастасия Мещеряковаje citiraoпре 2 године
    А сколько человек из расплачивающихся наличными оставляет чаевые? Все?

    На самом деле никто! Мы быстро это поняли. При оплате наличными водитель не регистрирует чаевые должным образом, и они просто не попадают в данные. Рассмотрев ситуацию с точки зрения здравого смысла, мы обнаружили миллионы потенциальных злоупотреблений в системе нью-йоркского такси!
  • Анастасия Мещеряковаje citiraoпре 2 године
    Эти методы называются прямым отбором (forward selection) и обратным исключением (backward elimination) соответственно.
  • Анастасия Мещеряковаje citiraoпре 2 године
    выбор признаков и связанная с этим процессом концепция важности признака (feature importance) помогают увидеть взаимосвязи внутри модели и в использовавшихся для ее построения данных.
  • Анастасия Мещеряковаje citiraoпре 2 године
    итерационные методы отбора, которые мы сейчас рассмотрим. Они базируются на одном из двух принципов: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество, или же начать со всех доступных признаков и последовательными итерациями исключить самые худшие. Поиск останавливается после того, как добавление или исключение новых признаков перестает влиять на уровень точности,
  • Анастасия Мещеряковаje citiraoпре 2 године
    Предположим, мы начали работать с текстом из ста слов. При этом появится множество столбцов с распространенными, но не несущими информации словами, такими как предлоги, частицы, артикли. В теории поиска информации они называются шумовыми, или стоп-словами (stop words), и обычно удаляются из текста перед подсчетом для «мешка слов».
  • Анастасия Мещеряковаje citiraoпре 2 године
    более сложными концепциями текстовых признаков мы познакомим вас в следующей главе, пока же упомянем всего один осложняющий фактор — «мешок слов» быстро становится большим и разреженным. Появляется множество признаков, по большей части заполненных нулями, так как вероятность появления конкретных слов в произвольном фрагменте текста стремится к нулю.
  • Анастасия Мещеряковаje citiraoпре 2 године
    В большинстве случаев «мешок слов» строится для всего набора данных, а затем слова, появляющиеся в тексте чаще всего, превращаются в столбцы. Для остальных слов создается обобщающий столбец, позволяющий оценить полную длину текста.
  • Анастасия Мещеряковаje citiraoпре 2 године
    Но только такие признаки, как прошедшее с момента последней регулировки станка время и объем производимой продукции, дадут истинное представление о динамических аспектах процесса производства.
  • Анастасия Мещеряковаje citiraoпре 2 године
    Аналогично тому, как признаки datetime не могут напрямую использоваться моделью, так как не являются ни численными, ни категориальными, нельзя напрямую скормить ML-алгоритму и произвольный текст. Требуется предварительная обработка, приводящая его к одному из двух вышеуказанных типов. Для превращения текста в ML-признаки воспользуемся методом, который называется «мешок слов» (bag of words). В его основе лежит простая идея: мы считаем количество вхождений каждого слова в текст и вставляем в набор данных столбец с соответствующим числом. При этом, как обычно, мы сталкиваемся с усложняющими ситуацию факторами.
fb2epub
Prevucite i otpustite datoteke (ne više od 5 odjednom)