Understanding Web Users
Almost every American research university and library has made significant investments in digitizing its intellectual and cultural resources and making them publicly available. Hampir setiap universitas riset Amerika dan perpustakaan telah membuat investasi yang signifikan dalam digitalisasi sumber daya intelektual dan budaya dan membuatnya tersedia untuk umum. There is, however, little empirical data about how these resources are actually used or who is using them ( Harley , 2007). Namun ada, data empiris sedikit tentang bagaimana sumber daya yang benar-benar digunakan atau yang menggunakan mereka ( Harley , 2007). Those who fund and develop digital resources have identified the general lack of knowledge about the level and quality of their use in educational settings as pressing concerns. Mereka yang dana dan mengembangkan sumber daya digital telah mengidentifikasi kurangnya pengetahuan tentang tingkat dan kualitas penggunaannya dalam pengaturan pendidikan sebagai keprihatinan menekan. As part of a larger investigation into use and users of digital resources ( Harley et al . , 2006), 1 we conducted an experimental analysis of two commonly-used methods for exploring the use of university-based Web-based resources: transaction log analysis (TLA) and online site surveys. Sebagai bagian dari penyelidikan yang lebih besar mulai digunakan dan pengguna sumber daya digital ( et al. Harley , 2006), 1 kami melakukan analisis eksperimental dua metode yang umum digunakan untuk menjelajahi penggunaan berbasis web berbasis sumber daya universitas: log analisis transaksi (TLA) dan survei situs online. In this article, we first provide an overview of these two methods, including their key challenges and limitations. Pada artikel ini, kami pertama kali memberikan gambaran dari dua metode ini, termasuk tantangan utama mereka dan keterbatasan. We then describe an implementation of TLA and online surveys in combination on two local sites and the results of that test, including an exploration of the surveys' response rates and bias. Kami kemudian menjelaskan implementasi dari TLA dan survei online dalam kombinasi pada dua situs lokal dan hasil tes itu, termasuk eksplorasi tingkat respons survei 'dan bias. From that test, we draw conclusions about the utility of these two methods and the particular analytic methods that may provide the most valuable and efficient results. Dari pengujian itu, kami menarik kesimpulan tentang kegunaan dari dua metode ini dan metode analitik tertentu yang dapat memberikan hasil yang paling berharga dan efisien.Background Latar belakang
TLA and online surveys explore slightly different aspects of a site's use and users; they can be complementary tools, and the combination of the two may allow a deeper understanding of a site's use than either alone. TLA dan survei online mengeksplorasi aspek-aspek yang sedikit berbeda menggunakan situs dan pengguna, mereka bisa menjadi alat pelengkap, dan kombinasi dari kedua memungkinkan pemahaman yang lebih dalam menggunakan situs dari baik sendiri. For example, many Web sites use online surveys to learn more about their users. Misalnya, situs web banyak menggunakan survei online untuk mempelajari lebih lanjut tentang pengguna mereka. Among their strengths, surveys can be used to develop a profile of the site's visitors and their attitudes, behavior, and motivations. Di antara kekuatan mereka, survei dapat digunakan untuk mengembangkan profil pengunjung situs dan sikap mereka, perilaku, dan motivasi. In particular, sites often employ surveys to determine personal information about their users, to discover users' reasons and motivations for visiting the site, and to explore user satisfaction levels. Secara khusus, situs sering menggunakan survei untuk menentukan informasi pribadi tentang pengguna, untuk menemukan alasan pengguna dan motivasi untuk mengunjungi situs tersebut, dan untuk mengeksplorasi tingkat kepuasan pengguna. Transaction log analysis (TLA), on the other hand, can describe the actual usage of the site, including the relative usage volume of different resources, the details of users' navigation paths, the referring pages that led users to the site, and the search terms used to locate or navigate the site. Transaksi log analisis (TLA), di sisi lain, dapat menggambarkan penggunaan yang sebenarnya dari situs, termasuk volume relatif penggunaan sumber daya yang berbeda, rincian jalur navigasi pengguna, halaman-halaman merujuk yang menyebabkan pengguna ke situs, dan istilah pencarian yang digunakan untuk mencari atau menelusuri situs tersebut. It is a particularly valuable method, either alone or in combination with online surveys, because the usage data are collected automatically and passively; the method records actual user behavior on a site rather than relying on self-reports. Ini adalah metode yang sangat berharga, baik sendiri atau dalam kombinasi dengan survei online, karena penggunaan data dikumpulkan secara otomatis dan pasif, metode catatan perilaku pengguna aktual di lapangan daripada mengandalkan laporan diri.Although these two methods are widely used, there seems to be some ambiguity about the best way to implement them and to report the results, particularly for educational resources ( Troll Covey , 2002; Mento and Rapple , 2003). Meskipun kedua metode ini banyak digunakan, tampaknya ada beberapa ambiguitas tentang cara terbaik untuk menerapkan mereka dan melaporkan hasilnya, terutama untuk sumber daya pendidikan ( Troll Covey , 2002; Mento dan Rapple , 2003). This lack of consensus makes it difficult to interpret statistics for different sites and to compare one site with another ( Bishop , 1998). Kurangnya konsensus membuat sulit untuk menginterpretasikan statistik untuk situs yang berbeda dan untuk membandingkan satu situs dengan yang lain ( Bishop , 1998). Both TLA and online surveys can be time-consuming and labor-intensive and, unless research and analytic methods are sound, the results may be ambiguous or even misleading. Baik TLA dan survei online dapat memakan waktu dan tenaga kerja-intensif dan, kecuali penelitian dan metode analitik adalah suara, hasilnya mungkin akan ambigu atau bahkan menyesatkan. Online surveys often suffer from disappointingly low response rates and biased samples, resulting in potentially misleading interpretations. Survei online sering menderita angka respon sangat rendah dan sampel bias, sehingga interpretasi berpotensi menyesatkan.
Transaction log analysis Transaksi log analisis
Transaction log analysis (TLA) takes advantage of the computerized log files that automatically record online access to any Web site. Transaksi log analisis (TLA) mengambil keuntungan dari file log komputerisasi yang secara otomatis merekam akses online ke situs Web. By analyzing these logs, one can determine a number of characteristics of the site's users and summarize total site use. Dengan menganalisis log ini, kita dapat menentukan sejumlah karakteristik pengguna situs dan meringkas menggunakan situs total.There are significant challenges to assessing the use and usability of digital collections through transaction log analysis ( Troll Covey , 2002). Bishop's (1998) previous research suggested many of the same issues. Ada tantangan yang signifikan untuk menilai penggunaan dan kegunaan dari koleksi digital melalui log analisis transaksi ( Troll Covey , 2002). Bishop (1998) penelitian sebelumnya disarankan banyak masalah yang sama.
- Because the logs identify only the client computer, it is usually not possible to identify individual users or track them over time with 100 percent accuracy. Karena log hanya mengidentifikasi komputer client, biasanya tidak mungkin untuk mengidentifikasi pengguna individu atau melacak mereka dari waktu ke waktu dengan 100 persen ketepatan. It can be difficult to determine which log records are associated with the same user. Ini bisa sulit untuk menentukan catatan log yang terkait dengan pengguna yang sama. The user's IP address is often used as a proxy for a user identifier, but the IP address is not a perfect identifier in all cases: Alamat IP pengguna sering digunakan sebagai proxy bagi pengguna identifier, namun alamat IP tidak sempurna identifier dalam semua kasus:
- The same user may visit a site from several IP addresses. Pengguna yang sama dapat mengunjungi situs dari beberapa alamat IP. Users with dial-up connections or on other types of networks will have dynamically assigned IP addresses that vary from session to session, or even within a session. Pengguna dengan koneksi dial-up atau jenis lain jaringan akan memiliki alamat IP yang ditetapkan secara dinamis yang berbeda dari sesi ke sesi, atau bahkan dalam sesi.
- Several users may share one IP address. Beberapa pengguna dapat berbagi satu alamat IP. A public library or campus terminal may be used by many users to access a site. Sebuah perpustakaan umum atau terminal kampus dapat digunakan oleh banyak pengguna untuk mengakses situs. Also, small networks frequently share one IP address, so different users on different computers may still appear to originate from a single IP address. Juga, jaringan kecil sering berbagi satu alamat IP, pengguna begitu berbeda pada komputer yang berbeda mungkin masih muncul berasal dari alamat IP tunggal.
- Each IP address can be associated with a particular hostname, but the IP address (or even the hostname) may not reveal anything of interest about the actual person. Setiap alamat IP dapat dikaitkan dengan hostname tertentu, namun alamat IP (atau bahkan nama host) tidak dapat mengungkapkan sesuatu yang menarik tentang orang yang sebenarnya.
- Analyses may attempt to use hostnames to identify characteristics of individual users, such as their country of origin, educational status, or institutional affiliation; however, these analyses can be unreliable or even misleading: Analisis mungkin mencoba untuk menggunakan nama host untuk mengidentifikasi karakteristik pengguna individu, seperti negara asal mereka, status pendidikan, atau afiliasi kelembagaan, namun analisis ini bisa diandalkan atau bahkan menyesatkan:
- Researchers may attempt to identify users from colleges and universities by looking for hits from .edu domains. Peneliti akan berusaha untuk mengidentifikasi pengguna dari perguruan tinggi dan universitas dengan mencari hits dari. Domain edu. Many educational users, however, rely on commercial dialup for home access, where the commercial IP address has no bearing on the user's educational status. pengguna pendidikan Namun, banyak mengandalkan dialup komersial untuk mengakses rumah, di mana alamat IP komersial tidak memiliki bantalan pada status pendidikan pengguna.
- Hostnames can be used to attempt to locate users geographically, particularly for hits from international (country code) domains. Nama host yang dapat digunakan untuk mencoba untuk menemukan pengguna geografis, khususnya untuk hits dari internasional domain (kode negara). Most users, however, still originate from generic top-level domains (without country codes), which are difficult or impossible to pinpoint geographically based on the hostname or IP address alone. Sebagian besar pengguna, namun masih berasal dari domain tingkat atas generik (tanpa kode negara), yang sulit atau tidak mungkin untuk menentukan secara geografis berdasarkan nama host atau alamat IP sendiri.
- In addition, hostname lookup may not be 100 percent reliable, due to incomplete or out-of-date DNS records; these records may be less reliable for international domains. Selain itu, hostname lookup mungkin tidak 100 persen diandalkan, karena tidak lengkap atau out-of-date catatan DNS; catatan ini mungkin kurang dapat diandalkan untuk domain internasional.
- Other, more advanced geolocation techniques exist and have improved dramatically since the 1990s, but they can be quite expensive and are still not 100 percent accurate. Lain-lain, teknik geolocation lebih maju ada dan telah meningkat secara dramatis sejak tahun 1990, tetapi mereka dapat cukup mahal dan masih belum 100 persen akurat. MIT's OpenCourseWare analysis used the Akamai service to help locate its users geographically ( Carson , 2004). MIT OpenCourseWare analisis menggunakan Akamai layanan untuk membantu menemukan penggunanya geografis ( Carson , 2004).
- Proxy servers limit the reliability of server logs: if the requested page is in the proxy server's cache, the Web server will not be contacted, and will have no record of that access. Proxy server membatasi keandalan server log: jika halaman yang diminta dalam cache server proxy, server Web tidak akan dihubungi, dan tidak memiliki catatan akses.
- Not all Web browser events are logged by the Web server. Tidak semua peristiwa browser Web akan dicatat oleh server web. For example, the Web server is generally oblivious to the user pressing the back button, because the page will be reloaded from the Web browser's cache. Sebagai contoh, Web server umumnya menyadari pengguna menekan tombol kembali, karena halaman tersebut akan reloaded dari cache browser Web. Even though hours may pass, when a user re-visits a site later, that site may still be loaded from the browser cache instead of the Web site, effectively evading logging. Meskipun jam dapat lulus, ketika ulang pengguna mengunjungi situs kemudian, situs yang masih dapat diambil dari cache browser, bukan situs Web, efektif menghindari penebangan. Other events such as scrolling the window, switching applications, and periods of computer inactivity are also not logged. kejadian lain seperti bergulir jendela, aplikasi switching, dan periode aktif komputer juga belum login.
- Cookies can serve as a better user identifier than an IP address, but while every Internet user has a relatively inflexible IP address, users can control the cookies placed on their system (and many users block cookies). Cookie dapat berfungsi sebagai pengidentifikasi pengguna yang lebih baik daripada alamat IP, tetapi sementara setiap pengguna internet memiliki alamat IP yang relatif tidak fleksibel, pengguna dapat mengontrol cookie ditempatkan pada sistem mereka (dan banyak pengguna cookies blok). For example, a cookie can be copied to other computers, deleted, or systematically modified by users for their own purposes, all of which will impact logging. Sebagai contoh, cookie bisa disalin ke komputer lain, dihapus, atau dimodifikasi secara sistematis oleh pengguna untuk keperluan mereka sendiri, yang semuanya akan berdampak logging.
- More advanced TLA techniques (using some high-end analysis tools) may require extensive site modifications. Lebih lanjut TLA teknik (menggunakan beberapa alat analisis high-end) mungkin membutuhkan modifikasi situs yang luas. Many commercial packages require the placement of a special HTML tag on each page to facilitate the software's best features. Banyak paket komersial membutuhkan penempatan tag HTML khusus pada setiap halaman untuk memfasilitasi fitur perangkat lunak terbaik. Other techniques require JavaScript code embedded in the site's pages or invisible Macromedia Flash files that set Flash "cookies." Teknik lainnya memerlukan kode JavaScript tertanam di halaman situs atau tak terlihat Macromedia Flash file yang membuat Flash "cookies." These modifications require considerable expertise and place an additional burden on the site designer or manager, particularly for small or understaffed organizations. Modifikasi ini membutuhkan keahlian dan menempatkan beban tambahan pada perancang situs atau manajer, khususnya untuk organisasi kecil atau kekurangan.
Online surveys Survei online
An online survey can be a valuable complement to transaction log analysis for studying the use and users of a Web site; while TLA can reveal users' actual online behavior and usage patterns, surveys can reveal users' motivations, goals, attitudes, and satisfaction levels ( Evans and Mathur , 2005). Sebuah survei online dapat menjadi berharga pelengkap analisis transaksi log untuk mempelajari penggunaan dan pengguna situs Web, sedangkan TLA dapat mengungkapkan perilaku aktual online dan pola penggunaan, survei bisa mengungkapkan pengguna pengguna motivasi, tujuan, sikap, dan tingkat kepuasan ( Evans dan Mathur , 2005). In the past decade, online surveys have become more widespread for a variety of reasons ( Fricker and Schonlau , 2002; Gunn , 2002). Dalam dekade terakhir, survei online telah menjadi lebih luas karena berbagai alasan ( Fricker dan Schonlau , 2002; Gunn , 2002). Online surveys provide some cost and convenience advantages over other survey modes, but they also raise some problems that warrant careful consideration ( Evans and Mathur , 2005). Survei Online memberikan beberapa keuntungan dan kemudahan biaya atas mode survei lain, tetapi mereka juga menimbulkan beberapa masalah yang menjamin pertimbangan yang cermat ( Evans dan Mathur , 2005).Online surveys can take a variety of forms. survei online dapat mengambil berbagai bentuk. Surveys can be administered online as part of a traditional, well-developed survey methodology involving a defined population of interest; an explicit sampling method for generating a representative sample; a well-thought-out recruitment strategy; carefully calculated response rates; and statistical estimates of the likelihood of response bias. Survei dapat diberikan secara online sebagai bagian dari metodologi, survei tradisional berkembang dengan baik yang melibatkan populasi tertentu kepentingan; metode sampling eksplisit untuk menghasilkan sampel yang representatif, sebuah strategi perekrutan baik pikir-out; hati-hati menghitung tingkat respon, dan estimasi statistik dari kemungkinan bias respon. Increasingly, however, online surveys are posted on a Web site and made available to anyone who happens upon them. Semakin Namun, survei online diposting di situs Web dan tersedia untuk siapa saja yang terjadi atas mereka. These surveys rarely have a defined population or sampling method; with no way of tracking those who do or don't complete the survey, it is often impossible to report a response rate or estimate response bias. Survei ini jarang memiliki populasi tertentu atau metode sampling, dengan tidak ada cara untuk melacak mereka yang atau tidak menyelesaikan survei, sering tidak mungkin untuk melaporkan tingkat tanggapan atau bias estimasi respons.
When one designs a survey instrument for online administration, a variety of new options are available for question structure, layout, and design ( Gunn , 2002; Schonlau et al . , 2002; Faas , 2004). Ketika satu rancangan instrumen survei untuk administrasi online, berbagai opsi baru yang tersedia untuk struktur pertanyaan, tata letak, dan desain ( Gunn , 2002; Schonlau et al. , 2002; Faas , 2004). Important issues in instrument design include question wording, survey navigation and flow, skip patterns, survey length, and the graphical layout of the instrument. Isu penting dalam desain instrumen termasuk kata pertanyaan, navigasi survei dan arus, lompat pola, panjang survei, dan tata letak grafis dari instrumen. Computerization allows the design of more complicated skip patterns and question randomization. Komputerisasi memungkinkan desain lebih rumit skip pola dan pengacakan pertanyaan. Additionally, it is possible to program automatic data checks and verification to disallow the entry of inconsistent responses. Selain itu, adalah mungkin untuk memeriksa data program otomatis dan verifikasi untuk tidak mengizinkan masuknya tanggapan yang tidak konsisten.
The automation of data collection and analysis can result in an economy of scale, making online surveys much more cost efficient, especially for large sample sizes. Otomatisasi pengumpulan data dan analisis dapat mengakibatkan perekonomian skala, membuat survei online harganya jauh lebih efisien, terutama untuk ukuran sampel yang besar. Automation can also mean that data (and basic analyses) are available in a much shorter timeframe – even instantaneously. Otomasi juga dapat berarti bahwa data (dan analisis dasar) yang tersedia dalam jangka waktu yang lebih singkat - bahkan seketika. [A more detailed exploration of techniques for survey design, administration, and analysis can be found in Rossi, Wright, and Anderson (1983) and Fowler (2002).] [Sebuah eksplorasi yang lebih rinci teknik untuk desain survei, administrasi, dan analisis dapat ditemukan di Rossi, Wright, dan Anderson (1983) dan Fowler (2002).]
Survey response rates Survei tingkat respon
Survey response rates are of some concern to researchers, as rates for all types of surveys have been on the decline since the 1990s ( Johnson and Owens , 2003; Baruch , 1999). Survei tingkat respons dari beberapa kekhawatiran para peneliti, sebagai harga untuk semua jenis survei telah pada penurunan sejak tahun 1990 ( Johnson dan Owens , 2003; Barukh , 1999). Evidence suggests that response rates for online surveys are lower than for other media and continue to shrink ( Fricker and Schonlau , 2002). Bukti menunjukkan bahwa tingkat respon untuk survei online lebih rendah daripada untuk media lain dan terus menyusut ( Fricker dan Schonlau , 2002). In traditional social science survey research, sampling methods are designed to ensure that the survey respondents are representative of the population of interest. Dalam penelitian ilmu sosial tradisional survei, metode sampling dirancang untuk memastikan bahwa responden survei adalah wakil dari populasi bunga. If the sample is representative and the response rate is high, the survey results can shed light on the characteristics of the population. Jika sampel representatif dan tingkat respons yang tinggi, hasil survei dapat menjelaskan karakteristik penduduk. If, on the other hand, response rates are low or the sample is known to be non-representative, it is possible – even likely – that the survey results will be misleading. Jika, di sisi lain, tingkat respon rendah atau sampel yang dikenal non-representatif, sangat mungkin - bahkan mungkin - bahwa hasil survei akan menyesatkan. (A large response rate alone is no guarantee that the respondents are representative.) (Tingkat respon besar saja ada jaminan bahwa responden yang representatif.)Sampling techniques and the measurement of response rates, however, are a particular challenge when a survey is posted online and made available to any Web user anonymously, without active recruitment or sampling. Teknik sampling dan pengukuran tingkat respons, bagaimanapun, adalah sebuah tantangan tertentu ketika survei dipasang online dan tersedia untuk setiap pengguna Web secara anonim, tanpa rekrutmen aktif atau sampling. In such an environment, the population of users and the characteristics of the respondents are essentially unknown, making it difficult to report response rates and even more difficult to estimate the survey's response bias. Dalam lingkungan seperti itu, populasi pengguna dan karakteristik responden pada dasarnya tidak diketahui, sehingga sulit untuk melaporkan tingkat respon dan bahkan lebih sulit untuk memperkirakan bias respon survei. The lack of knowledge of the complete population also makes it difficult to design appropriate sampling frames. Kurangnya pengetahuan penduduk lengkap juga membuat sulit untuk merancang frame sampling yang sesuai.
Measuring response rates is a particular challenge for online surveys, partly because of the tricky definition of "response." Bosnjak and Tuten (2001) identify distinct response types, including lurkers (who view a survey without responding), drop-outs (who complete the beginning of a survey without continuing), item non-responders (who omit individual questions), and complete non-responders. Mengukur tingkat respons merupakan tantangan khusus untuk survei online, sebagian karena definisi rumit dari "respon." Bosnjak dan Tuten (2001) mengidentifikasi jenis respon yang berbeda, termasuk lurkers (yang melihat survei tanpa menanggapi), drop-out (yang lengkap awal survei tanpa terus), item non-responden (yang menghilangkan pertanyaan individu), dan lengkap non-responden. Complicating the picture is the common practice of offering various rewards to increase participant motivation. Complicating gambar adalah praktek umum yang menawarkan berbagai hadiah untuk meningkatkan motivasi peserta. The use of rewards and incentives can introduce response bias, however. Penggunaan penghargaan dan insentif dapat memperkenalkan bias respon, namun. Individuals who are motivated to respond by a specific reward may not be representative of the whole study population. Individu yang termotivasi untuk menanggapi dengan hadiah tertentu mungkin tidak mewakili keseluruhan populasi penelitian.
Methods and Results: Testing response bias in online surveys Metode dan Hasil: Pengujian bias respon dalam survei online
We conducted a test on two local sites, using a combination of TLA and online surveys, to explore the effectiveness of these two methods for elucidating patterns of use and to explore survey response rates and bias. Kami melakukan tes pada dua situs lokal, menggunakan kombinasi survei TLA dan online, untuk mengeksplorasi efektivitas dua metode untuk menjelaskan pola penggunaan dan untuk mengeksplorasi tingkat respon survei dan bias. We selected two sites for our analysis: SPIRO , which provides online access to the UC Berkeley Architecture Department slide library, and The Jack London Collection , which features a wide variety of resources about the early-twentieth-century American author. Kami memilih dua lokasi untuk analisis kami: Spiro , yang menyediakan akses online ke perpustakaan Jurusan Arsitektur Berkeley UC slide, dan The Jack London Koleksi , yang dilengkapi dengan berbagai sumber daya tentang abad kedua puluh penulis Amerika-awal.We placed short surveys on the homepages of both sites for a two-month period and collected the sites' transaction logs from the same period. Kami ditempatkan survei singkat tentang kedua situs homepage untuk jangka waktu dua bulan dan dikumpulkan transaksi situs 'log dari periode yang sama. After analyzing the logs and the survey responses individually, we combined the two by matching each survey response with the logs from the same Web user. Setelah menganalisis log dan tanggapan survei secara individual, kami menggabungkan dua cara mencocokkan masing-masing respon survei dengan log dari pengguna Web yang sama. (We identified individual users by the combination of IP address and user agent.) We then used this combined dataset to estimate each survey's response rate and to attempt to quantify the self-selection bias among the respondents. (Kami mengidentifikasi pengguna individual oleh kombinasi alamat IP dan user agent.) Kami kemudian menggunakan dataset dikombinasikan untuk memperkirakan tingkat respon masing-masing survei dan mencoba untuk mengukur bias seleksi diri di antara responden. More information about the tests, including the survey instruments and analyses, can be found on our project Web site . Informasi lebih lanjut tentang tes, termasuk instrumen survei dan analisis, dapat ditemukan di kami situs Web proyek .
